首页> 中国专利> 一种安全事故案例结构化信息抽取方法、装置及介质

一种安全事故案例结构化信息抽取方法、装置及介质

摘要

本发明公开了一种安全事故案例结构化信息抽取方法、装置及介质,属于信息抽取技术领域。该方法主要包括对从网络中获取的安全事故文本进行甄选得到安全事故案例相关文本;利用安全事故案例相关文本通过摘要提取以及章节树提取得到结构化安全事故案例初步信息;对结构化安全事故案例初步信息进行去重处理得到结构化安全事故案例信息。本发明将信息抽取技术应用到安全事故案例上,将长文本的安全事故案例抽取成结构化的信息,为支持数据挖掘、规律分析等数据分析操作奠定基础。

著录项

  • 公开/公告号CN112487293A

    专利类型发明专利

  • 公开/公告日2021-03-12

    原文格式PDF

  • 申请/专利权人 增长引擎(北京)信息技术有限公司;

    申请/专利号CN202011373061.4

  • 申请日2020-11-30

  • 分类号G06F16/9535(20190101);G06F16/26(20190101);G06F40/289(20200101);G06F40/30(20200101);G06N3/02(20060101);G06N20/00(20190101);G06K9/62(20060101);

  • 代理机构11862 北京国科程知识产权代理事务所(普通合伙);

  • 代理人曹晓斐

  • 地址 100085 北京市海淀区清河永泰园甲1号综合楼2层238号

  • 入库时间 2023-06-19 10:11:51

说明书

技术领域

本发明涉及信息抽取领域技术领域,特别涉及生产安全事故案例结构化信息抽取方法、装置及存储介质。

背景技术

在信息爆炸的今天,网络信息过于丰富,人工阅读网络文件并从中提取结构化信息的速度较慢。因此,信息抽取技术应运而生。信息抽取技术能够在短时间内准确获得网络文件中所包含的关键信息,并且结构化地展示出来,使用户有快速并准确的获取网络文件的关键信息。

目前,现有的信息抽取技术一般只针对于通用领域,但是针对于安全事故案例领域还没有一个可以满足需求的解决方案。因此,引入解决安全事故案例结构化信息抽取问题的方法十分有必要的。

在对事故案例进行信息抽取之前,需要预先定义一份科学的有意义的事故案例属性体系。在定义好案例属性结构之后,再针对不同的属性对生产安全事故案例进行信息抽取。

通过对进行安全事故进行信息抽取,能够获取各类事故的发生特点、演化规律、处置经验、影响后果等结构化案例信息,可以为巡查执法、预警研判、应急指挥、警示教育等工作提供智慧化类案支持和辅助参考。

发明内容

针对现有技术存在的问题,本发明主要提供一种安全事故案例结构化信息抽取方法、装置及介质。

为了实现上述目的,本发明采用的一个技术方案是:提供一种安全事故案例结构化信息抽取方法,其包括:对从网络中获取的安全事故文本进行甄选得到安全事故案例相关文本;利用安全事故案例相关文本通过摘要提取以及章节树提取得到结构化安全事故案例初步信息;对结构化安全事故案例初步信息进行去重处理得到结构化安全事故案例信息。

本发明采用的另一个技术方案是:提供一种安全事故案例结构化信息抽取装置,其包括:用于对从网络中获取的安全事故文本进行甄选得到安全事故案例相关文本的模块;用于利用安全事故案例相关文本通过摘要提取以及章节树提取得到结构化安全事故案例初步信息的模块;用于对结构化安全事故案例初步信息进行去重处理得到结构化安全事故案例信息的模块。

本发明采用的另一个技术方案是:提供一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行方案一中的安全事故案例结构化信息抽取方法。

本发明的技术方案可以达到的有益效果是:本发明设计了一种安全事故案例结构化信息抽取方法、装置及存储介质。该方法将信息抽取技术应用到安全事故案例上,为后续对安全事故案例的数据进行数据挖掘、规律分析等数据分析操作奠定基础。

附图说明

图1是本发明一种安全事故案例结构化信息抽取方法的一个具体实施方式的示意图;

图2是本发明一种安全事故案例结构化信息抽取装置的另一个具体实施方式的示意图;

图3是本发明一种安全事故案例结构化信息抽取方法中的信息抽取方法示意图;

图4是本发明一种安全事故案例结构化信息抽取方法中的实体识别方法示意图;

图5是本发明一种安全事故案例结构化信息抽取方法的章节树抽取方法的示意图;

图6是本发明一种安全事故案例结构化信息抽取方法的去重方法的示意图;

图7是本发明一种安全事故案例结构化信息抽取方法一个具体实施方式示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了本发明一种安全事故案例结构化信息抽取方法的一个具体实施方式。

在该具体实施方式中,安全事故案例结构化信息抽取方法主要包括步骤S101,对从网络中获取的安全事故文本进行甄选得到安全事故案例相关文本。

在本发明的一个具体实施例中,从网络中获取安全事故文本,将从网络中获取的文本进行筛选,剔除无用的文本,得到安全事故案例相关文本。

在本发明的一个具体实例中,利用爬虫软件持续爬取安全事故案例相关的事故报告以及简报,爬取的网站为地方应急管理局或安监局的官方网站等。其中,爬虫系统是一种用来自动浏览万维网的程序或者脚本,用于实现自动得到目标信息的系统。

在本发明的一个具体实例中,对爬取到的一系列文本内容进行筛选过滤,从中甄选出与安全事故案例相关的文本内容,来进行进步的处理和分析。这是因为各网站除了发布安全事故案例信息,也发布一些非安全事故信息。

例如,采用深度学习模型去甄别爬取到的一系列文本信息是事故案例相关文本还是无关文本,其中,深度学习是一类机器学习算法,其能够从原始输入中逐步提取更高级别的特征。

该具体实施例,保证后续对安全事故案例文本进行下一步处理和分析能够进行,同时减少了后续处理过程中的不必要的计算和处理。

在图1所示的具体实施方式中,安全事故案例结构化信息抽取方法,还包括步骤S102,利用所述安全事故案例相关文本通过摘要提取以及章节树提取得到结构化安全事故案例初步信息。

在本发明的一个具体实施例中,如图3,将与安全事故案例相关文本通过文本数据预处理去除无效字符以及进行转换半角全角字符等操作之后,分别进行摘要提取和章节树提取等步骤后,得到该安全事故案例相关文本的结构化安全事故案例初步信息。

该具体实施例,提取了文本的结构化安全事故案例初步信息,为后续对安全事故案例的分析和检索提供了基础。

在本发明的一个具体实施例中,步骤S102还包括,从安全事故案例相关文本中提取摘要,从所述摘要中提取得到关键实体信息。

在本发明的一个具体实例中,将安全事故案例相关文本中进行预处理,从完成预处理操作的安全事故案例相关文本提取可以概括整个安全事故案例相关文本的关键信息的事故摘要,本发明利用抽取式摘要生成模型,抽取安全事故案例相关文本的关键信息。本发明利用基于深度学习的文本二分类模型,从安全事故案例相关文本中抽取包含安全事故案例概要信息。在获取完安全事故案例概要信息之后,利用实体识别模型,从安全事故案例概要信息中提取实体信息,例如事故发生的年月日、事故发生的地点、事故类型、死伤人数、经济损失等。

在本发明的一个具体实例中,如图4,实体识别方法是:先将通过摘要提取方式抽取的安全事故案例概要信息进行分词处理;将完成分词的概要信息利用基于词向量模型进行向量化;利用双向循环神经网络,将先完成向量化的概要信息进一步提取语义特征;利用序列标注模型来对语义特征的输入序列进行标签预测;最后通过一些去重、合并等后处理操作,获得安全事故案例概要信息中所包含的实体信息。

该具体实施例,通过摘要提取方式提取了安全事故案例概要信息中的实体信息,查找出了安全事故文本中的重点信息,减少读者的阅读量,加快了信息获取的时间。

在本发明的一个具体实施例中,步骤S102还包括,从所述安全事故案例相关文本中提取树状章节信息,从所述树状章节信息中提取得到关键段落和/或关键实体信息。

在本发明的一个具体实例中,如图5,将完成预处理的安全事故相关文本,进行提取树状章节信息操作,得到安全事故相关文本的树状章节信息。针对不同类型的安全事故相关文本,采用不同的树状章节信息提取方法。当安全事故相关文本是纯文本类型时,通过规则模板来提取树状章节信息;当安全事故相关文本是word文档时,则通过在word文档内利用一定的规则处理逻辑来提取树状章节信息。

在本发明的一个具体实例中,在获得安全事故相关文本的树状章节信息之后,进行关键段落提取。在获得树状章节信息之后,利用预先设置的规则引擎和分类模型,从树状章节信息中提取关键的段落,例如,有关事故发生经过的段落、有关事故原因的段落、有关责任处理建议的段落、有关防范建议的段落等。

在本发明的一个具体实例中,当安全事故相关文本中的部分关键信息缺失时,在获得安全事故相关文本的树状章节信息之后,从树状章节信息中选取部分文本进行实体识别操作来对摘要中的缺失信息进行补充。

在本发明的一个具体实例中,在获得安全事故相关文本的树状章节信息之后,将树状章节信息同时进行关键段落提取和实体识别操作。

该具体实施例,通过进行树状章节信息提取,完善了安全事故相关文本的关键信息,使安全事故相关文本的关键信息更加全面和准确。

在图1所示的具体实施方式中,安全事故案例结构化信息抽取方法,还包括步骤S103,对结构化安全事故案例初步信息进行去重处理得到结构化安全事故案例信息。

在本发明的一个具体实施例中,如图6,在获得结构化安全事故案例初步信息之后,需要通过比较结构化安全事故案例初步信息的相似性,对结构化安全事故案例初步信息进行去重。这是因为同一安全事故案例一般会在多个网站都有发布,因此,针对同一安全事故案例可能存在多组结构化安全事故案例初步信息,且结构化安全事故案例初步信息有一定部分的内容存在重复性。

该具体实施例,通过比较结构化的案例信息的相似性,去除了结构化安全信息中的重复内容,减少了同一安全事故案例的结构化安全信息重复出现,降低了重复性。

在本发明的一个具体实施例中,步骤S103还包括,根据结构化安全事故案例初步信息中的原文全文、字符串属性和数值型属性三者中的至少一者进行计算,判断文本的解析结果相似度。

在本发明的一个具体实例中,通过计算多组结构化安全事故案例初步信息的原文全文的相似度,来实现判断文本的解析结果相似度的目的。

在本发明的一个具体实例中,通过计算多组结构化安全事故案例初步信息的字符串属性的相似度,来实现判断文本的解析结果相似度的目的。

在本发明的一个具体实例中,通过计算多组结构化安全事故案例初步信息的数值型属性的相似度,来实现判断文本的解析结果相似度的目的。

在本发明的一个具体实例中,通过计算多组结构化安全事故案例初步信息的原文全文和字符串属性的相似度,来实现判断文本的解析结果相似度的目的。

在本发明的一个具体实例中,通过计算多组结构化安全事故案例初步信息的原文全文和数值型属性的相似度,来实现判断文本的解析结果相似度的目的。

在本发明的一个具体实例中,通过计算多组结构化安全事故案例初步信息的字符串属性和数值型属性的相似度,来实现判断文本的解析结果相似度的目的。

在本发明的一个具体实例中,通过计算多组结构化安全事故案例初步信息的原文全文、字符串属性和数值型属性的相似度,来实现判断文本的解析结果相似度的目的。

该具体实施例,通过比较多组结构化安全事故案例初步信息的多种属性,将结构化安全事故案例信息按照不同属性进行去重,增加了去重处理的准确性和可靠性。

在本发明的一个具体实施例中,步骤S103还包括,通过比较原文全文中的词向量的散列值,得到文本的解析结果的相似度。

在本发明的一个具体实例中,对原文全文进行去重操作时,首先将原文文本中的空白字符等干扰字符进行去除。完成去除后,将原文文本进行分词得到原文文本的词向量。通过其词向量来计算原文文本的散列值,再与同一安全事故案例的另一原文文本的散列值进行比较,得出二者的原文相似度。这是因为在针对结构化安全事故案例初步信息的原文文本属性进行去重处理时,结构化安全事故案例初步信息的原文文本的篇幅较长,且从不同网站中获取得到的针对同一安全事故案例的文本,还会存在多出部分无关结构化安全事故案例初步信息和/或确实部分结构化安全事故案例初步信息。例如,获取到编辑人员名称和/或多出空白字符。

优选的,设计深度学习的编码器将安全事故案例的原文词向量进行编码,再计算两个安全事故案例原文全文的词向量编码之间的相似度,得出二者的原文相似度。

该具体实施例,通过比较原文全文的相似度,去除了安全事故案例在原文全文层面上的相似度,减少了安全事故案例的重复性。

在本发明的一个具体实施例中,步骤S103还包括,根据结构化安全事故案例初步信息中的字符串的相似度和/或字符串是否相同,判断文本的解析结果相似度。

在本发明的一个具体实例中,不同的字符串属性需要用不同的相似度计算方法。当结构化安全事故案例初步信息中的字符串长度较长时,首先将字符串进行分词获得结构化安全事故案例初步信息中的字符串的词向量,将结构化安全事故案例初步信息中字符串的词向量累加求得字符串的平均文本向量,利用平均文本向量,计算平均文本向量的相似度,得到不同文本的平均文本向量的相似性;当字符串长度较短时将字符串拆分成单个的字符,将单个字符的向量进行累加求平均计算,得到短字符串的平均字符向量。利用短字符串的平均字符向量,计算不同短字符串的相似度,得到不同短字符串的相似性结果。

在本发明的一个具体实例中,当在对字符串属性的精确性要求较高时,直接比较多者字符串是否相同,当判断结果相同时则为1;当判断结果不同时则为0。

该具体实施例,通过在字符串属性上的去重,减少了同一安全事故案例的信息冗杂和重复性。

在本发明的一个具体实施例中,步骤S103还包括,根据结构化安全事故案例初步信息中的数值的相似度和/或数值是否相同,判断文本的解析结果相似度。

本发明的一个具体实例中,当数值属性精确度要求不高时,通过计算多者数值的比率来计算相似度,得到数值属性的相似度。

本发明的一个具体实例中,当数值型的属性对精确度要求比较高时,直接比较多者数值是否相同,当判断结果相同时则为1,当判断结果不同时则为0。

该具体实施例,通过比较数值型属性的相似度,去除安全事故案例的重复性,减少了重复性的信息。

在本发明的一个具体实施例中,步骤S103还包括,将原文全文相似度和/或字符串的相似度和/或字符串的相似度值进行加权求平均,当所求得的多者安全事故案例的相似度平均值大于阈值,则判定该多者案例相似;当所求得的多者安全事故案例的相似度平均值小于阈值,则判定该多者案例不相似。

该具体实施例,通过考虑不同属性的相似度,全面且分层次的减少了安全事故案例的结构化信息的重复性。

本发明的一个具体实施例中,如图7,安全事故案例结构化信息抽取方法还包括对结构化安全事故案例信息进行,存储操作、推送操作、检索操作、展示操作以及分析操作五种操作中的至少一种操作。

本发明的一个具体实例中,当安全事故案例完成结构化信息抽取后,将安全事故案例完成结构化信息采用分布式索引方式进行存储。

本发明的一个具体实例中,当有新案例进行存储时,将新案例通过预设人员列表推送给工作人员。

本发明的一个具体实例中,操作人员可以通过输入关键词和/句来检索案例库中的案例,获得案例库中的案例信息。

本发明的一个具体实例中,将安全事故案例的各个属性以不同的方式展示在显示页面上,例如,将安全事故案例的结构化信息按照其不同结构显示。

本发明的一个具体实例中,通过挖掘同类型安全事故案例之间的潜在联系,分析案例的一些共性规律,来进行同类型安全事故案例的预警和风险规避。比如分析同类型案例与时间、天气之间的潜在关系。

该具体实施例,使用户能够更加方便快捷的获取安全事故案例信息。

图2示出了本发明一种安全事故案例结构化信息抽取装置的具体实施方式。

在该具体实施方式中,安全事故案例结构化信息抽取装置主要包括:用于对从网络中获取的安全事故文本进行甄选得到安全事故案例相关文本的模块201;

用于利用安全事故案例相关文本通过摘要提取以及章节树提取得到结构化安全事故案例初步信息的模块202;

用于对结构化安全事故案例初步信息进行去重处理得到结构化安全事故案例信息的模块203。

本发明提供的安全事故案例结构化信息抽取装置,可用于执行上述任一实施例描述的安全事故案例结构化信息抽取方法,其实现原理和技术效果类似,在此不再赘述。

在本发明的一个具体实施例中,本发明一种安全事故案例结构化信息抽取装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable Gate Array,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。

在本发明的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,计算机指令被操作以执行方案一中的安全事故案例结构化信息抽取方法。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号