首页> 中国专利> word文档关键信息抽取方法

word文档关键信息抽取方法

摘要

本发明公开了一种word文档关键信息抽取方法,其包括:步骤一、获取源word文档,遍历word文档的段落,对于任一段落,判断段落是否具有模板样式属性,若具有模板样式属性,则进入步骤二,否则进入步骤三;步骤二、根据段落的模板样式属性获取段落信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入至输出文件一中所属信息类别对应的区域;步骤三、基于预设的神经网络模型识别段落的信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入所属信息类别对应的区域。本发明利用了word文档中的模板样式属性的信息,从而极大地提高了word文档抽取关键信息地效率。

著录项

说明书

技术领域

本发明涉及信息内容加工技术领域。更具体地说,本发明涉及一种word文档关键信息抽取方法。

背景技术

现有的MS Word文档关键信息抽取方法主要是由程序员编写特定的程序进行抽取,各种方法的具体差异很大,没有一种固定的标准。现有的关键信息抽取存在不能有效地抽取MS Word文档中有样式的段落;已有技术的可定制性较差,用户很多时候不能选择抽取哪些类型的关键信息;对于无样式的段落,没有一种有效的抽取方案;抽取文件的输出并不规范等缺陷。

发明内容

本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。

本发明还有一个目的是提供一种word文档关键信息抽取方法,本发明利用了word文档段落的模板样式属性地信息,将word文档的段落按照是否具有模板样式属性进行分类,对于不同类型的段落采用不同的关键信息提取方法,极大地提高了word文档关键信息的抽取效率;本发明将抽取的关键信息采用统一格式的文件输出,使得程序的结果更加清晰明了。

为了实现根据本发明的这些目的和其它优点,提供了一种word文档关键信息抽取方法,其包括:

步骤一、获取源word文档,遍历word文档的段落,对于任一段落,判断段落是否具有模板样式属性,若具有模板样式属性,则进入步骤二;若不具有模板样式属性,则进入步骤三;

步骤二、根据段落的模板样式属性获取段落信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入至输出文件一中所属信息类别对应的区域;

步骤三、基于预设的神经网络模型识别段落的信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入至输出文件一中所属信息类别对应的区域。

优选的是,所述的word文档关键信息抽取方法,预设的待抽取关键信息类别列表至少包括标题、正文、表格等类别。

优选的是,所述的word文档关键信息抽取方法,步骤三中,基于预设的神经网络模型识别段落的信息类别具体为:根据预设的格式属性规则,对段落进行预处理,并提取得到特征向量M,将特征向量M输入至预设的神经网络模型中,获取神经网络模型的输出结果,根据输出结果确定段落的信息类别;

其中,M=[m

所述神经网络模型包括三层全连接层,第一层全连接层的输出维度为50;第二层全连接层的输出维度为20,第三层全连接层的输出维度为n;n与预设的待抽取关键信息类别信息中的类别个数相等。

优选的是,所述的word文档关键信息抽取方法,所述格式属性包括字号、字体、文本长度、段间距、是否加黑、是否加粗、是否斜体等中的至少一个。

优选的是,所述的word文档关键信息抽取方法,还包括,步骤四将word文档的所有段落按照预设的格式属性,进行格式处理,并形成新的word文档作为输出文件二。

优选的是,所述的word文档关键信息抽取方法,所述文件一为json格式。

优选的是,所述的word文档关键信息抽取方法,步骤一中获取word文档具体为:填写配置文件,所述配置文件包括待处理的文件名称字段,待处理的文件存储路径字段;读取待处理的文件名称字段,待处理的文件存储路径字段,并解析文件名称、文件存储路径,获取文件;

其中,文件为word文档或文件夹,若文件为word文档时,获取word文档并遍历word文档中的所有段落;若文件为文件夹时,启动多个线程,一个线程对应获取文件夹中的至少一个word文档并遍历word文档中的所有段落。

优选的是,所述的word文档关键信息抽取方法,所述配置文件还包括待抽取的关键信息类别字段;步骤一中,获取word文档的同时,读取待抽取的关键信息类别字段,设置待抽取的关键信息类别形成预设的待抽取的关键信息类别列表。

本发明还提供了一种word文档关键信息抽取装置,其包括:

处理器;

存储器,其存储有可执行指令;

其中,所述处理器被配置为执行所述可执行指令,以执行上述的word文档关键信息抽取方法。

本发明至少包括以下有益效果:

1、本发明利用了word文档段落的模板样式属性地信息,将word文档的段落按照是否具有模板样式属性进行分类,对于不同类型的段落采用不同的关键信息提取方法,极大地提高了word文档关键信息的抽取效率;本发明将抽取的关键信息采用统一格式的文件输出,使得程序的结果更加清晰明了;

2、本发明使用配置文件预存需要抽取的关键信息类别的内容,程序从配置文件中读取配置信息,在对目标word文档进行抽取,从而增加了程序的灵活性和可定制性;

3、对于无样式段落,采用预设的神经网络模型进行计算识别无样式段落的信息类别,再进行有针对性的抽取,极大的提高了无样式段落的处理效率,进而达到word文档的关键信息的抽取效率。

本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述的word文档关键信息抽取方法的流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

在本发明的描述中,术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

本发明提供一种word文档关键信息抽取方法,其包括:

步骤一、获取源word文档,遍历word文档的段落,对于任一段落,判断段落是否具有模板样式属性,若具有模板样式属性,则进入步骤二;若不具有模板样式属性,则进入步骤三;

步骤二、根据段落的模板样式属性获取段落信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入至输出文件一中所属信息类别对应的区域;

步骤三、基于预设的神经网络模型识别段落的信息类别,并与预设的待抽取关键信息类别列表进行匹配,将段落抽取并输入至输出文件一中所属信息类别对应的区域。

在上述技术方案中,本发明利用了word文档段落的模板样式属性地信息,将word文档的段落按照是否具有模板样式属性进行分类,对于不同类型的段落采用不同的关键信息提取方法,极大地提高了word文档关键信息的抽取效率;本发明将抽取的关键信息采用统一格式的文件输出,使得程序的结果更加清晰明了。

另一种技术方案中,所述的word文档关键信息抽取方法,预设的待抽取关键信息类别列表至少包括标题、正文、表格等类别。对文档中的标题、正文和表格三种关键信息进行抽取并按类别汇总在文件一中,以供客户快速获取文档的主要内容,掌握文档的关键、重要信息。

另一种技术方案中,所述的word文档关键信息抽取方法,步骤三中,基于预设的神经网络模型识别段落的信息类别具体为:根据预设的格式属性规则,对段落进行预处理,并提取得到特征向量M,将特征向量M输入至预设的神经网络模型中,获取神经网络模型的输出结果,根据输出结果确定段落的信息类别;

其中,M=[m

所述神经网络模型包括三层全连接层,第一层全连接层的输出维度为50;第二层全连接层的输出维度为20,第三层全连接层的输出维度为n;n与预设的待抽取关键信息类别信息中的类别个数相等。

本发明对于无样式段落,采用预设的神经网络模型进行计算识别无样式段落的信息类别,再进行有针对性的抽取,极大的提高了无样式段落的处理效率,进而达到word文档的关键信息的抽取效率。

对段落进行预处理获取段落对应的特征向量,将特征向量作为神经网络模型的输入值,经过神经网络模型的计算后输出结果,根据输出结果确定段落的信息类别;神经网络具有较好的泛化性能,能够对文档中各个关键信息进行快速、准确的抽取;

本发明采用3层全连接层结构的神经网络模型:

第一层全连接层的输入维度是100,输出维度是50,输入特征维度是100,使用该层提取原始特征,得到隐层的特征;

第二层全连接层的输入维度是50,输出维度是20,使用该层处理隐层特征,相当于对隐层特征乘以一个W矩阵,改变了隐层特征的维度;

第三层全连接层的输入维度是20,根据待抽取的关键信息类别的个数确定第三层全连接层的输出维度的具体数值,且输出维度的数值的排列顺序与待抽取的关键信息类别的排列顺序相同,例如待抽取的关键信息类别为标题、正文和表格三种,则第三层全连接层的输出维度是3,使用softmax将这3个数值变成三个概率值作为神经网络模型的输出结果,如某段落的最终输出结果为(0.2,0.1,0.7),这三个概率值和为1,其中0.2表示该段落为标题的概率为0.2,0.1表示该段落为正文的概率为0.1,0.7表示该段落为表格的概率为0.7,则可确定该段落的信息类别为表格,可将该段落抽取并输入至文件一中表格所存放的区域。

由于是分类问题,所以选择了交叉熵损失函数,用该损失函数计算第三个全连接层的输出值和真实类别之间的差异,得到误差,然后使用反向传播和梯度下降优化第三个全连接层的参数。使用链式法则优化第二个全连接层和第一个全连接层的参数。

本发明采用上述结构的神经网络模型进行文档抽取,在验证集和测试集上的均表现较好的效果,本发明提供的神经网络模型结构简单,运行较快,误差较小,能较准确、较快速的完成文档的关键信息的抽取。

另一种技术方案中,所述的word文档关键信息抽取方法,所述格式属性包括字号、字体、文本长度、段间距、是否加黑、是否加粗、是否斜体等中的至少一个。经过格式属性的特征处理,每个无样式的段落都可以用一个固定维度的向量来表示,向量的每一维度都表示该段落的一个特征,特征可能是离散的,也可能是连续的。例如字体是离散特征,1代表宋体,2代表黑体,3代表隶书,以此类推。而行间距是连续特征,特征的取值就是行间距的数值。如某段落的字体为宋体,字号为二号字体,使用了加粗,未使用下划线,未使用斜体等,则该段落按照格式属性进行处理后得到向量数值化后可以表示为[1,2,1,0,0,x]。

另一种技术方案中,所述的word文档关键信息抽取方法,还包括,步骤四将word文档的所有段落按照预设的格式属性,进行格式处理,并形成新的word文档作为输出文件二。在对文档关键信息抽取完成后,根据预设的格式属性(模板样式属性特征),对文档进行格式处理,即将文档的标题、正文、表格等按照统一、标准的格式进行排版,并作为文件二输出,方便客户对文档的后期管理与查阅。

另一种技术方案中,所述的word文档关键信息抽取方法,所述文件一为json格式。Json格式的文件便于数据的传输和解析。

另一种技术方案中,所述的word文档关键信息抽取方法,步骤一中获取word文档具体为:填写配置文件,所述配置文件包括待处理的文件名称字段,待处理的文件存储路径字段;读取待处理的文件名称字段,待处理的文件存储路径字段,并解析文件名称、文件存储路径,获取文件;

其中,文件为word文档或文件夹,若文件为word文档时,获取word文档并遍历word文档中的所有段落;若文件为文件夹时,启动多个线程,一个线程对应获取文件夹中的至少一个word文档并遍历word文档中的所有段落。

待处理的文件名称字段,待处理的文件存储路径字段为配置文件中的第一类配置信息,file_to_extract;例如需要对电脑F盘的某文件进行处理,则在配置文件中填写“file_to_extract”:“F/data/”;在进行文档抽取之前,程序首先读取配置文件,读取“file_to_extract”字段并解析,根据文件存储路径和文件名称,获取待处理文档;

本发明不仅可对单个文档进行处理,还可对存储有多个文档的文件夹进行处理,如是单个文档,则程序直接获取文档并遍历文档的所有段落;如是文件夹,则启动多个线程,一个线程对应处理文件夹中的至少一个文档,任一线程对其对应的至少一个文档进行递归处理抽取,对于任一文档的处理线程遍历对应文档的所有段落,文件夹中所有文档的抽取结果最终进行合并并通过一个文件一输出。

另一种技术方案中,所述的word文档关键信息抽取方法,所述配置文件还包括待抽取的关键信息类别字段;步骤一中,获取word文档的同时,读取待抽取的关键信息类别字段,设置待抽取的关键信息类别形成预设的待抽取的关键信息类别列表。待抽取的关键信息类别字段为第二配置文件信息,“class_to_extract”;例如抽取文档中的标题、正文和表格关键信息,可在配置文件中编写“class_to_extract”:[0,1,2,3,4,5],其中0代表标题,1代表正文,2代表表格、3代表无样式段落中的标题,4代表无样式段落中的正文,5代表无样式段落中的表格;将待抽取的关键信息预存入配置文件中,程序从配置文件中读取信息并进行设置后再抽取,增加了程序的灵活性和可定制性。

本发明中所列的文档均表示为word文档。

本发明还提供一种word文档关键信息抽取装置,其包括:

处理器;

存储器,其存储有可执行指令;

其中,所述处理器被配置为执行所述可执行指令,以执行上述的word文档关键信息抽取方法。

本技术方案基于与word文档关键信息抽取方法相同的发明构思得到,可参考方法部分的描述。本技术方案的装置不限于pc、终端、服务器。比如此装置可以设置在服务器中,进行文件的获取、文件关键信息的抽取。

下面以一个具体实施例来具体说明:对电脑中某文件进行标题、正文和表格三种关键信息进行抽取;

如图1所示,word文档关键信息抽取方法,其包括以下步骤:

步骤100、填写配置文件:{“file_to_extract”:“F/data/”,“class_to_extract”:[0,1,2,3,4,5]};

file_to_extract:该字段是待抽取的文件名或文件夹名;

class_to_extract:该字段是待抽取的关键信息的类别列表。其中,0代表标题,1代表正文,2代表表格、3代表无样式段落中的标题,4代表无样式段落中的正文,5代表无样式段落中的表格。

步骤200、运行程序,程序读取配置文件并解析:首先是文件名称解析,获取用户填写的file_to_extract字段并解析获取待处理文件,判断文件为单个文档还是文件夹,如文件为文档,则程序直接获取该文档,如文件为包含有多个文档的文件夹,则启动多个线程,一个线程对应处理文件夹中的至少一个文档,任一线程对其对应的至少一个文档进行递归处理抽取,对于任一文档的处理线程遍历对应文档的所有段落,文件夹中所有文档的抽取结果最终进行合并并通过一个文件一输出;

然后,读取class_to_extract字段并解析待抽取关键信息类别,程序设置待抽取的关键信息的类别形成待抽取关键信息类别的列表,[0,1,2,3,4,5]。

步骤300、判断获取的文档是否具有模板样式属性,若具有模板样式属性,则进入步骤301;若不具有模板样式属性,则进入步骤302;

步骤301、根据段落的模板样式属性获取段落信息类别,并与预设的待抽取关键信息类别列表进行匹配,判断该段落是否属于待抽取关键信息类别列表中的其中一种类别,如属于将段落抽取并输入至输出文件一中所属信息类别对应的区域,否则不抽取;

步骤302、对无模板样式属性的段落根据预设的格式属性规则,对段落进行预处理,并提取得到特征向量M,将特征向量M作为预设的神经网络模型的输入值,获取神经网络模型的输出结果,[P

步骤400、将word文档的所有段落按照预设的格式属性,进行格式处理,并形成新的word文档作为输出文件二。

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号