首页> 中国专利> 基于电子卷宗文件的分类编目方法、装置及设备

基于电子卷宗文件的分类编目方法、装置及设备

摘要

本发明涉及一种基于电子卷宗文件的分类编目方法、装置及设备,属于图像处理技术领域,该方法、装置及设备,通过对电子卷宗文件的图片集中的图片进行质量检测及预处理、分类、文件整体性判断,从而生成目录,有效解决现有技术中分类编目的工具系统精度不够、需要大量人工校验等问题存在的技术问题,提升电子卷宗分类编目的效率。

著录项

  • 公开/公告号CN112990177A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 太极计算机股份有限公司;

    申请/专利号CN202110391414.1

  • 发明设计人 万玉晴;王霄;

    申请日2021-04-13

  • 分类号G06K9/20(20060101);G06K9/34(20060101);G06K9/62(20060101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11471 北京细软智谷知识产权代理有限责任公司;

  • 代理人付登云

  • 地址 100020 北京市朝阳区来广营荣达路7号

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明属于图像处理技术领域,具体涉及一种基于电子卷宗文件的分类编目方法、装置及设备。

背景技术

电子卷宗记录了整个事件中的各类文件,对事件的追溯和查询,具有重要作用,例如,法院电子卷宗等。法院电子卷宗由诉讼全过程中产生的各类文件构成,包括法院、检察院、当事人在案件受理过程中产生的各类相关文件,如电子文档、图像等电子文件。随着法院信息化建设的深入,当前各级法院部门存储了海量的案件电子卷宗。当前对法院电子卷宗材料的分类编目主要用于档案归档,分类粒度较粗,而用于卷宗的阅卷分类编目,没有统一标准,各法院的分类编目标准不同、不同案由涉及卷宗材料不同,且业务系统多为手动分类编目操作,使得法院电子卷宗的分类编目效率低、费时费力。

现有技术中,有一些自动分类编目的工具系统,但由于法院电子卷宗内文件类型多样,无法使用单一技术完全处理所有文件,使得现有技术中的自动分类编目的工具系统具有精度不够、需要大量人工校验等问题存在。例如,卷积神经网络对图像分类具有非常优越的效果,但是对于文本图片来说,其图像的类别特征并不明显;基于文本内容的语义特征更容易实现高精度分类,而对于无法通过OCR技术获取文本内容的图片来说,只能通过图像分类器处理;另外OCR识别速度较慢,过度依赖文本分类会导致效率底下的问题。

因此,如何针对卷宗文件类型特点,提升电子卷宗分类编目的效率,成为现有技术中亟待解决的技术问题。

发明内容

本发明提供了一种基于电子卷宗文件的分类编目方法、装置及设备,有效解决分类编目的工具系统精度不够、需要大量人工校验等问题存在的技术问题,提升电子卷宗分类编目的效率。

本发明提供的技术方案如下:

一方面,一种基于电子卷宗文件的分类编目方法,所述电子卷宗文件包括:多份子文件;所述方法,包括:

获取电子卷宗文件的图片集,并对所述图片集中的图片分别进行质量检测及预处理,获取清晰图片集;

基于预设图像分类器,在所述清晰图片集中识别图像类子集和文本类子集;

确定所述图像类子集中图片的图像文件类别;以及,根据图文识别器,分别识别所述文本类子集中每张文本图片的全文信息,根据所述全文信息和文本类别器,基于文本语义识别所述全文信息对应的每张文本图片的文本文件类别;

基于词典和正则表达式在所述全文信息中提取文件标题,判断每份所述子文件的整体性;在同一份所述子文件中,确定每份全文信息对应的文本图片在所述子文件中的排列位置,所述在所述子文件中的排列位置包括:所述子文件的首页和内容页;

基于所述子文件的整体性和所述每份全文信息对应的文本图片在所述子文件中的排列位置,获取合成文件;

基于所述合成文件,计算每个图像文件类别和文本文件类别分别与预设编目标准中所有类别的语义相似度,并根据所述语义相似度,生成电子卷宗文件的目录结构。

可选的,所述对所述图片集中的图片分别进行质量检测及预处理,获取清晰图片集,包括:

对图片集中的图片进行灰度化处理,获取灰度化图片;

基于拉普拉斯算子对所述灰度化图片进行清晰度检测,获取第一清晰图片和待处理图片;

基于图像锐化,对所述待处理图片进行锐化处理,获取第二清晰图片;

根据所述第一清晰图片和第二清晰图片,获取所述清晰图片集。

可选的,所述预设图像分类器,包括ResNeXt网络训练的图像分类模型;所述基于预设图像分类器,在所述清晰图片集中识别图像类子集和文本类子集,包括:

基于ResNeXt网络训练的图像分类模型,识别所述清晰图片集中图片的图像类子集和文本类子集。

可选的,所述图文识别器,包括:OCR识别器;所述文本类别器,包括SLFNs网络模型;所述根据图文识别器,分别识别所述文本类子集中每张文本图片的全文信息,根据所述全文信息和文本类别器,基于文本语义识别所述全文信息对应的每张文本图片的文本文件类别,包括:

基于OCR识别器,识别每张文本图片的全文信息;

基于所述每张文本图片的全文信息,根据多维度语义表示方法获取文本向量表示;

将所述文本向量表示输入到预先通过KELM算法训练得到的SLFNs网络模型中,获取对应的文本文件类别。

可选的,所述确定每份全文信息对应的文本图片在所述子文件中的排列位置,所述在所述子文件中的排列位置包括:所述子文件的首页和内容页,包括:

若标题提取成功,则标记对应的文本图片为所述子文件的首页;

若标题提取失败,则将上一页全文信息中的尾句和当前全文信息的首句,输入到预先训练好的BERT模型中,获取语义关联程度,并根据语义关联程度确定当前文本图片是所述子文件的首页或内容页。

可选的,所述计算每个图像文件类别和文本文件类别分别与预设编目标准中所有类别的语义相似度,并根据所述语义相似度,生成电子卷宗文件的目录结构,包括:

计算每个图像文件类别的语义表示向量与预设编目标准中所有类别语义向量的余弦距离,以及,计算每个文本文件类别的语义表示向量与预设编目标准中所有类别语义向量的余弦距离;

选取最小的余弦距离对应的所述预设编目标准中的类别作为所述子文件所在的阅卷目录,生成电子卷宗文件的目录结构。

可选的,所述预设编目标准包括:文件类别表和分类参照表;所述文件类别表设置有固定文件类别;所述方法,还包括:

接收分类参照表修改指令后;

根据所述分类参照表修改指令,修改所述分类参照表。

又一方面,一种基于电子卷宗文件的分类编目装置,所述电子卷宗文件包括:多份子文件;所述装置包括:质量检测及预处理模块、分类模块、文件整体性判断模块、目录生成模块;

所述质量检测及预处理模块,用于获取电子卷宗文件的图片集,并对所述图片集中的图片分别进行质量检测及预处理,获取清晰图片集;

所述分类模块,用于基于预设图像分类器,在所述清晰图片集中识别图像类子集和文本类子集;确定所述图像类子集中图片的图像文件类别;以及,根据图文识别器,分别识别所述文本类子集中每张文本图片的全文信息,根据所述全文信息和文本类别器,基于文本语义识别所述全文信息对应的每张文本图片的文本文件类别;

所述文件整体性判断模块,用于基于词典和正则表达式在所述全文信息中提取文件标题,判断每份所述子文件的整体性;在同一份所述子文件中,确定每份全文信息对应的文本图片在所述子文件中的排列位置,所述在所述子文件中的排列位置包括:所述子文件的首页和内容页;

所述目录生成模块,用于基于所述子文件的整体性和所述每份全文信息对应的文本图片在所述子文件中的排列位置,获取合成文件;基于所述合成文件,计算每个图像文件类别和文本文件类别分别与预设编目标准中所有类别的语义相似度,并根据所述语义相似度,生成电子卷宗文件的目录结构。

可选的,所述质量检测及预处理模块,用于对图片集中的图片进行灰度化处理,获取灰度化图片;基于拉普拉斯算子对所述灰度化图片进行清晰度检测,获取第一清晰图片和待处理图片;基于图像锐化,对所述待处理图片进行锐化处理,获取第二清晰图片;根据所述第一清晰图片和第二清晰图片,获取所述清晰图片集。

又一方面,一种电子卷宗文件的分类编目设备,包括:处理器,以及与所述处理器相连接的存储器;

所述存储器用于存储计算机程序,所述计算机程序至少用于执行上述任一项所述的电子卷宗文件的分类编目方法;

所述处理器用于调用并执行所述存储器中的所述计算机程序。

又一方面,一种电子卷宗文件的分类编目设备,包括:处理器,以及与所述处理器相连接的存储器;

所述存储器用于存储计算机程序,所述计算机程序至少用于执行上述任一项所述的电子卷宗文件的分类编目方法;

所述处理器用于调用并执行所述存储器中的所述计算机程序。

本发明的有益效果为:

本发明实施例提供的基于电子卷宗文件的分类编目方法、装置及设备,通过获取电子卷宗文件的图片集,并对图片集中的图片分别进行质量检测及预处理,获取清晰图片集;基于预设图像分类器,在清晰图片集中识别图像类子集和文本类子集;确定图像类子集中图片的图像文件类别;以及,根据图文识别器,分别识别文本类子集中每张文本图片的全文信息,根据全文信息和文本类别器,基于文本语义识别全文信息对应的每张文本图片的文本文件类别;基于词典和正则表达式在全文信息中提取文件标题,判断每份子文件的整体性;在同一份子文件中,确定每份全文信息对应的文本图片在子文件中的排列位置,在子文件中的排列位置包括:子文件的首页和内容页;基于子文件的整体性和每份全文信息对应的文本图片在子文件中的排列位置,获取合成文件;基于合成文件,计算每个图像文件类别和文本文件类别分别与预设编目标准中所有类别的语义相似度,并根据语义相似度,生成电子卷宗文件的目录结构。本申请综合利用数字图像处理、机器视觉、自然语言处理等技术,结合具体客户领域需求,对电子卷宗文件的高效分类和自动编目,提高法院业务中对电子卷宗使用的自动化程度,进而提高工作效率,节省人工。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于电子卷宗文件的分类编目方法的流程示意图;

图2为本发明实施例提供的又一种基于电子卷宗文件的分类编目方法的部分流程示意图;

图3为本发明实施例提供的一种基于电子卷宗文件的分类编目装置结构示意图;

图4为本发明实施例提供的一种基于电子卷宗文件的分类编目设备结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

法院案件卷宗是由诉讼全过程中产生的各类文件构成,在立案过程,存在大量当事人提供的签字、盖章的纸质材料,从内容上主要分为文本类材料(如起诉状、委托书等)和图像类材料(如身份证复印件、律师资格证复印件,以及其他证据材料),这些纸质材料需要扫描成图片,存入电子卷宗。电子卷宗进入系统前通常需要对图片、单层PDF等材料进行手动命名、分类、编目等工作,才能形成案卷阅卷目录,这个过程会耗费很多人力、物力,且效率较慢。

基于此,本发明实施例提供一种基于电子卷宗文件的分类编目方法,以实现对电子卷宗文件的智能处理,自动生成阅卷目录,节省人力物力,提升工作效率。

图1为本发明实施例提供的一种基于电子卷宗文件的分类编目方法的流程示意图。

参阅图1,电子卷宗文件可以包括多份子文件,分类编目方法可以包括以下步骤:

S1、获取电子卷宗文件的图片集,并对图片集中的图片分别进行质量检测及预处理,获取清晰图片集。

在一个具体的实现过程中,可以定义任意一个需要进行分类编目的电子卷宗为目标电子卷宗,在目标电子卷宗中应用本申请提供的基于电子卷宗文件的分类编目方法进行电子卷宗文件的分类编目。例如,电子卷宗文件可以为法院电子卷宗文件、公司电子卷子文件等。本实施例中,以法院电子卷宗为例,对基于电子卷宗文件的分类编目方法进行说明。

例如,可以通过扫描系统,获取到电子卷宗文件的图片集,其中,图片集可以包括起诉状扫描件、送达凭证扫描件、身份证扫描件、营业执照扫描件等,所有的扫描件,构成了图片集,每张扫描件均为一张图片。其中,每份扫描件均为电子卷宗文件的子文件,每份子文件可以为单张,也可以为多张,例如,起诉状扫描件可以为2张、3张等。

在一些实施例中,可选的,包括:对图片集中的图片进行灰度化处理,获取灰度化图片;基于拉普拉斯算子对灰度化图片进行清晰度检测,获取第一清晰图片和待处理图片;基于图像锐化,对待处理图片进行锐化处理,获取第二清晰图片;根据第一清晰图片和第二清晰图片,获取清晰图片集。

例如,可以将一份完整的法院电子卷宗文件按照预设的顺序进行排列扫描,获取到按照预设顺序排列的扫描图片集合,即为图片集。

对图片进行灰度化处理,得到灰度化图片。目前大部分的扫描系统都是基于RGB颜色空间,每个像素点在RGB空间中是一个三维矢量,为了减少计算量,使用灰度图像,即将彩色图像转换为灰度图像,基于灰度图像完成图像清晰度检测。

对灰度化图片进行清晰度检测。用拉普拉斯(Laplacian)算子与灰度化图片做卷积,计算图像梯度后计算梯度方差得到一个代表图像“模糊度”的浮点数。在清晰的图片中,图像边缘信息的梯度方差会比较大。Laplacian算子是一种图像边缘检测方法,通过计算图像的二阶微分来计算图像梯度变化。假设灰度图像为

将上述式子用矩阵表示为

基于阈值进行图像预处理。根据具体的图像数据集设置模糊度阈值,如果图像方差高于预先定义的最大阈值thresh2时,该图像被认为是清晰的返回code为1。如果图像方差低于预先定义的最小阈值thresh1时,该图像被认为是模糊的返回code为2,对于模糊图像,归为采集问题,需要提示用户重新采集图像。如果图像方差在最小阈值thresh1和最大阈值thresh2之间时,该图像被认为是可以通过人工预处理来满足清晰度要求的返回code为3。得到第一清晰图片和待处理图片。

对待处理图片,进行图像锐化。获取第二清晰图片。提升图像清晰度的预处理方法主要采用图像锐化,即对原灰度图像根据其梯度值进行反差增强,从而使模糊图像变清晰。假设原图是

当Laplacian算子中心系数为负时,

将第一清晰图片和第二清晰图片集合,作为清晰图片集。

S2、基于预设图像分类器,在清晰图片集中识别图像类子集和文本类子集。

在一些实施例中,可选的,预设图像分类器,包括ResNeXt网络训练的图像分类模型。

例如,使用ResNext网络模型,训练一个预设图像分类器。ResNext是ResNet和Inception的结合体,ResNext的本质是分组卷积(Group Convolution),通过变量基数(Cardinality)来控制组的数量,增加基数 Cardinality要比增加深度和宽度更有效,可在不明显增加参数量级的情况下提升了模型的准确率,同时由于拓扑结构相同,超参数减少,便于模型移植。

在本发明实施例中,可以从图像类别特征入手,选出22类法院电子卷宗内常见的图像文件类别(如:律师执业证,身份证,结婚证,营业执照),其中有一类为文本类型,另加入其他类,共23类文件,进行语料标注,采用ResNext50_32x4d网络结构训练图像分类模型。模型参数如下表所示:

表1 ResNext模型训练参数

在训练好图像分类模型后,将清晰图片输入到训练好的图像分类模型中,从而识别出训练中标注的图像文件类别和文本类图片。对于识别出的文本类图片,进行进一步的区分,从而确定文本文件类别。

S3、确定图像类子集中图片的图像文件类别;以及,根据图文识别器,分别识别文本类子集中每张文本图片的全文信息,根据全文信息和文本类别器,基于文本语义识别全文信息对应的每张文本图片的文本文件类别。

在一些实施例中,可选的,图文识别器,包括:OCR识别器;文本类别器,包括SLFNs网络模型;根据图文识别器,分别识别文本类子集中每张文本图片的全文信息,根据全文信息和文本类别器,基于文本语义识别全文信息对应的每张文本图片的文本文件类别,包括:基于OCR识别器,识别每张文本图片的全文信息;基于每张文本图片的全文信息,根据多维度语义表示方法获取文本向量表示;将文本向量表示输入到预先通过KELM算法训练得到的SLFNs网络模型中,获取对应的文本文件类别。

例如,对于识别出的文本类图片,行OCR识别处理,获取每张图片的全文信息,然后进行基于文本语义的分类操作,确定每张文本图片的文本文件类别。在本发明实施例中,为了平衡分类精度和效率,并减少模型对人工标注语料的依赖,采用简单的单隐层前馈神经网络(SLFNs:Single-hidden Layer Feedforward Neural Networks)作为分类模型,核极限学习机(KELM:Kernel Extreme Learning Machine)作为文本分类模型的学习算法。为了弥补浅层模型表达能力的不足,提出多维度语义表示方法,从而捕捉更加简洁准确的文本类别差异,作为输入模型的文本特征向量。

在对卷宗文件进行多维度语义表示时,可以首先基于人工标注了文件类别的卷宗语料集,采用卡方检验构建类别特征词典,语料集经过分词、去除停用词、去人名、过滤低频词等预处理后,对类别文本计算词与类别的卡方值:

式中c为类别标签;w为c类文本语料中出现的词;N为卷宗语料集文件总数;A为包含w且属于c类别的文件数;B为包含w但不属于c类别的文件数;C为不包含w却属于c类别的文件数;D为不包含w也不属于c类别的文件数。

在本发明实施例中,可以分别计算出每类文件中每个词的卡方值,按降序进行排列,根据每类文件特征词卡方值的分布情况手动设定阈值,将高于阈值的各类文件特征词合在一起,去重后得到本卷宗语料集的类别特征词典Dc。基于以上定义,计算卷宗语料集中每个文件的表示向量,记卷宗语料集为

其中,w

在进行文本文件的分类时,可以基于KELM对案卷文本分类。根据核函数理论,核函数可将数据隐式映射到高维特征空间,近而实现样本在高维空间中线性可分,同时还解决了ELM随机初始化的问题。应用Mercer’s条件定义ELM的核矩阵为:

则KELM的预测输出函数可表示为:

从上式可看出,确定核函数后,则无需知道特征映射

即:

KELM算法通过一次计算获取输出权重的全局最优解,相比基于梯度下降的反向传播训练方法,KELM算法具有计算速度快、泛化能力强的优点。

S4、基于词典和正则表达式在全文信息中提取文件标题,判断每份子文件的整体性;在同一份子文件中,确定每份全文信息对应的文本图片在子文件中的排列位置,在子文件中的排列位置包括:子文件的首页和内容页。

在一些实施例中,可选的,确定每份全文信息对应的文本图片在子文件中的排列位置,在子文件中的排列位置包括:子文件的首页和内容页,包括:若标题提取成功,则标记对应的文本图片为子文件的首页;若标题提取失败,则将上一页全文信息中的尾句和当前全文信息的首句,输入到预先训练好的BERT模型中,获取语义关联程度,并根据语义关联程度确定当前文本图片是子文件的首页或内容页。

例如,在本发明实施例中,每份子文件可能包括多份单张图片,因此,需要对每份子文件的完整性进行判断,判断每张图片属于哪个子文件。

其中,对于文本类图片,可以基于所训练的文本分类器预测文件类型,在此基础上,基于词典和正则表达式从文本文件中尝试提取文件标题,如果成功获取标题,除了可正确得到文件类型之外,同时得到该图像是文件首页的信息。而对于无法获取标题文本文件来说,在本发明实施例中,可以基于相邻页在自然语言上下文中具有语义关联性的特点,采用BERT训练语言模型,计算文本图片前后页在文本内容上的语义关联度,判断是否为相邻页,来解决文件整体性判断的问题。

在BERT的训练过程中使用了两个策略:Masked LM (MLM)和Next SentencePrediction (NSP),其中NSP策略可以保证训练出的模型具有相邻页判断能力。模型接收成对的句子作为输入,预测第二个句子是否在原始文档中是后续句子。在训练期间,50%的输入对在原始文档中是前后关系,另外50%中是从语料库中随机组成的,与第一句在内容上断开的。为了帮助模型区分开训练中的两个句子,输入在进入模型之前要按以下方式进行处理:

(1)在第一个句子的开头插入[CLS]标记,在每个句子的末尾插入[SEP] 标记。

(2)将表示句子A或句子B的一个句子embedding添加到每个token上。

(3)给每个token添加一个位置embedding,来表示它在序列中的位置。

(4)为了预测第二个句子是否是第一个句子的后续句子,用下面几个步骤来预测:

A.整个输入序列输入给Transformer模型;

B.用一个简单的分类层将[CLS]标记的输出变换为2×1形状的向量;

C.用softmax计算IsNextSequence的概率;

在训练BERT模型时Masked LM和Next Sentence Prediction是一起训练的,目标就是要最小化两种策略的组合损失函数。

在本发明实施例中,通过BERT框架对相邻文件页在语义关联关系的判断,分析每页是一个子文件的首页还是内容页,从而实现对子文件整体性判断。

S5、基于子文件的整体性和每份全文信息对应的文本图片在子文件中的排列位置,获取合成文件。

例如,在判断到完整的子文件后,根据每份子文件中文本图片的排类位置,将文本图片组合。

S6、基于合成文件,计算每个图像文件类别和文本文件类别分别与预设编目标准中所有类别的语义相似度,并根据语义相似度,生成电子卷宗文件的目录结构。

在一些实施例中,可选的,计算每个图像文件类别和文本文件类别分别与预设编目标准中所有类别的语义相似度,并根据语义相似度,生成电子卷宗文件的目录结构,包括:计算每个图像文件类别的语义表示向量与预设编目标准中所有类别语义向量的余弦距离,以及,计算每个文本文件类别的语义表示向量与预设编目标准中所有类别语义向量的余弦距离;选取最小的余弦距离对应的预设编目标准中的类别作为子文件所在的阅卷目录,生成电子卷宗文件的目录结构。

例如,本申请中,可以采用短句级别的语义相似度计算,这比关键词匹配方法具有更好的性能和泛化能力,借助本发明在文件整体性判断中使用的BERT模型,通过大量的领域文本文件训练得到词向量模型,采用词向量平均值得到句向量,通过计算两个短句的余弦距离来衡量语义相似度,其中,余弦距离的计算为现有技术,此处不做赘述。通过余弦距离的计算,来确定文件类别与法院阅卷目录之间的相似度,从而进行匹配,最终,将每个图像文件类别和文本文件类别与法院阅卷目录进行匹配,生成电子卷宗文件的目录,目录中每个目录项关联对应的图片。

本发明实施例提供的基于电子卷宗文件的分类编目方法,通过获取电子卷宗文件的图片集,并对图片集中的图片分别进行质量检测及预处理,获取清晰图片集;基于预设图像分类器,在清晰图片集中识别图像类子集和文本类子集;确定图像类子集中图片的图像文件类别;以及,根据图文识别器,分别识别文本类子集中每张文本图片的全文信息,根据全文信息和文本类别器,基于文本语义识别全文信息对应的每张文本图片的文本文件类别;基于词典和正则表达式在全文信息中提取文件标题,判断每份子文件的整体性;在同一份子文件中,确定每份全文信息对应的文本图片在子文件中的排列位置,在子文件中的排列位置包括:子文件的首页和内容页;基于子文件的整体性和每份全文信息对应的文本图片在子文件中的排列位置,获取合成文件;基于合成文件,计算每个图像文件类别和文本文件类别分别与预设编目标准中所有类别的语义相似度,并根据语义相似度,生成电子卷宗文件的目录结构。本申请综合利用数字图像处理、机器视觉、自然语言处理等技术,结合具体客户领域需求,对电子卷宗文件的高效分类和自动编目,提高法院业务中对电子卷宗使用的自动化程度,进而提高工作效率,节省人工。

基于一个总的发明构思,本发明实施例还提供又一种基于电子卷宗文件的分类编目方法。

图2为本发明实施例提供的又一种基于电子卷宗文件的分类编目方法的部分流程示意图。

参阅图2,在上述实施例的基础上,预设编目标准包括:文件类别表和分类参照表;文件类别表设置有固定文件类别;本申请实施例的方法,还可以包括以下步骤:

S21、接收分类参照表修改指令后;

S22、根据分类参照表修改指令,修改分类参照表。

例如,在阅卷目录自动生成的过程中,法院案卷文件类别与具体案由相关,不同案由案卷包含的文件类型不尽相同。在本申请中,可以在预设编目标准中设置文件类别表和分类参照表。其中,文件类别表为固定的文件类别,如,根据法院对案卷文件的需要,设定静态的文件列表,用来记录各个案由案卷中必有的文件类别;分类参照表可以设置为动态,用来记录各个案由案卷中可能出现的文件类别,由服务动态增加,运维人员定期校验修改确认。

本发明实施例提供的基于电子卷宗文件的分类编目方法,通过设置静态的文件类别表和动态的分类参照表,从而进一步满足用户需求。

基于一个总的发明构思,本发明实施例还提供一种基于电子卷宗文件的分类编目装置。

图3为本发明实施例提供的一种基于电子卷宗文件的分类编目装置结构示意图,参阅图3,本发明实施例提供的装置,可以包括如下结构:电子卷宗文件包括:多份子文件;装置包括:质量检测及预处理模块31、分类模块32、文件整体性判断模块33、目录生成模块34。

其中,质量检测及预处理模块31,用于获取电子卷宗文件的图片集,并对图片集中的图片分别进行质量检测及预处理,获取清晰图片集;

分类模块32,用于基于预设图像分类器,在清晰图片集中识别图像类子集和文本类子集;确定图像类子集中图片的图像文件类别;以及,根据图文识别器,分别识别文本类子集中每张文本图片的全文信息,根据全文信息和文本类别器,基于文本语义识别全文信息对应的每张文本图片的文本文件类别;

文件整体性判断模块33,用于基于词典和正则表达式在全文信息中提取文件标题,判断每份子文件的整体性;在同一份子文件中,确定每份全文信息对应的文本图片在子文件中的排列位置,在子文件中的排列位置包括:子文件的首页和内容页;

目录生成模块34,用于基于子文件的整体性和每份全文信息对应的文本图片在子文件中的排列位置,获取合成文件;基于合成文件,计算每个图像文件类别和文本文件类别分别与预设编目标准中所有类别的语义相似度,并根据语义相似度,生成电子卷宗文件的目录结构。

可选的,质量检测及预处理模块31,用于对图片集中的图片进行灰度化处理,获取灰度化图片;基于拉普拉斯算子对灰度化图片进行清晰度检测,获取第一清晰图片和待处理图片;基于图像锐化,对待处理图片进行锐化处理,获取第二清晰图片;根据第一清晰图片和第二清晰图片,获取清晰图片集。

可选的,分类模块32,用于基于OCR识别器,识别每张文本图片的全文信息;基于每张文本图片的全文信息,根据多维度语义表示方法获取文本向量表示;将文本向量表示输入到预先通过KELM算法训练得到的SLFNs网络模型中,获取对应的文本文件类别。

可选的,文件整体性判断模块33,用于若标题提取成功,则标记对应的文本图片为子文件的首页;若标题提取失败,则将上一页全文信息中的尾句和当前全文信息的首句,输入到预先训练好的BERT模型中,获取语义关联程度,并根据语义关联程度确定当前文本图片是子文件的首页或内容页。

可选的,目录生成模块34用于计算每个图像文件类别的语义表示向量与预设编目标准中所有类别语义向量的余弦距离,以及,计算每个文本文件类别的语义表示向量与预设编目标准中所有类别语义向量的余弦距离;选取最小的余弦距离对应的预设编目标准中的类别作为子文件所在的阅卷目录,生成电子卷宗文件的目录结构。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本发明实施例提供的基于电子卷宗文件的分类编目装置,通过获取电子卷宗文件的图片集,并对图片集中的图片分别进行质量检测及预处理,获取清晰图片集;基于预设图像分类器,在清晰图片集中识别图像类子集和文本类子集;确定图像类子集中图片的图像文件类别;以及,根据图文识别器,分别识别文本类子集中每张文本图片的全文信息,根据全文信息和文本类别器,基于文本语义识别全文信息对应的每张文本图片的文本文件类别;基于词典和正则表达式在全文信息中提取文件标题,判断每份子文件的整体性;在同一份子文件中,确定每份全文信息对应的文本图片在子文件中的排列位置,在子文件中的排列位置包括:子文件的首页和内容页;基于子文件的整体性和每份全文信息对应的文本图片在子文件中的排列位置,获取合成文件;基于合成文件,计算每个图像文件类别和文本文件类别分别与预设编目标准中所有类别的语义相似度,并根据语义相似度,生成电子卷宗文件的目录结构。本申请综合利用数字图像处理、机器视觉、自然语言处理等技术,结合具体客户领域需求,对电子卷宗文件的高效分类和自动编目,提高法院业务中对电子卷宗使用的自动化程度,进而提高工作效率,节省人工。

基于一个总的发明构思,本发明实施例还提供一种基于电子卷宗文件的分类编目设备。

图4为本发明实施例提供的一种基于电子卷宗文件的分类编目设备结构示意图,请参阅图4,本发明实施例提供的一种基于电子卷宗文件的分类编目设备,包括:处理器41,以及与处理器相连接的存储器42。

存储器42用于存储计算机程序,计算机程序至少用于上述任一实施例记载的基于电子卷宗文件的分类编目方法;

处理器41用于调用并执行存储器中的计算机程序。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、文件或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、文件或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号