首页> 中国专利> 一种基于语义的法言法语审查方法、系统及可存储介质

一种基于语义的法言法语审查方法、系统及可存储介质

摘要

本发明公开了一种基于语义的法言法语审查方法、系统及可存储介质,涉及法言法语审查领域。本发明包括以下步骤:依据法律结构的规范要求对法规行文结构进行检测;将行文结构中的法条内容拆解成层级结构;基于层级结构对法条进行分类、要素提取以及句法提取;根据法条分类结果、法条要素提取结果和法条句法提取结果进行规则审查。本发明能够结合法条内容的深层语义来进行法言法语审查。

著录项

  • 公开/公告号CN115983243A

    专利类型发明专利

  • 公开/公告日2023-04-18

    原文格式PDF

  • 申请/专利号CN202211629926.8

  • 申请日2022-12-19

  • 分类号G06F40/253;G06F40/30;G06F40/211;G06F16/35;G06F40/242;G06F40/289;G06N3/0464;G06N3/0442;

  • 代理机构北京睿智保诚专利代理事务所(普通合伙);

  • 代理人孙盟盟

  • 地址 100089 北京市海淀区厢红旗东门外一号院

  • 入库时间 2023-06-19 19:30:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-05-05

    实质审查的生效 IPC(主分类):G06F40/253 专利申请号:2022116299268 申请日:20221219

    实质审查的生效

说明书

技术领域

本发明涉及法言法语审查领域,更具体的说是涉及一种基于语义的法言法语审查方法、系统及可存储介质。

背景技术

LSTM(Long Short-Term Memory)长短期记忆网络是RNN的一种变体,独特的“门”结构训练过程中会去学习该保存或遗忘哪些信息,使其更适合于长序列数据,与CRF一起被广泛应用于命名实体识别(Named Entity Recognition,简称NER)任务中。在NER任务的输入——token部分可进一步分为两种,若token是词,那么模型就属于Word-based model;若token是字,那么模型就属于Character-based Model。两种方法都存在各自的问题,Word-based model存在误差传递问题,Character-based model存在歧义问题。除了常规的LSTM单元结构,Lattice增加了很多“红色的单元”,这些单元是“隐藏词单元”。所以除主干部分基于字的LSTM外,Lattice LSTM还连接了许多“格子”,每个“格子”里各含有一个潜在的词,这些潜在词所含有的信息将会与主干LSTM中相应的Cell融合,使之最终看起来像一个“网格(Lattice)”。网格中的这些潜在词是通过匹配输入文本与词典获得的,词典引入意在解决Character-based Model和Word-based model的问题,让二者优势互补。

TextCNN,是Yoon Kim在2014年于论文Convolutional Naural Networks forSentence Classification中提出的文本分类模型,开创了用CNN编码n-gram特征的先河。我们知道fastText中的网络结构是完全没有考虑词序信息的,而它用的n-gram特征trick恰恰说明了局部序列信息的重要意义。卷积神经网络(CNN Convolutional NeuralNetwork)最初在图像领域取得了巨大成功,CNN原理的核心点在于可以捕捉局部相关性(局部特征),对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于N-gram。卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息。

与传统cnn模型结构类似,但是TextCNN模型结构更加简单了,只有一层卷积层和一层最大池化层,然后将池化结果拼接,经softmax函数输出进行分类。

CPG(Context-Free Grammar)四元组结构是:

G=(N,∑,R,S)

·N:一组非终止符(non-terminal symbols)

·∑:一组终止符(terminal symbols)

·R:一系列变换规则,即

X→Y

·S:一个特殊的开始符号

PCFGs(Probabilistic Context-Free Grammars)就是在CFG的基础上,对每个Rule(R)中的内容加以概率限制,这样我们就可以根据概率表示出一个句子用特定语法树的概率值,集体来说就是将该语法树所使用的规则概率乘起来。假如我们有一系列的语法树都可以扩展出一个句子,我们可以对每个语法树求概率,并选取概率最大的一项作为结果。

《立法技术规范》是在总结立法工作实践经验,广泛听取各方面意见的基础上,针对立法工作中经常遇到的、带有共性和普遍性的有关法律结构、文字等立法技术层面的问题制定的立法规范。包括“法律结构规范”、“法律条文表述规范”、“法律常用词语规范”、“法律修改形式规范”、“法律废止形式规范”。

目前现有的技术方案,利用一些特定的规则对立法起草过程中编写的法条内容进行法言法语审查。

现有技术一方法虽然能解决一些法言法语问题,但存在以下缺点:

(1)只能解决部分规则非常简单明确的法言法语问题,如固定格式、固定位置词语错误等。

(2)规则定的比较死,在实际处理过程中一旦文本有些许变化就不能进行检测,不能捕获到实际的语义信息,不够灵活多变。

发明内容

有鉴于此,本发明提供了一种基于语义的法言法语审查方法、系统及可存储介质,能够结合法条内容的深层语义来进行法言法语审查。在立法起草环节,新编写的法规需要进行法言法语审查,简单的法言法语错误可以用规则进行审查,例如常见法规结构规范问题、条文表述中固定位置的常用词语表述不规范问题等;但是通过简单规则能够审查的法言法语错误只有很小的一部分,大部分的法言法语错误还是在深层次的语义当中,需要结合前后文要素和句法结构来判断。因此,很有必要去实现基于语义的法言法语审查方法。

为了实现上述目的,本发明采用如下技术方案:

首先,本发明公开了一种基于语义的法言法语审查方法,包括以下步骤:

依据法律结构的规范要求对法规行文结构进行级别及语法检测;

依据法律法规结构规则将行文结构中的法条内容识别并拆解成层级结构;

基于层级结构对法条进行分类、要素提取以及句法提取;

根据法条分类结果、法条要素提取结果和法条句法提取结果进行规则审查。

可选的,正则表达式技术将行文结构中的法条内容识别并拆解成编、章、节、条、款、项、目的层级结构。

可选的,采用Text CNN+SoftMax对法条分类,将法条分为“原则”法条、“概念”法条、“立法目的和依据”法条和“适用范围”法条。

可选的,对法条要素提取具体包括:采用LatticeLSTM将法条拆分成假设、主体、强制权利、任意权利、可为义务、不可为义务、对象以及后果责任8大要素。

可选的,采用PCFGs算法提取法条正文的句法结构树。

可选的,基于aviator规则引擎配置实现对起草法规的法言法语问题审查。

其次,本发明公开了一种基于语义的法言法语审查系统,包括:法律行文结构检测模块,法条内容拆解模块,法条内容提取模块和法条规则审查模块;

其中,法律行文结构检测模块:用于依据法律结构的规范要求,采用正则表达式技术,对法规行文结构进行检测;

法条内容拆解模块:用于依据法律法规结构规则,采用正则表达式技术,将行文结构中的法条内容识别并拆解成层级结构;

法条内容提取模块:用于基于层级结构对法条进行分类、要素提取以及句法提取;

法条规则审查模块:用于根据法条分类结果、法条要素提取结果和法条句法提取结果进行规则审查。

最后,本发明公开了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如任意一项所述的一种基于语义的法言法语审查方法的步骤。

由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于语义的法言法语审查方法、系统及可存储介质,具有以下有益效果:

1、智能法条分类;2、智能法条提取句法结构;3、智能提取法条要素;4、依据提取的信息分析法言法语符合性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明的流程示意图;

图2为本发明的原理示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种基于语义的法言法语审查方法,如图1-2所示,包括以下步骤:

S1:依据法律结构的规范要求对法规行文结构进行级别及语法检测;

S2:依据法律法规结构规则将行文结构中的法条内容识别并拆解成层级结构;

S3:基于层级结构对法条进行分类、要素提取以及句法提取;

S4:根据法条分类结果、法条要素提取结果和法条句法提取结果进行规则审查。

进一步的,在S1中,依照《立法技术规范(试行)》中对法律结构的规范要求,基于正则表达式技术研发的程序实现对起草法规结构的审查,发现法律结构不规范问题。

进一步的,在S2中,基于第一步的审查结果对起草法规使用同样的正则表达式技术研发的程序进行行文结构拆解——在法规拆解过程中最重要的是将相关法条内容拆解成编、章、节、条、款、项、目这样的层级结构,方面后续的法条分类、法条要素提取和法条句法结构提取。

进一步的,在S3中,针对法规中的法条内容进行结构化信息智能提取。规则除了需要法条正文以外,还需要法条的分类、法条的要素、法条的句法结构。故这一步主要涉及三个方面的智能算法,一是:法条分类算法;二是:法条要素提取算法;三是:法条句法结构提取算法。进行S3流程的基础是有合适的领域自定义词典、停止词典、词向量模型和PCFGs(句法树)模型。基于大量国内法律法规、法律类文献构成的语料数据集,使用jieba基于默认词典进行短语提取,经由业务专家确认行程领域自定义词典和停止词典,再使用该自定义词典和停止词典重新对语料数据集分词,使用SkipGram模式训练Word2Vector词向量模型,最后训练PCFGs(句法树)模型。

更进一步的,本发明采用Text CNN+SoftMax进行法条分类,将其分为“原则”、“概念”、“立法目的和依据”、“适用范围”等。

首先利用将输入文本进行分词处理。使用jieba分词器,采用自定义词典以及停止词典进行分词处理,将句子处理成词序列W,下标n代表该句子第n个词。

W=(w

接着将处理好的字符信息送入Word2Vector模型进行特征处理。即获取输入文本信息中的词向量记为序列X

X

接着将序列X传入Text CNN——作为第一层输入层。

第二层为卷积层(Conv)。捕捉由若干单词组成的滑动窗口中的捕捉局部特征,特别的Text CNN的卷积核的宽和该输入层矩阵的宽相同,且只会在词序列方向移动,自动地对窗口特征进行组合和筛选,获得不同抽象层次的语义信息。

第三层为池化层(pooling)。Text CNN采用的是max-pooling操作。

最后是全连接层,并使用Softmax激活函数输出每个类别的概率。

更进一步的,法条要素提取算法具体为:将单个法条拆解成多个要素,本发明将法条拆分成假设、主体、强制权利、任意权利、可为义务、不可为义务、对象以及后果责任这8大要素;为了能够更好地从语义层面提取到8大法条要素,本发明采用LatticeLSTM的方式来予以实现。

首先利用将输入文本进行字符化处理,即将句子处理成单一的字符排列;接着将处理好的字符信息送入BERT进行特征处理,即获取输入文本信息中的字向量记为序列X

X

参照X

X'

x'

X

而对于X

之后通过一个额外的门来控制字粒度信息与词粒度信息的选取。

并更改处理字粒度结构的隐状态公式为:

其中标准的CRF,公式如下

最后解码就是标准的CRF,CRF对建模,输出label(BIO)序列。

更进一步的,本发明采用PCFGs算法提取法条正文的句法结构树。

进一步的,在S4中利用S3所提取到的相关信息审查起草法规法条内容是否存在除法律结构不规范问题外的法言法语问题。依照《立法技术规范(试行)》中所规定的法律条文表述规范审查、法律常用词语规范审查等,基于aviator规则引擎配置实现对起草法规的法言法语问题审查。

例如在《立法技术规范(试行)(一)》中有如下规范性要求:

不得,禁止:

“不得”、“禁止”都用于禁止性规范的情形。“不得”一般用于有主语或者有明确的被规范对象的句子中,“禁止”一般用于无主语的祈使句中。

示例1:任何组织或者个人都不得有超越宪法和法律的特权。

示例2:禁止非法拘禁和以其他方法非法剥夺或者限制公民的人身自由,禁止非法搜查公民的身体。

不再使用“不准”、“不应”、“不能”、“严禁”等与“不得”和“禁止”相近的词语。

对于现有审查方式,只能对“是否使用了规定中禁止使用的词语”进行判断——判断是否使用“不准”、“不应”、“不能”、“严禁”等。

本发明除了可以进行上述基本的“用词判断”以外,还可以基于第三步中提取的句信息(以示例1为例),判断法规行文中是否与“禁止性规范”类词语存在主语(前置NSUBJ)关系,进而严格判断是使用“不得”还是“禁止”。

与图1所示方法对应的,本发明还公开了一种基于语义的法言法语审查系统用于对图1方法的实现,具体结构包括:法律行文结构检测模块,法条内容拆解模块,法条内容提取模块和法条规则审查模块;

其中,法律行文结构检测模块:用于依据法律结构的规范要求对法规行文结构进行检测;

法条内容拆解模块:用于将行文结构中的法条内容拆解成层级结构;

法条内容提取模块:用于基于层级结构对法条进行分类、要素提取以及句法提取;

法条规则审查模块:用于根据法条分类结果、法条要素提取结果和法条句法提取结果进行规则审查。

本发明还公开了一种计算机存储介质,其特征在于,计算机存储介质上存储有计算机程序,计算机程序被处理器执行时实现任意一项的一种基于语义的法言法语审查方法的步骤。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号