首页> 中国专利> 一种基于分类的专项施工方案强制性条文合规性审查方法

一种基于分类的专项施工方案强制性条文合规性审查方法

摘要

本发明公开一种基于分类的专项施工方案强制性条文合规性审查方法,属于人工智能技术领域。首先获取审查方案;利用隐含狄利克雷分布主题模型对方案工程类型进行判别;将审查方案进行分段处理,形成方案段落集;训练深度开放集合分类模型,调用深度开放集合分类模型确定每一段落内容是否符合强制性条文范围;将段落与条文进行基于词权重的余弦相似度计算,根据计算结果判断是否符合强制性条文的要求。通过甄别输入方案各段落所属强制性条文,提高识别准确率,达到自动化确定段落对应强制性条文的效果,同时利用余弦相似度计算判断是否符合强制性条文规定,减少审查错误,提高方案审查效率。

著录项

  • 公开/公告号CN114841658A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 中国矿业大学;

    申请/专利号CN202210364655.1

  • 申请日2022-04-07

  • 分类号G06Q10/10(2012.01);G06Q50/16(2012.01);G06N3/08(2006.01);G06N3/04(2006.01);G06K9/62(2022.01);

  • 代理机构南京瑞弘专利商标事务所(普通合伙) 32249;

  • 代理人李悦声

  • 地址 221116 江苏省徐州市大学路1号中国矿业大学

  • 入库时间 2023-06-19 16:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06Q10/10 专利申请号:2022103646551 申请日:20220407

    实质审查的生效

  • 2022-08-02

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种基于分类的专项施工方案强制性条文合规性审查方法,属于专项施工方案文本的计算机人工智能技术领域。

背景技术

目前市面的施工方案审查的一般做法如下:将用户上传的施工方案进行分类和基本信息进行审核,然后将施工方案公布给审核人员,审核人员对施工方案的形式和内容进行审查。这种审查方式仍然是以人工为主,具有耗时长、审查效率低和易出错等特点。

现有的对文档智能分类方法基于封闭世界假设,即假设出现在测试集合中的类别必须出现在训练集中。但是在动态的开放环境中一些新方案段落可能不属于任何强制性条文,从而将非强制性条文的段落错误划归到已知强制性条文类别中。因此在分类过程中识别这些新方案段落是一个重要问题。

发明内容:

针对现有技术的不足之处,提供一种基于分类的专项施工方案强制性条文合规性审查方法,通过训练深度开放集合分类算法,将方案段落输入到深度开放集合分类模型中,从而甄别方案段落是否属于已知强制性条文,利用余弦相似度确定段落是否满足强制性条文的要求,提高方案合规审查的准确率和效率。

为实现上述技术目的,本发明的一种基于分类的专项施工方案强制性条文合规性审查方法,其特征在于步骤如下:

S1、首先将待审查方案文档转为docx格式;

S2、根据预先训练好的隐含狄利克雷分布LDA主题模型确定待审查方案所属的专项施工方案类别;

S3、通过识别回车符将待审查方案文档的内容进行分段处理,分解为多个段落;

S4、将待审查方案文档的所有段落依次输入到相应专项施工方案的深度开放集合分类模型中,输出每个段落与相应专项施工方案要求的每一项强制性条文的匹配率,并根据预设的阈值判断段落内容是否属于具体强制性条文;

针对每种具体的专项施工方案训练一个深度开放集合分类模型,即每个专项施工方案类型均对应有一个深度开放集合分类模型,每个深度开放集合分类模型均构建每一种专项施工方案的强制性条文集,其中每一项规范条文作为对应方案类型深度开放集合分类模型的一项子分类;具体结构为卷积神经网络CNN分类器,卷积神经网络CNN分类器的最后一层为 Sigmoids函数构建的一个多类分类器,用以增加识别未知类能力,多类分类器包含M个已知类的M个Sigmoid激活函数,通过高斯拟合收紧Sigmoid函数的决策边界;

S5、将段落与判别出来对应的强制性条文进行基于建筑领域标准规范词权重的余弦相似度计算,得到段落合规状态;汇总所有段落的合规状态信息,最后生成待审查方案文档的强制性条文合规性审查报告。

根据预先训练好的LDA主题模型确定待审查方案的分类,包括以下十类:基坑工程、模板工程及支撑工程、起重吊装及起重机械安装拆卸工程、脚手架工程、拆除与工程、暗挖工程、建筑幕墙工程、人工挖孔桩工程、钢结构安装工程、其他工程。

针对每类专项施工方案的深度开放集合分类模型,需要从各类专项施工方案文档中抽取各项强制性条文对应的段落构建训练集和测试集,然后利用训练集和测试集对本类深度开放集合分类模型进行训练,深度开放集合分类模型由多个子分类器构成,每个子分类器对应一个强制性条文,通过遍历所有子分类器判断待审查方案中的段落是否属于子分类器所对应的强制性条文;

对于每类专项施工方案,构建该类专项施工方案对应的强制性条文训练样本集合D:

训练样本为从各类专项施工方案中抽取的各项强制性条文对应的70%的段落,以此训练每类专项施工方案的深度开放集合分类模型,其中N

设第l个Sigmoid函数对应强制性条文类C

其中

所有Sigmoid函数的对数损失函数之和作为代价函数训练模型,即:

对于测试集中段落x′所属的强制性条文类别y

即,如果有段落x′被多个Sigmoid函数预测为正类,即被识别为属于该强制性条文范围,由于存在多个强制性条文中部分相似的情况,因此在在判断时存在一个段落对应多个强制性条文,通过Sigmoid函数时,存在多个为正的预测结果,此时选择阀值最大的最为输入结果,即预测概率大于阈值δ

将每一个段落输入深度开放集合分类模型中判别该段落是否属于强制性条文范围及所属具体强制性条文,具体来说:为了减少将非强制性条文的段落错误划归到第l类强制性条文类别的风险,深度开放集合分类模型采用动态阈值的方法,通过拟合训练集中第l类段落样本的概率值p

已知强制性条文类别的分布服从一半的高斯分布,因此以概率值p=1为轴即均值=1,人工地构造出对称的另一半高斯分布,然后使用高斯拟合方法,计算训练集中每一个已知强制性条文l对应的标准差σ

其中p

动态阈值δ

δ

计算测试集中每一强制性条文对应的阈值,以识别测试集中不属于已知类别强制性条文的段落,其中测试集为未标注所属强制性条文的段落样本,包括部分训练集中的强制性条文和未在训练集中出现的强制性条文,即未知类;最后预测测试集中每一方案段落所属强制性条文,对测试集中每一个强制性条文的预测概率与所对应的动态阈值进行比较,若强制性条文的预测概率小于所对应的阈值,判断该段落为未知类别,否则,其预测类别是概率最高的已知类别中的强制性条文;

首先将待审查方案的分解段落输入到已经训练好的深度开放集合分类模型中,得到每一制性条文对应的预测概率,然后计算每一强制性条文对应的动态阈值,最后通过比较每一个强制性条文对应的动态阈值与预测概率之间的关系,判断该段落是否为未知类,否则,其预测类别为概率最高的已知类中的强制性条文。

进行基于建筑领域标准规范词权重的余弦相似度计算具体为:

1)首先利用词频逆文档TF-IDF对分解段落中句子中的词项确定初权重,一个待审查方案中的所有段落作为语料库,其中每一段落和该段落对应标准规范条文作为样本,词频TF由每一段落样本确定,逆文本频率指数IDF由语料库确定,根据专项施工方案和强制性条文的特点按照量化值和量化单位>比较关系>主体>属性>关系>主体约束和数量约束的顺序对词的重要程度进行排序,人工确定最终词权重;

2)将每个分解段落中的句子和所对应的标准规范条文句子向量化,其中每个分量对应基于自定义的建筑领域词典中的一个词,分量值为词权重;

3)用余弦定理对待检测的段落句子和该段落对应的标准规范条文两个句子的相似度进行计算;其中余弦值作为衡量两个句子之间差异的大小,取值范围在-1到1之间,越趋近于1 代表两个句子越相似,越趋近于-1代表方向相反,0代表正交,即两个句子越不相似。

4)依据相似度的计算结果,对不同相似值做出合规状态判定,包括:①超过预设的a阈值则判断为合规②低于预设的b阈值则为不合规,并给出所依据的条文③相似度结果在预设的a阈值和b阈值之间则移交给人工进行判断,并给出所依据的条文,其中a大于b。

有益效果:

1、通过LDA主题模型预先对方案进行分类,将方案类别传输到对应的深度开放集合分类模型中(内含有与该方案类别相关的强制性条文),模型依据步骤四对方案段落进行判定,甄别其所属强制性条文,防止将与强制性条文无关的方案段落错误地划分到强制性条文类别中,达到自动化确定段落对应强制性条文的效果,提高了确定所属强制性条文的准确率和效率。

2、通过步骤五将由步骤四筛选的方案段落与其对应强制性条文进行基于词权重的余弦相似度计算,利用TF-IDF初步对每一方案段落计算词权重,然后根据专项施工方案的特点按照量化值和量化单位>比较关系>主体>属性>关系>主体约束和数量约束的顺序对词的重要程度进行人工排序,确定最终词权重,提高特征词的重要程度,从而对重要内容进行更精确的判断,提高方案审查的准确率。

附图说明

图1为本发明基于分类的专项施工方案强制性条文合规性审查方法的实施例流程示意图。

具体实施方式:

下面结合附图对本发明的实施例做进一步说明:

如图1所示,一种基于分类的专项施工方案强制性条文合规性审查方法,其步骤如下:

S1、首先将待审查方案文档转为docx格式;

S2、根据预先训练好的隐含狄利克雷分布(Latent Dirichlet Allocation,以下简称LDA)主题模型确定待审查方案所属的专项施工方案类别;

S3、通过识别回车符将待审查方案文档的内容进行分段处理,形成多个段落;

S4、将待审查方案文档的所有段落依次输入到相应专项施工方案的深度开放集合分类模型中,输出每个段落与相应专项施工方案要求的每一项强制性条文的匹配率,并根据预设的阈值判断段落内容是否属于具体强制性条文;

针对某种类型的专项施工方案,通过从该类施工方案文档中抽取各项强制性规范条文对应的段落构建训练集和测试集,训练一个专属的深度开放集合分类模型;

对于具体的一类专项施工方案,构建强制性条文训练样本集合

所有Sigmoid函数的对数损失函数之和作为代价函数训练模型,即:

测试时,测试段落x′所属的强制性条文类别通过下式确定:

即,如果有x′被多个Sigmoid分类器预测为正类,即预测概率大于阈值δ

将每一个段落输入深度开放集合分类模型库中判别该段落是否属于强制性条文范围及所属具体强制性条文,具体来说:为了减少将非强制性条文的段落错误划归到第l类强制性条文类别的风险,模型采用动态阈值的方法,通过拟合训练集中第l类段落样本的概率值p

其中p

动态阈值δ

δ

计算测试集中每一强制性条文对应的阈值,以识别测试集中不属于已知类别强制性条文的段落,其中测试集为未标注所属强制性条文的段落样本,包括部分训练集中的强制性条文和未在训练集中出现的强制性条文,即未知类;最后预测测试集中每一方案段落所属强制性条文,对测试集中每一个强制性条文的预测概率与所对应的动态阈值进行比较,若强制性条文的预测概率小于所对应的阈值,判断该段落为未知类别,否则,其预测类别是概率最高的已知类别中的强制性条文;

首先将待审查方案的分解段落输入到已经训练好的深度开放集合分类模型中,得到每一制性条文对应的预测概率,然后计算每一强制性条文对应的动态阈值,最后通过比较每一个强制性条文对应的动态阈值与预测概率之间的关系,判断该段落是否为未知类,否则,其预测类别为概率最高的已知类中的强制性条文。

S5、将段落与判别出来对应的强制性条文进行基于建筑领域标准规范词权重的余弦相似度计算,得到段落合规状态;汇总所有段落的合规状态信息,最后生成待审查方案文档的审查报;进行基于建筑领域标准规范词权重的余弦相似度计算具体为:

1)首先利用词频逆文档TF-IDF对分解段落中句子中的词项确定初权重,一个待审查方案中的所有段落作为语料库,其中每一段落和该段落对应标准规范条文作为样本,词频TF由每一段落样本确定,逆文本频率指数IDF由语料库确定,根据专项施工方案和强制性条文的特点按照量化值和量化单位>比较关系>主体>属性>关系>主体约束和数量约束的顺序对词的重要程度进行排序,人工确定最终词权重;

2)将每个分解段落中的句子和所对应的标准规范条文句子向量化,其中每个分量对应基于自定义的建筑领域词典中的一个词,分量值为词权重;

3)用余弦定理对待检测的段落句子和该段落对应的标准规范条文两个句子的相似度进行计算;

4)依据相似度的计算结果,对不同相似值做出合规状态判定,包括:①超过预设的a阈值则判断为合规②低于预设的b阈值则为不合规,并给出所依据的条文③相似度结果在预设的a阈值和b阈值之间则移交给人工进行判断,并给出所依据的条文,其中a大于b。

实施例一、

步骤一:

(1)将获取的专项施工方案分为docx格式和非docx格式;

(2)操作Microsofe将非docx格式中的PDF、html、txt格式文件转化为docx格式。

步骤二:

(1)构建语料库,选取228篇建筑工程(含港口工程)专项施工方案做为语料库/数据集,将docx、doc格式全部转换为txt格式,并将228篇专项施工方案进行人工分类,分为暗挖工程、拆除爆破工程、基坑工程、脚手架及防护工程、模板工程及支撑体系、起重吊装工程、建筑幕墙工程、人工挖孔桩工程、钢结构安装工程及其他工程10大类;

(2)预处理数据,主要涉及:数据导入、数据清洗、中文分词和停用词去除,人工构建了专项施工方案专有名词词典,使分词结果更精确;

(3)构建LDA主题模型,主要过程包含:①构建词袋:对每篇文章进行分词处理(jieba 库),②统计词频:利用CountVectorizer得到所有文档中各个词的词频向量,将主题词袋用 list格式进行存储构成的一个,③利用Latent Dirichlet Allocation进行LDA处理,设置需要分成的主题个数等参数(经测验最终选取10个主题)。通过使用Python中的sklearn库中 fit_transform函数,得到文档-主题分布和主题-词汇分布;打印输入特征标签的权重得分,去除得分小于0.6的得分,以此得到每种专项施工方案类别的核心关键词(这里只打印每个类别前50个主题词)。④储存主题词及概率,将主题概率输入到EXCEL表格中保存,主题词输入到TXT文档中保存;

(4)判断待审查方案所属类别,利用上述过程训练好的LDA主题模型对待审查方案进行分类,确定方案类别。

步骤三:

(1)准备数据集,训练样本集合

(2)对文本预处理:基于自定义的建筑领域词典进行中文分词,去除停用词;

(3)计算词频,并将词频小于5的单词去除;

(4)创建索引,用于单词与编号之间的映射;

(5)对样本训练(每一项类别为一个强制性条文),提取训练集已知类别的特征。随机将70%的数据作为训练集,剩下30%作为测试集,评估对已知类别的分类情况;

(6)测试样本,增加十个类别作为未知类别,目的就是对测试集样本中已知强制性条文不降低其分类准确率的情况下,准确识别未知类别。

步骤四:

(1)将docx格式的方案利用Microsofe Word中的功能对文本内容进行段落分行;

(2)对段落内容预处理,基于建筑领域专用词典利用jieba库进行分词,去除停用词;

步骤五:

(1)强制性条文阈值计算,已知强制性条文类别的分布服从一半的高斯分布,所以我们此以概率值p=1为轴人工的构造出对称的另一半高斯分布,然后使用高斯拟合方法,计算训练集中每一个已知强制性条文l对应的标准差σ

(2)计算测试集中每一方案段落对应的阈值,使用动态概率阈值公式δ

(3)预测测试集中每一方案段落所属强制性条文,对测试集中每一个强制性条文的预测概率与所对应的动态阈值进行比较,若强制性条文的预测概率小于所对应的阈值,判断该段落为未知类别,否则,其预测类别是概率最高的强制性条文;

步骤六:

(1)利用词频逆文档频率(TF-IDF)对句子中的词项确定初权重,其中每一方案段落为样本,一篇方案的所有段落为语料库,TF由每一段落样本确定,IDF由语料库确定,根据专项施工方案和强制性条文的特点按照量化值和量化单位>比较关系>主体>属性>关系>主体约束和数量约束的顺序对词的重要程度进行排序,人工确定最终词权重;某个词的初权重计算方法如下:

TF-IDF=TF*IDF;

(2)将句子向量化,其中每个分量对应词典中的一个词,分量值为词权重;

(3)用余弦距离计算待检测的段落句子和该段落相应的标准规范条文两个句子的相似度,其中余弦值作为衡量两个句子之间差异的大小,取值范围在-1到1之间,越趋近于1代表两个句子越相似,越趋近于-1代表方向相反,0代表正交,两个句子越不相似。

(4)得到审查结果,依据相似度的计算结果,对不同相似值做出合规状态判定:①超过 a阈值则判断为合规②低于b阈值则为不合规,并给出所依据的条文③相似度结果在a和b 之间则移交给人工进行判断,并给出所依据的条文。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号