首页> 中国专利> 一种基于数理特征提取的数学题文本多标签分类方法

一种基于数理特征提取的数学题文本多标签分类方法

摘要

本发明公开了一种基于数理特征提取的数学题文本多标签分类方法,以数学题试题作为样本,知识点为样本标签;对样本及其标签进行预处理和特征提取,对样本特征向量进行编码得到隐藏层向量;引用自注意力机制计算各个隐藏层向量的注意力权重,得到文本输出的特征向量;将答案解析文本分为叶节点和根节点,由叶节点文本信息特征及根节点文本信息特征形成特征先验树的特征矩阵;对样本特征向量与特征先验树的特征矩阵进行数理特征提取,将文本输出的特征向量和数理特征提取部分的输出结果输入分类器,由分类器输出分类结果;设置训练停止条件,当训练停止时获得训练好的数学文本多标签分类模型;利用数学文本多标签分类模型对数学题文本进行有效分类。

著录项

  • 公开/公告号CN114880474A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 江苏大学;

    申请/专利号CN202210485759.8

  • 发明设计人 侯骏;周从华;朱小龙;

    申请日2022-05-06

  • 分类号G06F16/35(2019.01);G06K9/62(2022.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构南京智造力知识产权代理有限公司 32382;

  • 代理人汪芬

  • 地址 212013 江苏省镇江市京口区学府路301号

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06F16/35 专利申请号:2022104857598 申请日:20220506

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及自然语言处理领域,具体涉及一种结合先验知识的数理特征提取的数学题多标签文本分类方法。

背景技术

近年来,随着计算能力的发展,人工智能理论与应用得到了突破性进展,并在计算机视觉、自然语言处理、推荐算法等领域得到了广泛落地,融入了日常生活的方方面面。例如,无处不在的生物特征识别技术;融入各种消费场景的推荐技术;智能客服、机器翻译、文本挖掘、风险控制、辅助驾驶等技术,已经很大程度上改变了人们的生活方式。利用人工智能技术取代重复的人力劳动、提高效率,已是各行业明显的趋势,作为人口素质和国家储备力量的重要保证,教育领域在人工智能的应用与研究已成为学界和工业界研究的一个热点,目前,我国存在教育资源分配不均、个性化教育缺乏等问题,利用人工智能技术,促进知识加工的效率,为学生提供全面、个性化的教育服务,有利于个人和国家的发展。数学学科作为培养逻辑能力的基础学科,值得重点研究。

在教育领域,从专业书籍、试卷到碎片化的网络知识,最重要的资源就是语言文字为载体的知识,因此自然语言处理技术在教育领域中有着众多应用场景。

但是,目前自然语言处理技术的研究多集中于搜索、新闻、电商等场景下,对于教育领域的研究相对较少,导致存在语料资源少、语料质量层次不齐、缺少针对教育领域特点的方法等问题;作为重要教育基础设施之一的题库,对于巩固知识、检验学习效果十分重要,尤其是数学学科,逻辑思维的养成需要大量训练,因此初等数学题库具有重要应用价值。

数学题多标签文本分类解决了对于教育领域的研究相对较少,导致存在语料资源少、缺少针对教育领域特点的方法等问题。数学题多标签文本分类可以让学生巩固知识、提升学习效果,大量训练训练学生逻辑思维的养成,让学生可以进行个性化学习,提高数学成绩。

题型自动分类可以为其他任务,如题库自动构建、易错点分析、相关题推荐、自动组卷等提供抽象的题目特征,同时为题库对海量题目的组织管理提供了可能,是智能题库的基础组件之一。在诸多应用场景下,手动标注标签费时费力,自动标签系统可以省时省力。针对数学文本的特点的自然语言处理方面的应用研究较少,尤其是缺少对数学分词、命名实体识别技术的研究,套用通用技术通常不能取得很好的效果。因此,本文针对教育领域的研究可以有效扩充自然语言技术的应用范围,可以为通用自然语言处理技术在垂直领域的应用提供一定经验。

已有的针对数学题目自动分类的研究较少,且主要集中于人工提取数学问题文本层面的特征,应用传统的浅层机器学习算法如朴素贝叶斯、支持向量机等进行分类,模型效果受人工选择特征的影响较大,基于词频等统计指标的文本表示方式损失了较多的信息。Lv等人采用的了一阶策略,训练多个二元分类器,将最后的预测结果进行拼接,忽略标签间的相关性。而且采用机器学习的方法,模型效果受人工选择特征影响较大。噪音多,稀疏数据占比减少,导致数据聚集效应的消失,特征学习变得困难。Ye等人采用了深度学习方法,配合着在自然语言处理领域中表达语义信息的词向量,训练模型生成知识点标签,但数学题文本存在很强的逻辑性,一些推导的信息分类器无法识别出来。

基于当前技术所存在的问题,本发明采用序列到序列模型优秀的高阶标签相关性特性,提出一种结合先验知识的数理特征提取方法,产生多个知识点标签,从而很好的解决了这一难题。

发明内容

为了解决现有技术中存在的不足,本发明提出了一种基于数理特征提取的数学题文本多标签分类方法,结合先验知识的数理特征提取方法以实现分类器可以识别出数学题文本所存在的推导性信息,降低函数拟合的时间,提高数学题多标签文本分类的精度。

本发明所采用的技术方案如下:

一种基于数理特征提取的数学题文本多标签分类方法,包括如下步骤:

步骤1,采集多套数学试卷中的试题作为样本,形成样本集;并将每道题目的知识点作为样本的标签;

对样本及其标签进行预处理和特征提取,得到样本对应的样本特征向量及样本特征向量对应的标签形成样本特征向量集w={(x

对样本特征向量进行编码得到隐藏层向量h

基于所得到的注意力权重a

步骤2,将样本集分为训练集和测试集;获取训练集中样本对应的答案解析文本,答案解析文本分为叶节点和根节点,根节点为答案解析的标签文本信息,叶节点为可直接或间接推出根节点标签的文本信息;

对答案解析文本进行预处理和特征提取,得到叶节点文本信息特征及根节点文本信息特征;由叶节点文本信息特征及根节点文本信息特征形成特征先验树的特征矩阵,表示为:v={v

步骤3,对样本特征向量与特征先验树的特征矩阵进行数理特征提取,得到数理特征提取部分的输出结果l

步骤4,将训练集的文本输出的特征向量F

步骤5,设置训练集的训练停止条件,当训练停止时获得训练好的数学文本多标签分类模型;应用训练好的数学文本多标签分类模型对数学题文本分类。

进一步,步骤1和步骤2中均采用Word2vec进行词嵌入,得到特征向量。

进一步,样本特征向量进行编码的方法为:

将样本特征向量输入BILSTM模型的编码器中进行编码,输出每个样本特征向量对应的编码;表示为:

得到隐藏层向量

进一步,引用自注意力机制计算各个隐藏层向量的注意力权重a

u

其中,u

进一步,数理特征提取部分由多个基特征提取组成,在每个基特征提取中,将样本特征向量和特征先验树的特征矩阵中的向量v

l

其中,l

进一步,基特征提取的具体过程如下:

Step 1:初始参数矩阵W

Step 2:计算w,v

Step 3:将相似值与校验参数矩阵W

l

进一步,步骤4的过程为:

将训练集问题文本的输出的特征向量F

第二个全连接层将激活函数的输出结果变换为长度等于标签类别数量的向量:F'=(f

其中,f

进一步,步骤5中的训练停止条件为损失小于1e-6或者迭代次数大于次数阈值,计算损失的方法为:

其中,L是交叉熵损失,y

进一步,对样本及其标签进行预处理的方法为:

预处理包括去除数据中的非文本部分、做分词处理、去掉停用词处理,在预处理后得到所有样本及标签的统一格式。

本发明的有益效果:

1、本发明基于所得到的注意力权重,对隐藏层向量进行加权求和,得到文本输出的特征向量;这样处理的好处是可以基于文本上下文信息提取到特征来学习到标签信息。

2、针对答案解析文本构建带有领域先验知识的特征先验树,能够得到文本信息中所无法提取到的推理性特征。

3、基于问题文本特征向量与特征先验树的特征矩阵进行数理特征提取,能够提取到基于推理性知识所得到的标签部分信息,从而提高整体的标签分类精度。

4、本申请通过构建数理特征提取的数学文本多标签分类模型,并且利用该文本多标签分类模型对初中数学题的问题文本进行分类,输出分类结果;该分类结果可以作为初中数学题的知识点分类大纲,辅助老师有针对性的布置练习题目,同时也可以辅助学生对弱项知识点进行针对性的查漏补缺,有效的提高孩子的数学学习成绩,为学生提供个性化学习的途径。

另外,本申请解决了数学题文本多标签分类模型中难以挖掘题目当中推理得到知识点信息的问题,同时也解决了数学题文本中噪音干扰多的问题,且能显著的提高数学题文本多标签的分类效果,对老师的辅助性教学和学生的自主个性化学习都具有十分重要的意义。

附图说明

图1是结合特征先验知识的网络架构图。

图2是先验知识数理特征提取图。

图3是本申请一种基于数理特征提取的数学题文本多标签分类方法流程图。

图4是本申请基于试题的答案解析文本构建带有领域知识的特征先验树的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。

如图1和3所示的一种基于数理特征提取的数学题文本多标签分类方法,包括如下步骤:

步骤1,采集多套数学试卷中的试题作为样本,形成样本集;并将每道题目的知识点作为样本的标签;更具体地,可以通过人工标记的方式获取每个样本(即试题)对应的知识点。

对样本及其标签进行预处理和特征提取,得到样本对应的样本特征向量及样本特征向量对应的标签形成样本特征向量集。

更具体地,对样本及其标签进行预处理的方法为:

预处理包括去除数据中的非文本部分、做分词处理、去掉停用词等处理,在预处理后得到所有样本及标签的统一格式,以某试题为例:

如:等腰△ABC中,AB的垂直平分线DE交BC于点D,△ABC的周长为17cm,求AB的长度。

将其预处理后得到的形式为:

等腰@Triangle0,@Line0垂直平分线@Line1交@Line2于点@Point0,@Triangle0周长17cm,求@Line1长度\L 53|59

其中,等腰@Triangle0,@Line0垂直平分线@Line1交@Line2于点@Point0,@Triangle0周长17cm,求@Line1长度为预处理后的样本,53|59为预处理后样本的标签;

更具体地,对预处理后的样本采用Word2vec进行词嵌入,得到样本特征向量;将样本特征向量及样本特征向量对应的标签形成样本特征向量集,表示为:

w={(x

其中,x

对样本特征向量进行编码得到隐藏层向量;引用自注意力机制计算各个隐藏层向量的注意力权重a

更具体地,对样本特征向量进行编码的方法为:

将样本特征向量输入BILSTM模型的编码器中进行编码,输出每个样本特征向量对应的编码;表示为:

得到隐藏层向量

基于注意力权重a

更具体地,引用自注意力机制计算各个隐藏层向量的注意力权重a

u

其中,u

基于所得到的注意力权重a

步骤2,将样本集分为训练集和测试集;获取训练集中样本对应的答案解析文本,答案解析文本分为叶节点文本信息和根节点文本信息,根节点文本信息即答案解析的标签。需要进行说明的是,对于每道试题的答案解析,将答案解析中能直接或间接推出根节点文本信息的文本信息作为叶节点文本信息,如图4以某题的答案解析的部分内容为例进行说明:

答案解析:因为AB平行与CD,AC平行于BD。所以ABCD为平行四边形。

根据上文所示的答案解析文本,因为根据“AB平行与CD,AC平行于BD”能直接推出“ABCD为平行四边形”,所以对该答案解析文本进行划分时,即“AB平行与CD,AC平行于BD”为叶节点文本信息,“平行四边形”为根节点文本信息。

对答案解析文本进行预处理和特征提取,得到叶节点文本信息特征及根节点文本信息特征;由叶节点文本信息特征及根节点文本信息特征形成特征先验树的特征矩阵。

更具体地,特征提取是对答案解析文本采用Word2vec进行词嵌入,得到特征先验树的特征矩阵。特征先验矩阵表示为:

v={v

其中,v是特征矩阵;v

步骤3,对样本特征向量与特征先验树的特征矩阵进行数理特征提取,得到数理特征提取部分的输出结果l

更具体地,如图2数理特征提取部分由多个基特征提取组成,在每个基特征提取中,将样本特征向量和特征先验树的特征矩阵中的向量v

l

其中,l

更具体地,基特征提取的具体过程如下:

Step 1:初始参数矩阵W

Step 2:计算w,v

Step 3:将相似值与校验参数矩阵W

l

步骤4,将训练集的文本输出的特征向量F

更具体地,将训练集问题文本的输出的特征向量F

第二个全连接层将激活函数的输出结果变换为长度等于标签类别数量的向量:F'=(f

其中,f

步骤5,计算损失函数:

设置迭代次数阈值,当loss小于1e-6或者迭代次数大于次数阈值,停止对训练文本的处理;否则继续迭代训练,即继续对训练集进行训练,从而获得训练好的数学文本多标签分类模型。

将测试样本问题文本输入构建好的数学文本多标签分类模型,输出该题目所设计到知识点的分类的结果。

以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号