首页> 中国专利> 基于知识结构的相似试题识别方法

基于知识结构的相似试题识别方法

摘要

本发明公开了一种基于知识结构的相似试题识别方法,综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算,可以提升相似试题识别的效果;此外,在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。

著录项

  • 公开/公告号CN112231491A

    专利类型发明专利

  • 公开/公告日2021-01-15

    原文格式PDF

  • 申请/专利权人 中国科学技术大学;

    申请/专利号CN202011125402.6

  • 申请日2020-10-20

  • 分类号G06F16/36(20190101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11260 北京凯特来知识产权代理有限公司;

  • 代理人郑立明;韩珂

  • 地址 230026 安徽省合肥市包河区金寨路96号

  • 入库时间 2023-06-19 09:35:27

说明书

技术领域

本发明涉及机器学习和教育数据挖掘技术领域,尤其涉及一种基于知识结构的相似试题识别方法。

背景技术

识别相似试题(FSE)是在线教育系统的一项基本且具有挑战性的任务,它可以用于试题检索和学生能力建模等在线教育系统。近年来,在线教育系统的研究和应用蓬勃发展,这些系统不仅可以帮助老师有针对性地给学生布置试题,还能协助学生巩固自己学习到的知识点;其中相似试题识别任务在这里面扮演着至关重要的角色。

知识点的结构信息储存在知识结构中,知识结构解释了一个领域中的知识概念是如何相互关联的,它可以用来建模知识之间的关联概念从而进一步帮助识别相似的试题。

目前,相似试题识别的相关工作大多是利用试题的相似文本、图片或者知识点标签特征,但是忽略了知识点的结构信息,因此,相似试题识别的效果还有待提升。

发明内容

本发明的目的是提供一种基于知识结构的相似试题识别方法,引入了知识点的结构信息,相较于现有方案而言,考虑因素更加全面,对数据的理解更加深入,可以准确高效地判断题对之间的相似程度,有效提升相似试题识别的效果。

本发明的目的是通过以下技术方案实现的:

一种基于知识结构的相似试题识别方法,包括:

获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;

构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。

由上述本发明提供的技术方案可以看出,综合了文本、图像及知识点与知识点结构多方位因素来进行试题对的相似度计算,可以提升相似试题识别的效果;此外,在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于知识结构的相似试题识别方法的原理图;

图2为本发明实施例提供的内容表示层及结构融合层的原理图;

图3为本发明实施例提供的试题通过KnowNet模型学习到的注意力权重热力图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

本发明实施例提供一种基于知识结构的相似试题识别方法,包括:

获取试题集合与待识别的试题,试题集合中每一试题与待识别的试题均包含相关的内容信息、知识点及知识点间关系构成的知识结构;

构建基于知识结构的多模态模型,其包含内容表示层、结构融合层及相似度得分层;其中,内容表示层用于提取试题内容信息中的文本与图像之间的联合语义表示向量;结构融合层则结合联合语义表示以及试题的知识点及知识结构提取基于知识结构的语义表示向量;相似度得分层则利用试题集合中每一试题与待识别的试题的语义表示向量计算试题之间的相似度得分。

本发明实施例中,所述的相似试题是具有相同的考查目的,或者说有相似语义的试题。将相似试题识别任务定义为:给定一个试题的集合以及每个试题对应的内容信息EC(比如试题的文本信息ET,图片信息EI)和知识点信息KC以及知识点的层级结构KS(也称为知识结构),目标是利用这些异构信息去学得一个基于知识结构的多模态模型

其中的Θ表示模型

图1示出了本发明的主要原理,其中的(a)部分表示主要的步骤流程,CRL、SFL、SSL分别为内容表示层、结构融合层及相似度得分层,FC Layer为全连接层。(b)部分为试题所包含的信息内容,即文本信息ET,图片信息EI、知识点信息KC。(c)、(d)部分别为CRL、SFL内部结构,(e)部分为SFL的输出结果(r

本发明实施例中,从数据处理层面进行了改进,考虑了多方面的因素,来提升相似试题识别的效果;具体来说,构建的模型中引入了知识点结构,改进了模型效果,可以加深对数据的理解,从而准确高效地判断试题对之间的相似程度。

下面针对本发明实施例上述方案做详细的介绍。

一、数据收集与预处理。

1.数据收集。

使用了真实的教育平台数据集,数据集包括由知识点间关系组成的知识结构和试题的内容信息,其中试题的内容包括试题的文本,试题包含的图片,此外标注了试题所考查的知识点。

2.数据预处理。

在训练模型之前,需要对数据集进行预处理来提升模型的效果。1)对试题的文本进行处理,用正则匹配删除一些无用符号后进行分词,再删除停止词和低频词;2)把所有试题的图像缩放到大小一致,这样方便输入到模型中。

二、构建基于知识结构的多模态模型(KnowNet)。

KnowNet模型,它利用了知识点所具有的图结构性质,并通过三个阶段来实现题对相似度得分的评估,KnowNet的架构如图1的(a)部分所示。为了处理不同类型的数据,使用了多种子模块来获取文本和图片的向量表示,并在不同阶段采用不同的注意力机制对各类型的数据进行融合处理。

1、内容表示层(Content Representation Layer,CRL)。

内容表示层的目的是输出每个试题的图文联合语义表示,架构如图1的(c)部分所示,主要包括:图卷积网络(Image CNN)、基于注意力机制的长短记忆模型(Attention-based LSTM,ALSTM)。首先,内容信息中的图像输入至图卷积网络,提取出固定长度的特征向量;然后,将图像的特征向量处理为联合表示向量后与文本进行拼接,再输出至基于注意力机制的长短记忆模型,寻找文本与图像之间的关联,获得试题的联合语义表示向量

1)Image CNN。

如图2左上方所示,对于试题q的图像数据EI,使用一个拥有五层卷积网络和最大值池化层(max pooling)的lmage CNN(ImCNN)来获取每个图像的特征向量。每一试题包含若干图像,对于EI中的第i张图像p

g

其中,σ表示激活函数。

2)ALSTM。

如图2左下方所示,ALSTM的目标在于找到试题文本和图片之间的关联信息。由于长短期记忆模型(Long Short Term Memory networks,LSTM)可以处理任何长度的序列,并学习序列的长期依赖关系,因此采用了一个基于LSTM的结构来学习任意长度试题的语义表示,不失一般性的,把各个试题不同类型数据的结合序列x=(x

i

f

o

m

h

其中i.,f.,m.,o.分别表示LSTM的输入门、遗忘门、记忆单元和输出门,W.和b.是相应门或者单元中待学习的权重矩阵和偏差。在每个时间步的输入阶段,文本和图像数据组合成一个多模态的输入向量x

其中,w

其中,I表示试题q中图片的总数,α

2、结构融合层(Structure Fusion Layer,SFL)。

结构融合层的目标是将知识点的结构信息整合到试题的语义表示中。如图2的右侧所示,为了建模试题内容与知识点的内在联系,将著名的scaled-dot productattention应用在CKA(Content Knowledge Attention,知识与内容注意力机制)模块Content中。为了描述结构关系,提出了一个新的算法:树卷积网络Tree ConvolutionalNetwork(TCN),如图2的右下所示。下面分别介绍结构融合层SFL的两个重要子模块。

1)CKA模块。

因为由one-hot表示的知识点向量过于稀疏,因此首先使用嵌入的方法把知识点向量转换成低纬度的向量(即降维处理)。从形式上来说,对于试题q的第c个知识点向量k

u

其中,

然后,将试题中降维处理后的所有知识点向量构成的向量u以及联合语义表示向量

其中,U

2)树卷积网络。

Tree Convolutional Network的目的是在获取到向量

在所述树卷积网络中,由于知识结构对应的树结构作为数据输入,不需要重新构建,因此,可以直接将基于知识点注意力的语义表示向量

其中,W

当结点特征聚集到顶层树结点时,最终,得到一个综合表示向量

3、相似度得分层(Similarity Score Layer,SSL)。

如图1的(a)部分所示,每个试题的输入数据通过CRL和SFL层后,将获得r

其中,c=1,2,...,n;n为知识点总数,等于前文提到的知识点向量k

再将矩阵

其中,W

4、模型的可解释性。

通过前述Att(Q,K,V)计算公式,KnowNet模型能够获取知识结构和试题的语义表示之间的注意力信息,这是该模型的一个重要能力特点。图3是一个试题通过KnowNet模型学习到的注意力权重热力图,颜色越深表示注意力权重越大,其中KC-1~4依次表示直线的斜率,直线相对圆的位置,圆的参数方程,点到直线的距离这四个知识点概念;左侧一列:line、centre、....,表示试题中文本分词。从图3中可以看到KnowNet模型学会了怎么去获取和知识点相关的关键词。这说明KnowNet模型提供了一个很好的方式(通过CKA模块)来获取一个试题的知识点和内容的关联情况,提供了一定的可解释性。

三、损失函数和模型训练。

本发明实施例采用一种pairwise loss function来训练KnowNet模型,对于一个试题E,将E

其中,μ是一个边界值,保证S(E,E

KnowNet模型具有完全可微的性质,可以通过Adam算法进行有效的训练。

在完成模型训练后,将一道试题和它的候选相似试题集合成对输入模型,这样可以按照它们之间的相似试题得分进行排序,从而找到试题的TOP N个最相似的试题。

本发明实施例上述方案,通过将知识结构考虑到模型的构建中,从而改进识别相似试题的效果。在建模过程中,通过综合考虑文本和图片特征来获取语义表示,再利用知识结构获得基于知识结构的语义表示,在改进模型效果的同时,还具有高度的可解释性。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号