首页> 中国专利> 一种连线匹配试题的自动解题方法、装置及存储介质

一种连线匹配试题的自动解题方法、装置及存储介质

摘要

本发明公开了一种连线匹配试题的自动解题方法、装置及存储介质,所述连线匹配试题的自动解题方法,包括:获取连线匹配试题的文本信息,将所述文本信息结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……;计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分;根据所述匹配打分的结果采用最大权匹配算法针对各部分文本信息集合texts_a、texts_b、……中的文本进行匹配;回溯连线匹配试题的结构信息生成自动解题答案。本发明的连线匹配试题的自动解题方法实现了不同题型的连线匹配试题的自动解答,而且针对不同的题型采用不同的算法,确保连线匹配试题自动解答的准确性。

著录项

  • 公开/公告号CN114840643A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 北京云思智学科技有限公司;

    申请/专利号CN202210532554.0

  • 发明设计人 胡科;崔寅生;

    申请日2022-05-12

  • 分类号G06F16/33(2019.01);G06F16/36(2019.01);G06F16/583(2019.01);G06Q50/20(2012.01);

  • 代理机构北京中联智道知识产权代理事务所(普通合伙) 11963;

  • 代理人熊蒙

  • 地址 101106 北京市通州区经济开发区东区靓丽三街9号-2060

  • 入库时间 2023-06-19 16:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022105325540 申请日:20220512

    实质审查的生效

说明书

技术领域

本发明涉及在自然语言处理技术领域,具体的涉及一种连线匹配试题的自动解题方法、装置及存储介质。

背景技术

英语——作为一种自然语言,是学习最广泛的第二语言,是近60个主权国家的官方语言或官方语言之一。与英语为母语的人相比,将其作为第二语言学习的人更多。英语作为第二语言和作为外国语这两种不同的使用法,说明英语正在愈来愈被看成一种国际交往的工具,它不再为一国或一个民族所专有,而是一种中性的信息媒介。

英语在欧洲大陆及日本是最普遍作为外语来学习的语言(94%),接着是法语和西班牙语,而在中国,小学至高中阶段,特别是中学阶段,几乎全部的学校选择英语作为其主要或唯一的外语必修课。而学习英语的最终目的是能够熟练的进行汉译英和英译汉的转换,因此,为了帮助中小学生更好的掌握和使用英语,中小学的英语训练试题中含有大量的连线匹配试题试题。连线匹配试题的题型多种多样,如图1所示的句意关联题型,根据给出的问句和答句进行匹配连线;如图2所示的英汉互译匹配连线题型,根据给出的汉语和英语进行匹配连线;如图3所示的同/反义词/句匹配连线题型,给出意思相反的两组单词进行反义词匹配连线。

由于连线匹配试题的题型较多,每种题型具有各自的题型特点,因此,针对连线匹配试题无法进行自动解答,学生在进行连线匹配试题作答时,没有一定知识水平的人员就无法进行辅导。另外,针对连线匹配试题,由于无法进行自动解答所以无法实现自动批改;或者采用基于预先输入标准参考答案的匹配方式实现自动批改,这种方式一方面增加了录入标准参考答案的工作量,另一方面由于每个学生在作答时连线的差异性影响批改的结果,从而增加自动批改的不可靠性。

有鉴于此,特提出本发明专利。

发明内容

为了解决上述问题,本发明提供一种连线匹配试题的自动解题方法、装置及存储介质,具体地,采用了如下技术方案:

一种连线匹配试题的自动解题方法,包括:

获取连线匹配试题的文本信息,将所述文本信息结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……;

计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分;

根据所述匹配打分的结果采用最大权匹配算法针对各部分文本信息集合texts_a、texts_b、……中的文本进行匹配;

回溯连线匹配试题的结构信息生成自动解题答案。

作为本发明的可选实施方式,本实施例所述的一种连线匹配试题的自动解题方法中,所述获取连线匹配试题的文本信息,将所述文本信息结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……包括:

获取连线匹配试题的原始OCR文本;

将原始OCR文本中的文本信息根据连线匹配试题的结构信息进行结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……;

可选地,所述将原始OCR文本中的文本信息根据连线匹配试题的结构信息进行结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……包括:

所述连线匹配试题的结构信息为左右侧文本连线匹配结构,则将原始OCR文本中的左右侧的文本信息分别汇总成不同的文本信息集合texts_a、texts_b、……;

所述连线匹配试题的结构信息为上下侧文本连线匹配结构,则将原始OCR文本中的上下侧的文本信息分别汇总成不同的文本信息集合texts_a、texts_b、……;

以及所述连线匹配试题的结构信息为多于或者等于三侧的文本连线匹配结构,则将原始OCR文本中各侧的文本信息分别汇总至不同的文本信息集合中。

作为本发明的可选实施方式,本实施例所述的一种连线匹配试题的自动解题方法中,所述计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分包括:

计算各部分文本信息集合texts_a、texts_b、……中的文本长度信息、英语或汉语占比信息、非停用词占比信息,判断所述连线匹配试题的题型,根据所述题型采用相对应的算法进行匹配打分:

所述匹配打分的算法包括句意关联度打分、文本相识度打分和语义相关性打分。

作为本发明的可选实施方式,本实施例所述的一种连线匹配试题的自动解题方法,包括:

计算各部分文本信息集合texts_a、texts_b、……中汉语和英语的文本数量均大于第一预设阈值,判断所述连线匹配试题的题型为英汉互译匹配连线题型;

将各部分文本信息集合texts_a、texts_b、……中的英文文本统一翻译成汉语文本之后采用最长公共子串lcs算法和jaccard相似度算法计算其相似度,进行英汉互译匹配度打分。

作为本发明的可选实施方式,本实施例所述的一种连线匹配试题的自动解题方法,包括:

计算各部分文本信息集合texts_a、texts_b、……的文本长度和非停用词占比,如果文本长度均小于等于第二预设值,并且非停用词占比均大于第三预设值,判断所述连线匹配试题的题型为同/反义词匹配连线题型;

基于wordnet的路径相似度算法计算各部分文本信息集合texts_a、texts_b、……中的文本句子相关性,进行同/反义词匹配度打分。

作为本发明的可选实施方式,本实施例所述的一种连线匹配试题的自动解题方法,包括:

当判断所述判断连线匹配试题的题型既不是英汉互译匹配连线题型,也不是同/反义词匹配连线题型,则采用句意关联度打分算法;

所述句意关联度打分算法包括基于预训练语言模型的NSP任务针对各部分文本信息集合texts_a、texts_b、……中的文本句子进行句意关联度打分。

作为本发明的可选实施方式,本实施例所述的一种连线匹配试题的自动解题方法中,所述回溯连线匹配试题的结构信息生成自动解题答案包括:

将最大权匹配算法计算出的各部分文本信息集合texts_a、texts_b、……中两两之间的文本对匹配结果索引转化为原始题目的题号或题标对应关系,生成自动解题答案。

本发明同时提供一种连线匹配试题的自动解题装置,包括:

文本获取模块,获取连线匹配试题的文本信息,将所述文本信息结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……;

打分模块,计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分;

文本匹配模块,根据所述匹配打分的结果采用最大权匹配算法针对各部分文本信息集合texts_a、texts_b、……中的文本进行匹配;

及回溯解答模块,回溯连线匹配试题的结构信息生成自动解题答案。

本发明同时还提供一种存储介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的一种连线匹配试题的自动解题方法。

与现有技术相比,本发明的有益效果:

本发明的连线匹配试题的自动解题方法通过计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分;一方面不仅能够针对不同题型的连线匹配试题进行针对性的匹配打分,从而实现自动解答,另一方面,多套算法针对不同题型的连线匹配试题进行匹配打分,提高连线匹配试题自动解答的准确性。

因此,本发明的连线匹配试题的自动解题方法实现了不同题型的连线匹配试题的自动解答,而且针对不同的题型采用不同的算法,确保连线匹配试题自动解答的准确性。

附图说明:

图1本发明实施例连线匹配试题的一种题型示例;

图2本发明实施例连线匹配试题的另一种题型示例;

图3本发明实施例连线匹配试题的又一种题型示例;

图4本发明实施例连线匹配试题的自动解题方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。

因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的部分实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征和技术方案可以相互组合。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,这类术语仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

参见图4所示,本实施例的一种连线匹配试题的自动解题方法,包括:

获取连线匹配试题的文本信息,将所述文本信息结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……;

计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分;

根据所述匹配打分的结果采用最大权匹配算法针对各部分文本信息集合texts_a、texts_b、……中的文本进行匹配;

回溯连线匹配试题的结构信息生成自动解题答案。

本实施例的连线匹配试题的自动解题方法通过计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分;一方面不仅能够针对不同题型的连线匹配试题进行针对性的匹配打分,从而实现自动解答,另一方面,多套算法针对不同题型的连线匹配试题进行匹配打分,提高连线匹配试题自动解答的准确性。

因此,本实施例的连线匹配试题的自动解题方法实现了不同题型的连线匹配试题的自动解答,而且针对不同的题型采用不同的算法,确保连线匹配试题自动解答的准确性。

作为本实施例的可选实施方式,本实施例的一种连线匹配试题的自动解题方法中,所述获取连线匹配试题的文本信息,将所述文本信息结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……包括:

获取连线匹配试题的原始OCR文本;

将原始OCR文本中的文本信息根据连线匹配试题的结构信息进行结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……。

OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

本实施例将原始OCR识别出来的文本信息结构化成待匹配的两部分文本信息texts_a和texts_b,比如texts_a为["Who's that man?",'What is your sister?','DidAmy have short hair then?','Where does the woman work?','What did youdo?'],texts_b为['I helped the poor people.','Yes,she did.','She is anurse.','He is Jackie Chan.','At a school.']。

由于现有的连线匹配试题的形式多样化,因此,在获取原始OCR文本中的集合texts_a、texts_b、……时,需要考虑题型的结构特点,如图1与图2中左右两侧语句连线匹配的方式,如图3中上下侧语句连线匹配的方式,还有三侧、四侧及更多侧语句的连线方式。

具体地,所述将原始OCR文本中的文本信息根据连线匹配试题的结构信息进行结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……包括:

当所述连线匹配试题的结构信息为左右侧文本连线匹配结构时,则将原始OCR文本中的左右侧的文本信息分别汇总成不同的文本信息集合texts_a、texts_b、……。

当所述连线匹配试题的结构信息为上下侧文本连线匹配结构时,则将原始OCR文本中的上下侧的文本信息分别汇总成不同的文本信息集合texts_a、texts_b、……;

与此同时,所述连线匹配试题的结构信息为多于或者等于三侧的文本连线匹配结构,则将原始OCR文本中各侧的文本信息分别汇总至不同的文本信息集合中。

作为本实施例的可选实施方式,本实施例所述的一种连线匹配试题的自动解题方法中,所述计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分包括:

计算各部分文本信息集合texts_a、texts_b、……中的文本长度信息、英语或汉语占比信息、非停用词占比信息,判断所述连线匹配试题的题型,根据所述题型采用相对应的算法进行匹配打分:

所述匹配打分的算法包括句意关联度打分、文本相识度打分和语义相关性打分。

由于不同题型的连线匹配试题的各部分文本信息集合texts_a、texts_b、……中文本的各种特征信息不同,因此可以通过计算出各部分文本信息集合texts_a、texts_b、……中的文本长度信息、英语或汉语占比信息、非停用词占比信息,判断所述连线匹配试题的题型,再根据所述题型采用相对应的算法进行匹配打分,实现了不同题型的连线匹配试题的自动解答,而且针对不同的题型采用不同的算法,确保连线匹配试题自动解答的准确性。

具体地,若计算出文本信息集合texts_a中文本长度信息与texts_b中文本长度信息相似,则判断所述连线匹配试题的题型为句意关联题型;若计算出文本信息集合texts_a、texts_b中汉语占比信息大于第一预设值,则判断所述连线匹配试题的题型为英汉互译匹配连线题型;若计算出文本信息集合texts_a、texts_b中非停用词占比信息大于第二预设值,则判断所述连线匹配试题的题型为同/反义词匹配连线题型。

本实施例所述的一种连线匹配试题的自动解题方法中,所述句意关联度打分包括:

判断所述连线匹配试题的题型为句意关联题型;

基于预训练语言模型的NSP任务针对各部分文本信息集合texts_a、texts_b、……中的文本句子进行句意关联度打分。

预训练语言模型的NSP(Next Sentence Prediction)任务就是预测两个句子是否连在一起,对于文本信息集合texts_a、texts_b中的两个句子text1和text2,若其相似,我们可以认为text2是text1的next sentence,反之则不是。

本实施例所述的一种连线匹配试题的自动解题方法中,所述文本相识度打分包括:

判断所述连线匹配试题的题型为英汉互译匹配连线题型;

将各部分文本信息集合texts_a、texts_b、……中的英文文本统一翻译成汉语文本之后采用最长公共子串lcs算法和jaccard相似度算法计算其相似度,进行英汉互译匹配度打分。

最长公共子串lcs(Longest Common Subsequence)算法解决两个文本信息集合texts_a、texts_b中的英文文本统一翻译成汉语文本text1、text2的两个字符串中最长公共子串长度,根据计算的最长公共子串长度计算汉语文本text1、text2的相似度。最长公共子串lcs算法包括穷举法,分别在text1和text2上维护i和j两个索引,从text1第一个字符开始,和text2的每个字符对比。最长公共子串lcs算法包括动态规划法:

1、把text1和text2两个字符串分别以行和列组成一个二维矩阵。

2、比较二维矩阵中每个点对应行列字符中否相等,相等的话值设置为1,否则设置为0。

3、通过查找出值为1的最长对角线就能找到最长公共子串。

为了进一步优化算法的效率,我们可以再计算某个二维矩阵的值的时候顺便计算出来当前最长的公共子串的长度,即某个二维矩阵元素的值由record[i][j]=1演变为record[i][j]=1+record[i-1][j-1],这样就避免了后续查找对角线长度的操作了。另外,在构造这个二维矩阵的过程中由于得出矩阵的某一行后其上一行就没用了,所以实际上在程序中可以用一维数组来代替这个矩阵。

Jaccard相似度(杰卡德相似度)算法通过计算两个文本信息集合texts_a、texts_b中的英文文本统一翻译成汉语文本text1、text2的Jaccard相似系数(Jaccardsimilarity coefficient)又称Jaccard系数(Jaccar Index)。两个文本text1、text2的交集元素在文本text1、text2的并集中所占的比例,称为两个文本text1、text2的Jaccard相似系数,用符号J(A,B)表示。

Jaccard相似系数是衡量两个集合的相似度一种指标。即计算两个文本text1、text2之间的相似程度,元素的“取值”为0或1。所谓的Jaccard相似度就是Jaccard相似系数。

本实施例所述的一种连线匹配试题的自动解题方法中,所述语义相关性打分包括:

判断所述连线匹配试题的题型为同/反义词/句匹配连线题型;

基于wordnet的路径相似度算法计算各部分文本信息集合texts_a、texts_b、……中的文本句子相关性,进行同/反义词匹配度打分。

WordNet与其他标准词典最显著的不同在于:它将词汇分成五个大类:名词、动词、形容词、副词和虚词。实际上,WordNet仅包含名词、动词、形容词和副词。虚词通常是作为语言句法成分的一部分,WordNet忽略了英语中较小的虚词集。本实施例基于wordnet的路径相似度算法计算各部分文本信息集合texts_a、texts_b、……中的文本句子相关性,实现同/反义词匹配度打分。

WordNet最具特色之处是根据词义而不是词形来组织词汇信息。可以说WordNet是一部语义词典。但是与按字母排列的语义词典以及按主题排列的语义词典都不同,它是按照词汇的矩阵模型组织的。WordNet中的语义关系:WordNet中除了具有中心角色的同义关系外,还有反义关系、上下位关系和部分关系。

反义关系(antonymy)是很难定义的一种语义关系。一个词x的反义词有时并不是非x。例如,“富有(rich)”和“贫穷(poor)”是一对反义词,但是要说某个人不富有并不意味着一定穷;许多人认为自己既不富也不穷。反义词似乎是一种简单的对称关系,实际上却是相当复杂的。反义词是一种词形间的语义关系,而不是词义间的语义关系。例如,词义{升高,上升}和{下落,下降}可能在概念上是相对的,其中[升高/下落]是反义词,[上升/下降]也是反义词。但是,如果说“升高”与“下降”与“上升”于“下落”是否是反义词,就要考虑一下了。所以有必要区分词形之间的语义关系和词义之间的语义关系。反义关系为WordNet中的形容词和副词提供了一种中心组织原则。

上下位关系,与同义词和反义词都是词形之间的词汇关系不同,上位关系(hypernymy)/下位关系(hyponymy)是词义之间的语义关系。例如:{樟树}是{树}的下位词,{树}又是{植物}的下位词。下位/上位关系也称为从属/上属关系,子集/超集关系,或ISA关系。如果以英语为母语接受以“An x is a(kind of)y”框架构造的句子,则同义词集合{x1,x2,…}表示的概念与同义词集合{y1,y2,…}表达的概念是下位概念和上位概念的关系。上下位关系具有某种限制,而且是一种不对称的关系。通常情况下,一个同义词集合如果有与之是下位概念和上位概念的关系的同义词集合,则也只有惟一的一个。即便是不惟一,同为上位概念的关系的同义词集合之间差别也是非常小的。这就产生了一种层次语义结构,其中下位词位于其上属关系的下层。这样的层次表达方法,Touretzky称作继承体系,它意味着下位词继承了上位词更一般化概念的所有性质,并且至少增加一种属性,以区别它与它的上位词以及该上位词的其他下位词。例如,“枫树”继承了其上位词“树”的属性,但却以其坚硬的木质、叶片的形状等特性区别于其他的树。这种方法为WordNet中的名词提供了一种核心的组织原则。

部分关系,同义关系,反义关系和上下位关系都是比较容易理解的语义关系。另一种语义关系称为“部分-整体关系”(简记为HASA),语言学家称之为部分词(meronym)/整体词(holonym)的关系。如果以英语为母语接受以“Ayi s an x”或“An x is a part of y”框架构造的句子,则同义词集合{x1,x2,…}表示的概念与同义词集合{y1,y2,…}表达的概念是部分概念和整体概念的关系。部分关系也具有某种限制,且是不对称的关系,可以构造一种部分等级关系。

作为本实施例的可选实施方式,本实施例所述的一种连线匹配试题的自动解题方法中,所述根据所述匹配打分的结果采用最大权匹配算法针对各部分文本信息集合texts_a、texts_b、……中的文本进行匹配包括:

所述匹配打分步骤中将各部分文本信息集合texts_a、texts_b、……两两分组,并将每组文本信息集合texts_a、texts_b中文本两两打分均计算出一个归一化0-1的分数矩阵;

根据所述分数矩阵采用最大权匹配算法计算对texts_a和texts_b中的文本进行匹配。

具体地,通过上述打分步骤将texts_a和texts_b中文本两两打分均计算出一个归一化0-1的分数矩阵,比如上述示例中的文本可以得出如下分数矩阵:

[[8.28200846e-04 2.49569247e-03 1.12167348e-03 9.83623384e-011.39417659e-03]

[2.64581262e-03 1.52072241e-03 9.74420349e-01 2.22938652e-032.79922139e-03]

[7.98599056e-04 9.21095015e-01 8.43662646e-04 1.23263361e-031.09131533e-03]

[8.30052552e-04 8.99982004e-04 8.70575999e-04 1.40076905e-039.75902831e-01]

[9.90664922e-01 2.57023169e-03 1.65253807e-03 8.21366862e-041.09186725e-03]]

再采用匈牙利匹配最大权匹配算法计算对texts_a和texts_b中的文本进行匹配。

作为本实施例的可选实施方式,本实施例所述的一种连线匹配试题的自动解题方法中,所述回溯连线匹配试题的结构信息生成自动解题答案包括:

将最大权匹配算法计算出的各部分文本信息集合texts_a、texts_b、……中两两之间的文本对匹配结果索引转化为原始题目的题号或题标对应关系,生成自动解题答案。

本实施例的连线匹配试题的自动解题方法可用于连线匹配试题的自动批改,包括:

获取连线匹配试题的试题图像;

识别出试题图像中的作答连线,确定作答连线的两端端点所对应的第一图像块和第二图像块;

分别识别出第一图像块中的第一文本信息text1和第二图像块中的第二文本信息text2;

计算第一文本信息text1、第二文本信息text2中的文本特征信息,用于判断采用何种算法进行匹配打分,根据所述打分结果判断第一图像块中的第一文本信息text1与第二图像块中的第二文本信息text2是否匹配;

若判断结果为是,则连线正确,若判断为否,则连线错误。

本实施例的连线匹配试题的自动解题方法用于连线匹配试题的自动批改时,所述计算第一文本信息text1、第二文本信息text2中的文本特征信息,用于判断采用何种算法进行匹配打分包括:

计算第一文本信息text1、第二文本信息text2中的文本长度信息、英语或汉语占比信息、非停用词占比信息,判断所述连线匹配试题的题型,根据所述题型采用相对应的算法进行匹配打分:

所述匹配打分的算法包括句意关联度打分、文本相识度打分和语义相关性打分。

本实施例的连线匹配试题的自动解题方法用于连线匹配试题的自动批改包括:

计算各部分文本信息集合texts_a、texts_b、……中汉语和英语的文本数量均大于第一预设阈值,判断所述连线匹配试题的题型为英汉互译匹配连线题型;

将各部分文本信息集合texts_a、texts_b、……中的英文文本统一翻译成汉语文本之后采用最长公共子串lcs算法和jaccard相似度算法计算其相似度,进行英汉互译匹配度打分。

可选地,所述的第一预设阈值可设定为30%。

本实施例的连线匹配试题的自动解题方法用于连线匹配试题的自动批改包括:

计算各部分文本信息集合texts_a、texts_b、……的文本长度和非停用词占比,如果文本长度均小于等于第二预设阈值,并且非停用词占比均大于第三预设阈值,判断所述连线匹配试题的题型为同/反义词匹配连线题型;

基于wordnet的路径相似度算法计算各部分文本信息集合texts_a、texts_b、……中的文本句子相关性,进行同/反义词匹配度打分。

可选地,所述第二预设阈值为3,所述第三预设阈值为80%。

本实施例的连线匹配试题的自动解题方法用于连线匹配试题的自动批改包括:

当判断所述判断连线匹配试题的题型既不是英汉互译匹配连线题型,也不是同/反义词匹配连线题型,则采用句意关联度打分算法;

所述句意关联度打分算法包括基于预训练语言模型的NSP任务针对各部分文本信息集合texts_a、texts_b、……中的文本句子进行句意关联度打分。作为本实施例的可选实施方式,本实施例根据计算结果选择算法匹配打分的过程包括:

1首先根据英语或汉语占比来进行第一步区分,如果texts_a和texts_b中带有汉语和英语的文本数量均大于30%(经验阈值,也可以适当调整),则认为是英汉互译匹配连线题型,会统一翻译之后走文本相似度打分。

2同时计算文本长度和非停用词占比(of、in、the等这些都认为是无意义的停用词),如果文本长度均小于等于3,并且非停用词占比均大于80%,则认为是同/反义词匹配连线题型,走词义相关性打分。

3剩下的都走句意关联度打分。

上述的那几个阈值都是经验值,实际应用的时候可以根据数据分布进行调整。

本实施例同时提供一种连线匹配试题的自动解题装置,包括:

文本获取模块,获取连线匹配试题的文本信息,将所述文本信息结构化处理得到待匹配的至少两部分文本信息集合texts_a、texts_b、……;

打分模块,计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分;

文本匹配模块,根据所述匹配打分的结果采用最大权匹配算法针对各部分文本信息集合texts_a、texts_b、……中的文本进行匹配;

及回溯解答模块,回溯连线匹配试题的结构信息生成自动解题答案。

本实施例的连线匹配试题的自动解题装置的打分模块通过计算各部分文本信息集合texts_a、texts_b、……中的文本特征信息,用于判断采用何种算法进行匹配打分;一方面不仅能够针对不同题型的连线匹配试题进行针对性的匹配打分,从而实现自动解答,另一方面,多套算法针对不同题型的连线匹配试题进行匹配打分,提高连线匹配试题自动解答的准确性。

因此,本实施例的连线匹配试题的自动解题装置实现了不同题型的连线匹配试题的自动解答,而且针对不同的题型采用不同的算法,确保连线匹配试题自动解答的准确性。

本实施例同时还提供一种存储介质,存储有计算机可执行程序,其特征在于,所述计算机可执行程序被执行时,实现所述的一种连线匹配试题的自动解题方法。

本实施例所述存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

本实施例还提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述一种连线匹配试题的自动解题方法。

电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。

所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。

应当理解,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子设备。

通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子设备执行根据本发明的方法。

以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但本发明不局限于上述具体实施方式,因此任何对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号