首页> 中国专利> 基于问题求解过程的习题语义化方法

基于问题求解过程的习题语义化方法

摘要

本发明公开了一种基于问题求解过程的习题语义化方法,主要包括知识网络(知识点与知识点之间的关系、定理及其推导条件和结论之间的关系)的构建、题目与解题过程的语义化;该方法通过对习题的解题过程进行分析处理,提取解题步骤的推导条件、原因和结论,并语义化,使该习题的解题过程具有详尽的逻辑关系,进而被计算机所识别,便于资源的共享利用。

著录项

  • 公开/公告号CN103473224A

    专利类型发明专利

  • 公开/公告日2013-12-25

    原文格式PDF

  • 申请/专利权人 成都景弘智能科技有限公司;

    申请/专利号CN201310462896.0

  • 发明设计人 符红光;钟秀琴;王庆先;

    申请日2013-09-30

  • 分类号G06F17/27(20060101);

  • 代理机构

  • 代理人

  • 地址 610041 四川省成都市高新区一环路南三段80号1栋7楼

  • 入库时间 2024-02-19 22:05:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-24

    专利权的转移 IPC(主分类):G06F17/27 专利号:ZL2013104628960 登记生效日:20220510 变更事项:专利权人 变更前权利人:钟秀琴 变更后权利人:内江市感官密码科技有限公司 变更事项:地址 变更前权利人:610041 四川省成都市武侯区人民南路四段9号 变更后权利人:641100 四川省内江市东兴区兰桂大道377号三单元第16楼1610号办公室

    专利申请权、专利权的转移

  • 2016-06-22

    授权

    授权

  • 2014-01-22

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20130930

    实质审查的生效

  • 2013-12-25

    公开

    公开

说明书

技术领域

本发明涉及一种基于问题求解过程的习题语义化方法。

背景技术

随着信息技术的发展及教学改革的深化,习题语义化技术得到了广泛的应 用,同时有关的理论、技术也得到了很大的发展。然而传统习题或题库系统缺 少语义或智能性,计算机不能很好地理解;其次,题库的表现形式多种多样, 题库资源难以共享。传统习题都是以文本格式进行存储,未考虑题目与解题过 程的语义,以及习题之间的关系。习题涵盖了某个学科或课程的知识点或知识 网络,而这些题目与解题过程的语义,以及习题之间的关系是进行问题求解时 的重要参考和依据。

发明内容

本发明的目的在于针对于现有技术中存在的问题,提供一种基于问题求解 过程的习题语义化方法,该方法针对习题的题目及问题求解过程,将所涉及领 域的定理的推导条件、原因和结论提取出来,并将所涉及的知识点、知识点之 间的关系提取出来,构建知识网络,再利用该知识网络对题目及解题过程进行 语义化,变成计算机能识别的语言,有利于资源共享。

为了达到上述发明目的,本发明采用的技术方案如下:

提供一种基于问题求解过程的习题语义化方法,包括如下步骤:

S1:确定一个领域,利用自然语言解析工具对该领域内的定理进行解析并 对其进行语义化,形成描述领域知识的知识网络;

S2:提取领域内的知识点及知识点之间的关系,将其添加到步骤S1中所建 立的知识网络中;

S3:输入题目文本信息,对题目中的已知条件和结论进行拆分,并对已知 条件划分成段并编号,再利用自然语言解析工具对每个分段及结论进行解析并 对其语义化;

S4:输入解题过程文本信息,结合步骤S3中的已知条件信息对该解题过程 的每一步进行编号,并利用步骤S2中构建的知识网络来构建或查找每个解题步 骤的推导条件、结论和对应的定理信息即原因,再利用自然语言解析工具进行 解析并对其语义化,从而完成问题求解过程的语义化。

步骤S1中,利用自然语言解析工具根据推导条件在前、结论在后的结构对 定理进行解析,提取该定理的推导条件和结论,并将推导条件、定理和结论构 建成主谓宾结构,存储为RDF三元组,添加到知识网络中,形成该领域的知识 网络。

步骤S3包括以下步骤:

S31:对题目中的已知条件和结论进行拆分;

S32:再以标点符号为标志符,对题目的已知条件进行分段,并对其进行编 号;

S33:再将经步骤S32处理过的已知条件和步骤S31中的结论用自然语言解 析工具解析成树,提取其主谓宾,存储为RDF三元组。

步骤S4包括以下步骤:

S41:对解题过程的每一步进行编号;如果当前步骤为已知条件,则编号为 已知条件中对应的序号;如果当前步骤为新生成的结论,则对当前步骤进行自 动编号,编号的序号从已知条件最大编号加1开始,直到对解题过程中的所有 步骤编号完毕;

S42,包括:

A:对解题过程中新生成的结论即新步骤进行解析,得到该新步骤的推导条 件、原因和结论;

A1:如果该新步骤未标注原因,则推导条件为该步骤之前的一个原因或结 论步骤对应的编号;再根据此步骤的推导条件和结论,在已构建好的知识网络 中找到相应的定理,得到其原因;如果没有找到相应的定理,再继续添加该步 骤之前的一个原因或结论步骤之前的原因或结论步骤对应的编号,直到找到相 应的定理或推导条件全部添加完为止;

A2:如果该新步骤已注明了原因,则对应的定理已知,根据结论和原因在 已构建好的知识网络中找到相应的推导条件,且该推导条件为该新步骤之前的 一个或多个原因或结论步骤对应的编号;

B:再将推导条件、原因和结论构建成一个主谓宾结构,并存储为RDF三 元组;其中,三元组主语为推导条件信息,谓语为原因信息,宾语为结论信息;

C:将上述三元组信息进行抽象模型提取,并搜索知识网络中是否已存在该 三元组,如果不存在,则把该三元组添加到知识网络中;

D:重复步骤A到C,直至完成对解题过程中的每个新生成的结论的语义化, 即完成问题求解过程的语义化。

E:构建此题目及解题过程的XML文档。

名词解释

知识网络:是知识元之间相互关联形成的网络。如果把知识元看作节点, 知识元之间的联系用一条边来表示。那么所有的知识以及它们之间的联系就构 成了一个庞大复杂的网络,叫做知识网络。

资源描述框架(Resource Description Framework,RDF)是由万维网联盟 (W3C)制定发展的规范,它用于表达关于网络资源的元数据,表达简单的资 源陈述,其中每个陈述都是由主语(subject)、谓语(predicate)和宾语(object)组成 的,可标识资源与资源之间的关系,并可作为逻辑推论的基础资料模型。RDF 提供了一种基本的结构,用于在Web上对元数据(meta-data)进行编码、交换 和重用;RDF的基本句法是<主语谓词宾语>三元组,主语为URI或匿名结点 ID,宾语为URI、匿名结点ID或文字(literal),谓词则是一URI;RDF图 (RDF Graph)是由RDF三元组组成的集合,RDF的数据模型有三种表示法:作 为三元组、作为图和用XML表示,这些表示都具有相同的含义,表示间的映射 不会以任何方式约束实现中使用的内部表示。

可扩展标记语言(eXtensible Markup Language,XML),是一种标记语言。 标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含 各种信息的文章等;如何定义这些标记,既可以选择国际通用的标记语言,比 如HTML,也可以使用像XML这样由相关人士自由决定的标记语言,这就是语 言的可扩展性,XML是从标准通用标记语言(SGML)中简化修改出来的。它 主要用到的有可扩展标记语言、可扩展样式语言(XSL)、XBRL和XPath等。

所述自然语言解析工具为美国斯坦福大学研发的中文自然语言解析工具即 Stanford Parser。

综上所述,本发明具有以下有益效果:

1)本发明通过对习题的解题过程进行分析处理,提取解题步骤的推导条件、 原因和结论,并语义化,使该习题的解题过程具有详尽的逻辑关系,进而被计 算机所识别,便于资源的共享利用。

2)本发明构建的知识网络能很好地展现知识点与知识点之间的关系,可以 通过不停的学习加以完善,有利于对知识的挖掘处理。

3)本发明还对构建的三元组进行抽象模型提取,使得零散的知识得以关联 和系统化,更符合认知心理学习的学习方式;另外,抽象模型的构建可以完成 多种应用,如进行自动解题与证明。

附图说明

图1为本发明构建的知识网络关系图。

图2为本发明题目语义化流程图。

图3为本发明解题过程语义化流程图。

图4为本发明-实施例中的例1的示意图。

具体实施方式

下面结合具体实施例对本发明的具体实施方式做详细地描述:

如图1所示,知识网络的构建:首先确定一个领域,将领域内所涉及的定 理用美国斯坦福大学研发的中文自然语言解析工具Stanford Parser进行解析,提 取对应定理的推导条件和结论,并将推导条件、定理名称与结论构建成主谓宾, 存储为RDF三元组,形成一个知识网络;再将习题所涉及的知识点、知识点之 间的关系(此关系不需明确指出)提取出来,添加到上述知识网络中。

如图2所示,本发明的题目语义化过程为:

用户输入题目文本信息,对题目中的已知条件和结论进行拆分,再对已知 条件划分成段并进行编号,最后将已知条件和结论都转换为主谓宾结构,并存 储为RDF三元组。

图3为本发明的解题过程语义化流程图,基于问题求解过程可以进行具体 的解题步骤的抽象模型提取,每个解题步骤由结论、原因(相关定理)和推导 条件三个部分组成,具体步骤如下:

a、首先添加当前步骤的结论;

b、然后添加推导条件和原因;

如果该解题步骤未标注原因,则推导条件默认为该步骤之前的一个∵或∴ 步骤对应的编号,再根据此步骤的推导条件和结论,在已构建好的知识网络中 去匹配相应的定理,得到其推导原因;如果匹配不成功,再继续添加更之前的 一个∵或∴步骤对应的编号,直到匹配成功或推导条件全部添加完;如果此解 题步骤已注明了原因,则对应的定理为已知,根据结论和原因在已构建好的知 识网络中去匹配相应的推导条件,且推导条件为该步骤之前的一个或多个∵或 ∴步骤对应的编号。

c、核查推导条件、原因和当前步骤结论是否完全匹配,如果完全匹配,则 成功,否则需再进一步完善推导条件。

d、最后构建出当前解题步骤的推导条件、原因和结论的抽象模型。

下面以实例详细说明一种基于问题求解过程的习题语义化方法的流程:

这里选择一道题进行输入,题目信息为:

例1,如图4所示,四边形ABCD是平行四边形,AC是对角线,BE⊥AC, 垂足为E,DF⊥AC,垂足为F。

求证:BE=DF。

【答案】证明:∵四边形ABCD是平行四边形。

∴BC=AD,BC∥AD。

∴∠ACB=∠DAC

∵BE⊥AC,DE⊥AC。

∴∠CEB=∠AFD=900.

∴△CEB≌△AFD(ASA)

∴BE=DF。

构建该领域内定理的知识网络,如“平行四边形的性质2”,其文本描述“平行 四边形的对边平行且相等”,由自然语言解析工具Stanford Parser按照最大匹配 原则解析为“平行四边形”、“对边平行”、“相等”;根据条件在前,结论在后的 结构解析,则此定理的推导条件为“平行四边形”,结论为“对边平行”和“相 等”(可完善为“线段相等”或“对边相等”);由此可构建此定理的主谓宾,并 存储为对应的RDF三元组<平行四边形平行四边形的性质2对边平行>和<平 行四边形平行四边形的性质2对边相等>,添加到知识网络中。

另外,再根据习题的知识点,构建知识点与知识点之间的关系,如四边形与平 行四边形有关系,对角线与四边形有关系,(具体什么关系,在这里并不重要, 不予考虑)。

进行题目语义化:以“已知”、“求证”、“证明”为标识符将已知条件和结论拆 分,再以标点符号为标识符,对题目的已知条件进行拆分,并对其进行顺序编 号。对例1的题目信息处理如下:

已知条件:

(1)如图,

(2)四边形ABCD是平行四边形,

(3)AC是对角线,

(4)BE⊥AC,

(5)垂足为E,

(6)DF⊥AC,

(7)垂足为F。

结论:

求证:BE=DF。

将已知条件和结论用自然语言处理工具Stanford Parser进行解析,然后提取其抽 象模型。对例1的题目处理如下:

已知条件:

(1)如图,

(2)四边形ABCD是平行四边形

(3)线段AC是对角线

(4)线段BE垂直线段AC

(5)点E为垂足

(6)线段DF垂直线段AC

(7)点F为垂足

结论:

线段BE线段相等线段DF

并将其存储为三元组。

解题过程处理:对解题过程中的每一步进行编号;若当前步骤为已知条件,则 编号为已知条件中对应的序号;如果当前步骤为新生成的结论,则对当前步骤 进行自动编号,编号的序号从已知条件最大编号加1开始,直到对解题过程中 所有步骤进行编号。对例1的解题过程处理如下:

【答案】

(2)∵四边形ABCD是平行四边形.

(8)∴BC=AD BC∥AD.

(9)∴∠ACB=∠DAC

(4)(6)∵BE⊥AC,DE⊥AC.

(10)∴∠CEB=∠AFD=900.

(11)∴△CEB≌△AFD(ASA)

(12)∴BE=DF.

依次解析解题过程中的每一个新步骤(即新生成的结论):

如果当前解题步骤未标注原因,则推导条件默认为该步骤之前的一个∵或 ∴步骤对应的编号,再根据此步骤的推导条件和结论,在已构建好的知识网络 中去匹配相应的定理,得到其推导原因,如果匹配不成功,再继续添加更之前 的一个∵或∴步骤对应的编号,直到匹配成功或推导条件全部添加完;

如果此解题步骤已注明了原因,则对应的定理为已知,根据结论和原因在 已构建好的知识网络中去匹配相应的推导条件,且推导条件为该步骤之前的一 个或多个∵或∴步骤对应的编号。

对例1的解题过程处理如下:

结论:(8)∴BC=AD BC∥AD.

推导条件:(2)

原因:平行四边形的性质2

其中(8)对应的实例模型为

“线段BC对边相等线段AD”

“线段BC对边平行线段AD”

其抽象模型为“对边相等”(“线段相等”)、“对边平行”

结论:(9)∴∠ACB=∠DAC.

推导条件:(8)

原因:平行线的性质2

其中(9)对应的实例模型为“∠ACB内错角相等∠DAC”,

其抽象模型为“内错角相等”

结论:(10)∴∠CEB=∠AFD=900.

推导条件:(4)(6)

原因:垂直的定义

其中(10)对应的实例模型为“∠CEB角相等∠AFD”

其抽象模型为“角相等”

结论:(11)∴△CEB≌△AFD

原因:ASA(角边角判定定理)

推导条件:(8)(9)(10)

其中(11)对应的实例模型为“△CEB三角形全等△AFD”

其抽象模型为“三角形全等”

结论:(12)∴BE=DF.

推导条件:(11)

原因:全等三角形的性质

其中(12)对应的实例模型为“线段BE对应边相等线段DF”

其抽象模型为“对应边相等”

然后将上述每一步的推导条件、原因和结论的三元组抽象模型存储为一个 外层三元组,添加到知识网络中,这样就通过有监督学习构建出每一个新步骤 (新结论)的推导条件、原因和结论的抽象模型,从而将整个问题求解过程语 义化。

虽然结合具体实施例对本发明的具体实施方式进行了详细地描述,但并非 是对本专利保护范围的限定。在权利要求书所限定的范围内,本领域的技术人 员不经创造性劳动即可做出的各种修改或调整仍受本专利的保护。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号