首页> 中文学位 >基于语义分析树核的句子相似度计算
【6h】

基于语义分析树核的句子相似度计算

代理获取

目录

文摘

英文文摘

声明

1 绪论

1.1 研究背景

1.2相似度研究意义

1.3相似度研究现状

1.4本文的工作

2句子的相似度计算

2.1 句子相似度计算的定义与应用

2.2 句子相似度计算方法研究

3相似度计算算法

3.1相似度理论

3.2基于语义分析树核的句子相似度计算

3.3基于语义依存的句子相似度计算

4实验及结果分析

4.1关于测试集

4.2实验方法

4.3实验对比结果

4.4实验结果分析

结 论

参考文献

攻读硕士学位期间发表学术论文情况

致 谢

展开▼

摘要

本文对相似度计算的各个层次进行了论述,重点论述了句子相似度计算。在研究汉语句子相似度的过程中,认为一个句子信息的完整表达,不但依赖于组成句子的词汇,而且还依赖于词汇之间的关系。因此,提出语义分析树核的相似度计算方法,对汉语句子的句法结构、词语语义、词形三个特征进行了研究,在使用这三个特征在计算句子相似度时各有侧重,互为补充。 首先,将树核应用于汉语句法结构相似度计算。对于汉语句子的嵌套结构,最直观的表示形式是树状结构,因其更能体现句子结构信息。此外,在比较例句和候选句时,两种结构的相似度不仅体现在单个分支的句法结构,也体现在句子的整体结构上,使用树核能精确计算两个句子的句法结构相似度。 其次,研究了句子的词语语义相似度计算方法。利用《同义词词林》提供的丰富语义信息,提取两个汉语句子中的关键词,并考虑词性对词语相似度的影响,去除句子中的冗余信息,计算关键词之间的词语语义相似度。 再次,研究了两个句子形态上的相似度,以两个句子中所含相同关键词的个数占两个句子中的总关键词的个数来衡量,即词形相似度。 最后,使用多特征融合的方法融合三个特征。句法特征、词语语义特征、词形特征分别反映了句子的结构、语义、表层词语方面的信息,通过设定各个特征的权值来调节它们对句子相似度计算的贡献。 实验测试集为6000个句子,其中的5000句为噪音集,另外的1000句通过手工获得,构成标准集。在此测试集上使用本文所使用的方法,获得91.3%的查准率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号