首页> 中文学位 >中文句子语义相似判定问题的众包解决方案
【6h】

中文句子语义相似判定问题的众包解决方案

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 研究现状

1.2.1 句子语义相似问题国内外研究现状

1.2.2 众包模式的国内外研究现状

1.2.3 主要研究内容和结构安排

第2章 相关基础知识

2.1 引言

2.2 中文句子语义分析

2.2.1 中文分词

2.2.2 句法分析

2.2.3 句型识别

2.2.4 生成语义信息

2.2.5 中文句子语义分析常用资源

2.3 中文句子语义相似度

2.3.1 TFIDF句子相似度算法

2.3.2 基于语义词典的句子相似度算法

2.3.3 基于编辑距离的句子相似度算法

2.3.4 基于句法依存分析的句子相似度算法

2.4 中文句子语义相似判定问题

2.5 众包

2.4.1 众包的应用

2.4.2 众包平台

2.6 本章小结

第3章 中文句子语义相似判定问题的众包解决方案

3.1 引言

3.2 中文句子语义相似判定的众包解决方案

3.2.1 中文句子语义相似判定的众包模型

3.2.2 中文句子预处理

3.2.3 众包相关问题和定义

3.2.4 众包句子语义相似排序算法

3.2.5 启发式算法

3.3 本章小结

第4章 众包的质量评估

4.1 引言

4.2 众包工作者类型

4.3 众包工作者质量评估

4.3.1 正常型众包工作者的质量评估

4.3.2 欺骗型众包工作者的质量评估

4.3 本章小结

第5章 实验与分析

5.1 引言

5.2 准确率和召回率

5.3 影响因素

5.4 本章小结

第6章 总结与展望

6.1 结论

6.2 展望

参考文献

致谢

展开▼

摘要

随着计算机的普及以及互联网的迅速发展、海量信息以电子文档的形式出现在人们面前,如何快速准确地从大规模的文本信息中找到所需信息越来越困难。自然语言文本形式是最普遍的信息存储和信息交换形式,对中文句子语义相似判定研究是自然语言处理中的基本问题,是展开信息检索、信息抽取、数据挖掘、人工智能等任务的前提。
  中文是以长字符串形式的方式书写,其复杂的语义表达能力和词语的多歧义性使得计算机对中文进行语义分析难度很大。如何采用更加准确、高效的方法对语义相似度进行判定是亟待解决的问题。在中文句子语义相似度判定方面,人工的对句子进行标注是准确率很高的一种方法,但是这种方式不仅要花费大量的资金去雇佣人力,而且工作效率也很低,而传统的句子语义相似度计算方法依赖于词频统计、句法分析、句子结构分析等方法,由于中文语义的多义性、句式的多样性等方面的因素,现有的自然语义处理技术都存在不完善之处,因而导致句子语义相似度计算达不到很好的计算效果。
  “众包”是一种灵活有效并且成本较低的解决问题的方式,已逐渐得到越来越多人的关注,其采用“人计算”的思想,将一些计算和功能的实现外包给人特别是在线社区群体去完成,使得计算机与人进行协同工作,从而得到最佳的计算结果。中文句子语义相似判定问题中存在很多不可判定问题和NP问题,这些问题对于计算机来说是难以解决的,但是人本身具备更多的背景知识和良好的理解归纳能力,可以更好地解决这些问题。因此,这样的问题可以通过众包的方式去解决。在众包系统中,为了让众包工作者能够更好地完成任务,通常将复杂庞大的任务细分为一系列简单的任务,再将这些任务分发给一定数量的众包工作者,众包系统收集工作者提供的答案,并通过计算聚合,最终生成符合需求的结果。利用众包的方式解决此类问题不仅可以在短时间得内到大量的判定结果,同时也保证了结果的质量。
  本文分析了现有的中文句子语义分析技术以及现有的句子相似度计算存在的不足之处。设计了中文句子语义相似判定问题的众包解决方案,设计了相关句子扩展方法,将句子拓展成与其语义可能相似的句子集合;将相关句子集合中的句子两两组合,分配给众包工作者去完成;本文对众包模型中句子语义相似判定问题给出形式化定义,提出中文句子语义相似排序算法,并分析了其计算复杂度,证明众包排序算法是NP难问题,并给出了多项式时间可解决的启发式算法,从而得出句子语义相似度的排序序列;对于众包工作者,设计了评估众包工作者准确度的算法,保证了众包工作的质量;最后通过实验,验证了算法的正确性和可行性,同时分析了影响算法准确性和效率的因素。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号