首页> 中文学位 >基于语义的中文自动文摘系统的设计与实现
【6h】

基于语义的中文自动文摘系统的设计与实现

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究的目的和意义

1.2 自动文摘研究现状及面临的问题

1.2.1 国外的研究情况

1.2.2 国内的研究情况

1.3 本文的研究工作

1.4 本文的组织结构

第二章 自动文摘综述

2.1 自动文摘原理

2.2 自动文摘分类

2.3 自动文摘的主要方法

2.3.1 自动摘录式文摘生成技术

2.3.2 基于理解文摘生成技术

2.3.3 基于信息抽取的文摘生成技术

2.3.4 基于结构的文摘生成技术

2.4 本章小结

第三章 基于语义的自动文摘系统

3.1 系统的总体设计思路

3.2 预处理模块

3.2.1 分词和词性标注

3.2.2 过滤停用词和词频统计

3.2.3 数据结构和相应类

3.3 文本分析模块

3.3.1 基于知网的向量空间模型

3.3.2 句子特征提取

3.4 文本转换模块

3.4.1 朴素贝叶斯分类器

3.4.2 抽取文摘

3.4.3 相关数据结构

3.5 本章小结

第四章 文摘的后处理

4.1 引言

4.2 关联关系处理

4.3 冗余处理

4.3.1 句子相似度的计算算法介绍

4.3.2 本文的句子相似度的计算算法

4.4 句子压缩

4.4.1 句子压缩介绍

4.4.2 本文句子压缩算法介绍

4.5 本章小结

第五章 实验及其分析

5.1 开发环境

5.2 系统运行界面和运行过程

5.3 朴素贝叶斯分类器模型可行性实验

5.4 系统实验和分析

5.4.1 系统初始摘要实验

5.4.2 后处理实验

第六章 总结和展望

6.1 总结

6.2 未来工作

参考文献

硕士在读期间科研成果介绍

致谢

展开▼

摘要

随着Internet的快速发展,信息呈爆炸式的增长,人们面对着大量没有经过整理的原始数据,迫切需要能提供更有力的信息浓缩和筛选等加工工具。文摘作为文献内容的缩影,其间接性、准确性和清晰性使其成为挖掘有用信息的有效方式。由于人工文摘效率低,费时长,难以满足快速信息检索的需要,需要借助计算机进行文摘抽取。自动文摘可以缩短文章加工和处理时间,大幅度降低文摘成本,为用户迅速、准确和廉价地获取信息提供方便。
  实验室前课题组在数据库自然语言查询和句子依存分析方面取得较好的成果,但尚没有充分利用词语丰富的语义信息,并且依存分析也局限于某些特定的句型。本文研究的内容是设计和实现一个基于语义的中文自动文摘系统,主要有以下几方面的成果:
  1.实现了融合了多特征的中文自动文摘系统。本文在研究自动文摘现有方法的基础上,分析文本句子的语义和结构信息,设计了包括特征词权重、句子位置和线索词等多个特征。系统采用机器学习的方法对这些特征进行训练和组合,最后获得一个摘要器。该方法能克服传统摘录式自动文摘缺乏语义和结构分析的缺陷。
  2.设计了一种基于语义和句法依存分析的句子相似度计算方法。在文摘生成后,文摘所包含的信息可能存在冗余,为此需进行冗余处理。本文在分析现有句子相似度计算方法的基础上,考虑了语义层次和句法结构对句子相似度计算的影响,结合二者进行计算,取得了较好的效果。
  3.设计了一种基于规则的可读性加工方法。为保证文摘准确并且有较好的可读性,本文对已经抽取的文摘句进行关联关系判别、关联词处理、冗余处理和句子压缩,生成更易阅读的文摘。
  最后构建了一个系统。在实验阶段,用WEKA对系统的分类器模型的正确性进行验证,并通过不同体裁的文章对系统进行测试。实验表明,该系统能够有效的抽取不同领域、不同体裁的文章,具有良好的可用性和可移植性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号