基于语义的中文自动文摘系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的快速发展，信息呈爆炸式的增长，人们面对着大量没有经过整理的原始数据，迫切需要能提供更有力的信息浓缩和筛选等加工工具。文摘作为文献内容的缩影，其间接性、准确性和清晰性使其成为挖掘有用信息的有效方式。由于人工文摘效率低，费时长，难以满足快速信息检索的需要，需要借助计算机进行文摘抽取。自动文摘可以缩短文章加工和处理时间，大幅度降低文摘成本，为用户迅速、准确和廉价地获取信息提供方便。
　　实验室前课题组在数据库自然语言查询和句子依存分析方面取得较好的成果，但尚没有充分利用词语丰富的语义信息，并且依存分析也局限于某些特定的句型。本文研究的内容是设计和实现一个基于语义的中文自动文摘系统，主要有以下几方面的成果:
　　1.实现了融合了多特征的中文自动文摘系统。本文在研究自动文摘现有方法的基础上，分析文本句子的语义和结构信息，设计了包括特征词权重、句子位置和线索词等多个特征。系统采用机器学习的方法对这些特征进行训练和组合，最后获得一个摘要器。该方法能克服传统摘录式自动文摘缺乏语义和结构分析的缺陷。
　　2.设计了一种基于语义和句法依存分析的句子相似度计算方法。在文摘生成后，文摘所包含的信息可能存在冗余，为此需进行冗余处理。本文在分析现有句子相似度计算方法的基础上，考虑了语义层次和句法结构对句子相似度计算的影响，结合二者进行计算，取得了较好的效果。
　　3.设计了一种基于规则的可读性加工方法。为保证文摘准确并且有较好的可读性，本文对已经抽取的文摘句进行关联关系判别、关联词处理、冗余处理和句子压缩，生成更易阅读的文摘。
　　最后构建了一个系统。在实验阶段，用WEKA对系统的分类器模型的正确性进行验证，并通过不同体裁的文章对系统进行测试。实验表明，该系统能够有效的抽取不同领域、不同体裁的文章，具有良好的可用性和可移植性。

著录项

作者
王腾毅;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科计算机技术
授予学位硕士
导师姓名雷蕴奇;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
自动文摘系统; 机器学习; 句子相似度; 可读性加工方法;

相似文献

中文文献
外文文献
专利

1. 基于语义的中文自动文摘方法 [J] . 陈英芝 . 科技信息 . 2009,第030期
2. 基于潜在语义索引和句子聚类的中文自动文摘 [J] . 陈戈 ,段建勇 ,陆汝占 . 计算机仿真 . 2008,第007期
3. 基于条件随机场的中文自动文摘系统 [J] . 邓箴 ,包宏 . 西安石油大学学报（自然科学版） . 2009,第001期
4. 基于组块的中文自动文摘系统研究 [J] . 索红光 ,曹淑英 . 计算机系统应用 . 2007,第003期
5. 基于规则和统计的中文自动文摘系统 [J] . 傅间莲 ,陈群秀 . 中文信息学报 . 2006,第005期
6. 基于语义统计的中文自动文摘研究 [C] . 吕静 ,昝红英 . 第三届学术计算语言学研讨会 . 2006
7. 基于序列标注的中文语义组块分析系统设计与实现 [A] . 夏文静 . 2019

基于语义的中文自动文摘系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅