首页> 中文学位 >基于概念与词根双特征互助文本分类模型的研究
【6h】

基于概念与词根双特征互助文本分类模型的研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1研究背景及意义

1.2国内外研究现状

1.3本文工作及组织结构

2 文本分类相关技术及常见半监督算法

2.1序言

2.2文本分类定义

2.3文本分类预处理

2.4本分类主要技术

2.5常见半监督学习算法

2.6分类系统评估

2.7本章小结

3 Co-training与本体库

3.1 Co-training框架

3.2本体概述

3.3 WordNet本体库简介

3.4本章小结

4 概念与词根双特征互助分类模型提出

4.1模型提出理论

4.2词根特征向量生成过程

4.3概念特征向量生成过程

4.4概念与词根特征向量生成过程比较

4.5Co-training框架分类器算法选择

4.6语义相似度计算

4.7基于概念与词根双特征互助文本分类算法描述

4.8算法的时间复杂度分析

4.9本章小结

5 实验结果与分析

5.1实验数据

5.2实验方法

5.3实验结果与分析

6 总结与展望

6.1文本总结

6.2进一步工作

致谢

参考文献

附录 作者在攻读学位期间发表的论文目录

展开▼

摘要

随着互联网的快速发展,网络信息以惊人的速度激增,处在一个“信息爆炸”时代,如何快速准确地获取我们所需要的信息的需求使得文本分类已成为一个非常重要的课题,同时,文本分类技术也是信息检索、自然语言处理领域的基础技术,使得更多专家投入到文本分类的研究,应用前景很广泛。
  目前有关使用半监督学习进行文本分类的研究已经非常深入,其中co-training是半监督学习非常典型的一种,并得到了广泛的应用。但常见的co-training方法应用于文本分类中,在构建双视图时,仅仅根据词形(词根)而忽略了语义(概念)对分类的重要性。本文在co-training框架基础上,融入语义对分类的影响,提出通过概念与词根双特征互助的方法来提高分类模型的效果。
  本文首先简单介绍了文本分类的研究背景和相关技术,接着详细介绍了文本算法思想的需要的两大基础,co-training框架和WordNet文本库,并在co-training框架的基础上结合 WordNet本体库提出了基于概念与词根双特征互助的文本分类算法。相比于其他基于co-training的分类算法,本文从概念与词根两个角度去构建双视图,而非仅从文本的内容提取词根构建双视图,考虑了语义对分类的影响。其中,基于概念的分类与基于词根的分类方法又不同,词根之间的联系可以忽略,而 WordNet本体库中的概念之间是有联系,故在进行概念的文本分类时引入了语义相似度的计算,并运用于概念分类用到的计算公式,最后给出了基于概念与词根文本分类算法的过程描述。
  本文给出了两组对比性实验,验证与普通的分类算法相比,基于概念与词根双特征互助的分类模型有效性和r参数(WordNet本体库中概念节点之间的距离)不同选择对分类模型的影响。实验结果表明基于概念与词根双特征互助的新算法具有更高的准确率和召回率;参数的选择会影响分类器的性能,且r越大效果越差。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号