基于概念与词根双特征互助文本分类模型的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的快速发展，网络信息以惊人的速度激增，处在一个“信息爆炸”时代，如何快速准确地获取我们所需要的信息的需求使得文本分类已成为一个非常重要的课题，同时，文本分类技术也是信息检索、自然语言处理领域的基础技术，使得更多专家投入到文本分类的研究，应用前景很广泛。
　　目前有关使用半监督学习进行文本分类的研究已经非常深入，其中co-training是半监督学习非常典型的一种，并得到了广泛的应用。但常见的co-training方法应用于文本分类中，在构建双视图时，仅仅根据词形（词根）而忽略了语义（概念）对分类的重要性。本文在co-training框架基础上，融入语义对分类的影响，提出通过概念与词根双特征互助的方法来提高分类模型的效果。
　　本文首先简单介绍了文本分类的研究背景和相关技术，接着详细介绍了文本算法思想的需要的两大基础，co-training框架和WordNet文本库，并在co-training框架的基础上结合 WordNet本体库提出了基于概念与词根双特征互助的文本分类算法。相比于其他基于co-training的分类算法，本文从概念与词根两个角度去构建双视图，而非仅从文本的内容提取词根构建双视图，考虑了语义对分类的影响。其中，基于概念的分类与基于词根的分类方法又不同，词根之间的联系可以忽略，而 WordNet本体库中的概念之间是有联系，故在进行概念的文本分类时引入了语义相似度的计算，并运用于概念分类用到的计算公式，最后给出了基于概念与词根文本分类算法的过程描述。
　　本文给出了两组对比性实验，验证与普通的分类算法相比，基于概念与词根双特征互助的分类模型有效性和r参数（WordNet本体库中概念节点之间的距离）不同选择对分类模型的影响。实验结果表明基于概念与词根双特征互助的新算法具有更高的准确率和召回率；参数的选择会影响分类器的性能，且r越大效果越差。

著录项

作者
吴庭君;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机软件与理论
授予学位硕士
导师姓名古平;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本分类; 概念特征; 半监督学习; 信息检索;

相似文献

中文文献
外文文献
专利

1. 基于概念与词根双特征互助文本分类模型 [J] . 古平 ,吴庭君 ,静云 . 计算机与现代化 . 2015,第008期
2. 基于扩展概念格模型的文本分类规则提取的研究 [J] . 周顽 ,周才学 . 计算机工程与科学 . 2010,第008期
3. 基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究 [J] . 吴江 ,侯绍新 ,靳萌萌 . 情报学报 . 2017,第011期
4. 基于词向量特征的文本分类模型研究 [J] . 张敬谊 ,张亚红 ,李静 . 信息技术与标准化 . 2017,第005期
5. 基于向量空间模型的文本分类特征权重算法研究 [J] . 苏力华 ,朱章华 ,白文华 . 电脑知识与技术 . 2010,第033期
6. 基于词共现概念的文本分类研究 [C] . 倪茂树 ,林鸿飞 . 第七届中文信息处理国际会议 . 2007
7. 基于概念特征的中文文本分类研究 [A] . 吴志峰 . 2005

基于概念与词根双特征互助文本分类模型的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅