首页> 中文学位 >基于句子排序和组合分类的中文文本分类方法研究
【6h】

基于句子排序和组合分类的中文文本分类方法研究

代理获取

目录

基于句子排序和组合分类的中文文本分类方法研究

RESEARCH ON CHINESE TEXT CLASSIFICATION BASED ON SENTENCE RANKING AND COMBINATIONAL CLASSIFICATION

摘要

Abstract

目 录

绪论

1.1 课题研究的背景及意义

1.1.1 课题的研究背景

1.1.2 课题的研究意义

1.2 文本分类概述

1.2.1 文本分类的定义

1.2.2 文本分类方法概述

1.2.3 文本分类的系统构成

1.3 本文完成的主要工作

1.4 本文的结构

第2章 文本分类的各阶段及其实现

2.1 引言

2.2 文本表示

2.2.1 文本表示的概念

2.2.2 文本预处理

2.2.3 向量空间模型

2.2.4 权重计算

2.3 特征降维

2.3.1 概述

2.3.2 常用的特征选择函数

2.3.3 基于LSI的特征重构方法

2.4 基于机器学习的分类器训练

2.4.1 机器学习理论概述

2.4.2 Na?ve Bayes分类算法

2.4.3 K-近邻算法

2.4.4 支持向量机算法

2.4.5 多类分类问题

2.5 测试和性能评价

2.6 本章小结

第3章 基于句子排序和权重调整的KNN分类方法

3.1 引言

3.2 句子排序

3.2.1 基于图的句子排序算法

3.2.2 根据句子排序截取句子

3.2.3 根据句子排序调整权重

3.3 利用KNN进行分类

3.4 特征降维方法的选择

3.5 实验结果及分析

3.5.1 实验结果及对比

3.5.2 结论和分析

3.6 本章小结

第4章 基于VSM和LSI结合的分类方法

4.1 引言

4.2 基于VSM和SVM的分类方法

4.3 基于LSI和SVM分类方法

4.4 基于SVM后验概率的VSM和LSI的组合分类

4.4.1 SVM后验概率和准确率的统计

4.4.2 算法描述

4.4.3 实验结果和分析

4.5 基于局部准确率的VSM和LSI组合分类

4.5.1 方法的提出

4.5.2 KNN算法的置信度和准确率的统计

4.5.3 算法描述

4.5.4 实验结果和分析

4.6 本章小结

结论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

哈尔滨工业大学硕士学位涉密论文管理

致谢

展开▼

摘要

文本分类(Text Classification,TC)是指计算机根据既定的类别体系自动识别文本所属的类别,是计算语言学和自然语言处理领域一个重要的研究课题,也是应用最为广泛的自然语言处理技术之一。早期的文本分类研究以基于知识工程的人工建立分类规则方法为主,随着统计机器学习理论和统计自然语言处理技术的发展,使用机器学习的方法在文本分类领域得到广泛的应用,并取得良好的效果。
  本文的工作是建立在使用机器学习算法进行文本自动分类的基础上,对于改进文本分类的性能进行方法的研究。本文针对KNN和SVM方法以及不同的特征降维方法实现了完整的、可配置的文本分类系统,在这个基础上,对分类方法提出了一些具体的改进,使得分类的性能得到有效的提高。对于不同的文本分类方法,和不同的语料库,在进行方法的改进之前都对几种特征选择方法进行详细的对比,在这个基础上选择性能最好的一种,以使最后的改进更有意义。
  本文主要完成对文本分类的两种改进方法,一是针对原始文本的半结构和非结构化状况根据无指导的基于图的句子排序算法,对句子进行排序。根据排序结果按一定比例截取最有信息含量的部分句子而去除其他可能造成文本之间重叠和冗余的内容,并对特征词根据句子排序进行权重调整,使得经过处理之后的文本更好地突出本质内容,提高文本之间的可区分性。然后再对经过处理的文本使用KNN方法进行分类,取得显著的效果。二是根据向量空间模型和潜在语义索引在对文本进行表示和分类性能上的差异,使用向量空间模型和潜在语义索引相结合的方法,综合两种方法的优点,利用支持向量机进行组合分类,最后还尝试在结合向量空间模型和潜在语义索引的基础上组合KNN和SVM两种分类方法,使得分类系统的在整体性能上得到提高,避免过多增加系统资源的耗费。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号