首页> 中文学位 >HTML文本自动分类技术的研究与工具的实现
【6h】

HTML文本自动分类技术的研究与工具的实现

代理获取

目录

文摘

英文文摘

论文说明:图表目录

第一章前言

第二章HTML文本自动分类技术概述

第三章HTML文本自动分类中预处理、特征提取、特征选择的研究比较

第四章HTML文本自动分类算法及其实验比较

第五章HTML文本自动分类工具的设计与实现

第六章总结与展望

参考文献

致谢

展开▼

摘要

随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。本文的目标就是以HTML文本信息处理为背景,从理论及应用两个层次对文本信息的分类方法进行了较为深入的研究。 本文主要研究内容包括: 1.构建了一个实验用语料库。 2.研究了HTML标记对网页内容的修饰作用,以前人理论为基础设计和实现了基于HTML标记的网页分析和加权策略与算法。 3.分析了HTML文本自动分类的重要技术:文本预处理;特征赋权;特征提取和特征选择的六种评估函数:信息增益,互信息,期望交叉熵,X<'2>统计,文本证据权。右半信息增益。对用Webdup抓取得的HTML文本集进行了系统测试,分析了各种评估函数对不同分类器的优劣。 4.研究了HTML文本分类算法:朴素贝叶斯、K近邻、支持向量机等几种分类算法,将k近邻方法和支持向量机相结合形成KNN-SVM分类器,更加适用于网页文本自动分类的需要。并对KNN和KNN-SVM两种分类器在复旦大学标准语料库和网页语料库上进行了实验比较分析,得出KNN-SVM是比KNN更好的分类器。 5.作为HTML文本自动分类技术研究的结果,采用VC++设计与实现了支持KNN和KNN-SVM两种分类器的HML文本自动分类原型系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号