HTML文本自动分类技术的研究与工具的实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet的迅速发展，网络信息不断膨胀。为了提供高效、准确的信息服务，我们需要对网络中繁杂的信息进行合理的组织与分类。本文的目标就是以HTML文本信息处理为背景，从理论及应用两个层次对文本信息的分类方法进行了较为深入的研究。本文主要研究内容包括： 1．构建了一个实验用语料库。 2．研究了HTML标记对网页内容的修饰作用，以前人理论为基础设计和实现了基于HTML标记的网页分析和加权策略与算法。 3．分析了HTML文本自动分类的重要技术：文本预处理；特征赋权；特征提取和特征选择的六种评估函数：信息增益，互信息，期望交叉熵，X<'2>统计，文本证据权。右半信息增益。对用Webdup抓取得的HTML文本集进行了系统测试，分析了各种评估函数对不同分类器的优劣。 4．研究了HTML文本分类算法：朴素贝叶斯、K近邻、支持向量机等几种分类算法，将k近邻方法和支持向量机相结合形成KNN-SVM分类器，更加适用于网页文本自动分类的需要。并对KNN和KNN-SVM两种分类器在复旦大学标准语料库和网页语料库上进行了实验比较分析，得出KNN-SVM是比KNN更好的分类器。 5．作为HTML文本自动分类技术研究的结果，采用VC++设计与实现了支持KNN和KNN-SVM两种分类器的HML文本自动分类原型系统。

著录项

作者
刘冬梅;
展开▼
作者单位

内蒙古大学;

展开▼
授予单位内蒙古大学;
学科计算机应用技术
授予学位硕士
导师姓名王俊义;
年度 2006
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;自动推理、机器学习;
关键词
HTML文本自动分类; 向量空间模型; K近邻分类器; 支持向量机; KNN-SVM;

相似文献

中文文献
外文文献
专利

1. 用切片工具实现从网页美工到HTML页面的研究 [J] . 钟维秀 . 电脑编程技巧与维护 . 2018,第005期
2. 基于移动互联技术r融合HTML5技术实现智能化教学的运用研究 [J] . 许立忠 . 职业 . 2017,第011期
3. 基于html5技术实现移动前端开发研究 [J] . 彭梅 . 电子世界 . 2017,第007期
4. 基于HTML5的实时交互式虚拟教室关键技术研究及实现 [J] . 徐爱春 . 计算机时代 . 2017,第009期
5. 基于HTML5技术的手机售票系统的研究与实现 [J] . 邢国军 ,周自昌 ,顾洁 . 铁路计算机应用 . 2015,第011期
6. 用HTML开发的多媒体写作工具 [C] . 李霞 ,朱耀庭 . 全国计算机辅助教育学会第十届学术会议 . 2001
7. 基于HTML5Canvas的交互式图形工具箱的研究与实现 [A] . 易鹏 . 2017

HTML文本自动分类技术的研究与工具的实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅