基于大规模类别体系的网页分类及在商品分类中的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着互联网信息技术的广泛应用，电子文本不断地快速累积，数量大到难以对它们进行有效地管理与利用。因此，管理信息系统中对文本分类自动化的需求也就越来越迫切。如何利用自动化的技术快速有效地协助人们对文本文件、网页数据等进行分类已经成均当前信息服务与知识管理方面的重要课题。
　　自动分类可以减少人工劳动的工作量，在实际应用中至少可以节省一半以上的人力。对用户而言，自动分类的结果可以视为一种分类提示，这对于减轻人工分析文本、人工文本归类方面的工作有相当大的帮助。本文从商品网页角度切入，主要针对互联网商品数据信息管理领域做了以下几个方面的工作：
　　 1、基于大规模类别体系的数据采集工作。网络中的数据量庞大且数据分布相对分散，大部分的网页都没有经过标注，特定领域的信息也不易获取，这就使得在大规模类别体系下，网页分类算法实验数据的组织与评价方式多种多样，而且数据规模都较小，数据集质量也比较差。因此，做好基于大规模类别体系的数据采集工作，形成一个大规模基准数据集会给研究者带来很大帮助。本文提出了一种基于类别分布的采集策略，并在此基础上设计一个大规模采集系统，支持并行方式爬行站点，通过提交一组待采集的网页URL地址开始收集数据。对于特定领域如淘宝网的数据采集，我们针对网站的个性化设置编写符合网站设计的定向爬虫来抓取所需的特定信息。
　　 2、基于跨文档关系的网页分类研究。面对大规模类别体系，层次类别研究策略是一个很好的选择。但在文本分类研究中的层次分类研究中多数利用文档自身的词语集合，而忽略了其中文档间的链接关系。本文从文档间的特殊关系，如父子关系、兄弟节点关系等入手，进行大类别数即大规模类别情况下的文本层次分类研究。
　　 3、基于层次类别体系的商品分类研究。在电子商务交易中，类别都是按照商品间一个树状层次结构来进行分类的。在进行商品分类研究时，考虑到商品的特殊特征，比如某些商品根据商品的品牌名称就可以得到其所属的分类类别，即其品牌的特征性区分度很高。基于这一点，我们在研究中准备了一部描述商品品牌的词典供中文分词时调用。另一方面，本文在分类时引入一种“区分式”朴素贝叶斯分类器模型来进行分类。实验证明，基于“区分式”朴素贝叶斯分类模型的分类效果要比标准贝叶斯分类模型效果好。

著录项

作者
陈沧;
展开▼
作者单位

扬州大学;

展开▼
授予单位扬州大学;
学科管理科学与工程
授予学位硕士
导师姓名沈洁;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
大规模类别; 网页分类; 商品分类; 电子文本; 管理信息系统; 文本分类; 数据采集;

相似文献

中文文献
外文文献
专利

1. 基于wordNet的类别可拓展网页分类系统 [J] . 彭小刚 ,明仲 ,王海涛 . 深圳大学学报（理工版） . 2009,第002期
2. 基于谱哈希的大规模网页分类算法 [J] . 田郸郸1 . 软件工程与应用 . 2016,第001期
3. CBC算法在网页分类中的应用研究 [J] . 张婕 ,山岚 . 北京化工大学学报（自然科学版） . 2013,第0z1期
4. 网页分类及其维文信息检索中的应用研究 [J] . 海丽且木·艾沙 ,维尼拉·木沙江 . 电脑知识与技术 . 2011,第001期
5. 大规模层次分类中的候选类别搜索 [J] . 何力 ,丁兆云 ,贾焰 . 计算机学报 . 2014,第001期
6. 基于类别层次体系的商品分类研究 [C] . 陈沧 ,沈洁 ,高莺 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 大规模层次分类中深层类别的分类算法研究 [A] . 刘述昌 . 2017

基于大规模类别体系的网页分类及在商品分类中的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅