首页> 中文学位 >基于大规模类别体系的网页分类及在商品分类中的应用研究
【6h】

基于大规模类别体系的网页分类及在商品分类中的应用研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1选题背景

1.2研究意义

1.3国内外研究现状

1.3.1国外研究现状

1.3.2国内研究现状

1.4论文主要工作

1.5论文的组织结构

第2章大规模类别体系和网页分类的相关技术概述

2.1大规模类别体系概述

2.2网页分类技术

2.2.1获取文档数据集

2.2.2建立文本表示模型

2.2.3特征选择

2.2.4文本分类方法

2.2.5性能评估模型

2.3层次分类

2.4本章小结

第3章基于大规模类别体系的网络爬虫技术研究

3.1问题描述

3.2网络爬虫技术概述

3.2.1主题爬虫概述

3.2.2主题爬虫爬行目标

3.2.3主题爬虫工作原理

3.3基于类别分布的采集策略

3.3.1分类目录网站的逻辑结构

3.3.2目标链接提取框架

3.3.3淘宝网商品主题爬虫

3.3.4实验及分析

3.4本章小结

第4章基于跨文档关系的网页层次分类研究

4.1问题描述

4.2相关研究工作

4.2.1跨文档关系研究

4.2.2层次分类器研究

4.3理论分析

4.4实验分析

4.4.1层次策略实验

4.4.2实验结论

4.5本章小结

第5章基于层次类别的商品分类应用研究

5.1问题描述

5.2商品主题词研究

5.2.1主题词特征提取

5.2.2重要性排序

5.2.3主题词提取

5.3应用方案

5.3.1商品数据中的层次类别表示

5.3.2 “区分式”的商品分类研究

5.4应用分析

5.4.1数据集处理

5.4.2评价标准

5.4.3实验结果

5.5本章小结

第6章总结与展望

6.1本文工作总结

6.2未来工作展望

参考文献

致谢

攻读硕士学位期间发表的学术论文目录

展开▼

摘要

近年来,随着互联网信息技术的广泛应用,电子文本不断地快速累积,数量大到难以对它们进行有效地管理与利用。因此,管理信息系统中对文本分类自动化的需求也就越来越迫切。如何利用自动化的技术快速有效地协助人们对文本文件、网页数据等进行分类已经成均当前信息服务与知识管理方面的重要课题。
   自动分类可以减少人工劳动的工作量,在实际应用中至少可以节省一半以上的人力。对用户而言,自动分类的结果可以视为一种分类提示,这对于减轻人工分析文本、人工文本归类方面的工作有相当大的帮助。本文从商品网页角度切入,主要针对互联网商品数据信息管理领域做了以下几个方面的工作:
   1、基于大规模类别体系的数据采集工作。网络中的数据量庞大且数据分布相对分散,大部分的网页都没有经过标注,特定领域的信息也不易获取,这就使得在大规模类别体系下,网页分类算法实验数据的组织与评价方式多种多样,而且数据规模都较小,数据集质量也比较差。因此,做好基于大规模类别体系的数据采集工作,形成一个大规模基准数据集会给研究者带来很大帮助。本文提出了一种基于类别分布的采集策略,并在此基础上设计一个大规模采集系统,支持并行方式爬行站点,通过提交一组待采集的网页URL地址开始收集数据。对于特定领域如淘宝网的数据采集,我们针对网站的个性化设置编写符合网站设计的定向爬虫来抓取所需的特定信息。
   2、基于跨文档关系的网页分类研究。面对大规模类别体系,层次类别研究策略是一个很好的选择。但在文本分类研究中的层次分类研究中多数利用文档自身的词语集合,而忽略了其中文档间的链接关系。本文从文档间的特殊关系,如父子关系、兄弟节点关系等入手,进行大类别数即大规模类别情况下的文本层次分类研究。
   3、基于层次类别体系的商品分类研究。在电子商务交易中,类别都是按照商品间一个树状层次结构来进行分类的。在进行商品分类研究时,考虑到商品的特殊特征,比如某些商品根据商品的品牌名称就可以得到其所属的分类类别,即其品牌的特征性区分度很高。基于这一点,我们在研究中准备了一部描述商品品牌的词典供中文分词时调用。另一方面,本文在分类时引入一种“区分式”朴素贝叶斯分类器模型来进行分类。实验证明,基于“区分式”朴素贝叶斯分类模型的分类效果要比标准贝叶斯分类模型效果好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号