首页> 中文学位 >高效率用户群体兴趣趋势发现的推荐方法研究
【6h】

高效率用户群体兴趣趋势发现的推荐方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 研究内容和主要创新点

1.2.1 研究内容

1.2.2 创新点

1.3 论文组织结构

第2章 相关工作和研究现状

2.1 引言

2.2 推荐系统与用户群体的活跃度

2.3 推荐系统与用户群体的信任度

2.4 推荐系统与用户群体的隐私分享

2.5 本章小结

第3章 Div-clustering:基于高活跃度用户群体兴趣的推荐方法

3.1 实体数据结构与图模型

3.1.1 用户的数据结构

3.1.2 推荐项目的数据结构

3.2 高活跃度用户群体的推荐设计

3.2.1 数据实体的预处理

3.2.2 知识库与非数值属性

3.2.3 Div-clustering推荐算法描述

3.2.4 高活跃度用户群体的确认

3.3 实验与评估

3.3.1 数据集爬取与实验准备

3.3.2 高活跃度用户群体筛选

3.3.3 基于高活跃度用户群体的推荐算法评估

3.3.4 实验结果和讨论

3.4 本章小结

第4章 PointBurst基于高信任度用户和信任关联的推荐算法

4.1 图模型的基本数据结构

4.1.1 同类型实体之间分类

4.1.2 不同类型实体之间的关联

4.2 基于信任关联的推荐算法

4.2.1 基于显性信任关联的推荐算法

4.2.2 基于挖掘隐性信任关联的PointBurst推荐算法

4.3 实验

4.3.1 数据集收集与实验准备

4.3.2 实验结果与分析

4.4 本章小结

第5章 ISBP:一种基于用户隐私分享因素的学习模型

5.1 因素假设

5.2 基于ISBP模型的机器学习算法应用

5.2.1 ISBP模型下的决策树分类器应用

5.2.2 ISBP模型下的K-近邻分类器应用

5.2.3 ISBP模型下的朴素贝叶斯分类器应用

5.3 实验结果与分析

5.3.1 数据集准备

5.3.2 学习结果和因素假设的检验

5.3.3 实验结果

5.4 本章小结

第6章 一种缓解高隐私分享量用户群体流失的决策支持机制

6.1 隐私数据收集与推荐准确性溢出现象

6.1.1 收集过程与用户行为学习结果

6.1.2 溢出现象的发现和确认

6.1.3 溢出现象相关解释

6.2 面向溢出现象的数据建模

6.2.1 基本数据结构

6.2.2 分类学习方法和相关假设

6.3 实验

6.3.1 实验准备和数据集

6.3.2 聚类学习结果和溢出现象的应对方案

6.4 本章小结

第7章 总结与展望

7.1 总结

7.2 展望

参考文献

致谢

攻读学位期间发表的学术论文

攻读学位期间参与科研项目

攻读学位期间获奖情况

外文论文

展开▼

摘要

随着互联网及电子商务技术的迅速发展,用户获得的信息呈爆炸式的增长。电子商务在给用户带来丰富产品和快捷方便的同时,也带来了诸如数据海量、品种多样、真假难辨等问题的困扰,形成了所谓的“信息过载”,推荐系统就是为应对这一问题而产生的。与搜索引擎和门户网站不同,推荐系统可以通过分析用户与其他用户的关联和历史消费等数据,预测用户尚未购买而符合用户需求的商品,促进用户从观望向购买的转化,有效提升用户对电子商务网站的信赖并提高商品的销量。然而,用户数量和企业规模的不断增长导致把握每个用户的兴趣趋势十分困难,主要体现在三个方面。首先,多用户群体中能够积极参与系统交互的人数比较少,推荐方法难以将反映多用户真实需求的数据准确地提取出来;其次,用户对其他用户和推荐系统的信任度比较低,不利于提取用户的有价值数据,妨碍对用户个性化需求的了解和提升用户对系统的满意度;第三,推荐系统通过获取用户的个人数据来进行更加准确的推荐,这就产生了用户对个人隐私的担忧,导致用户的分享行为变得保守,使推荐系统中隐私收集策略无法充分考虑所有用户的信息分享偏好。这些问题的存在都不利于推荐系统充分了解用户的个性化需求,降低了推荐系统的准确率和用户的满意度。
  本文以上述三个方面为研究目标,从高活跃度、高信任度、高隐私分享量共三类高效率用户群体中预测和挖掘出用户的兴趣趋势,进而做出更准确的个性化推荐,使用户对电子商务中的推荐系统具有较高的信赖度和满意度。本文的主要贡献如下:
  (1)提出一种新的推荐算法Div-clustering,实现了电子商务中用户实体的数据建模,在此基础上利用改进的k-means聚类算法完成了高活跃度用户的识别,以识别的高活跃度用户群体的数据优化了推荐项目,使推荐系统的推荐准确率更高。Div-clustering通过分析实体数据结构,建立了多用户群体的图模型,研究了高活跃度的用户群体和推荐项目的特征。实验中的论文数据主要从Elsevier和IEEE等学术网站通过网络爬虫Websphinx爬取,电影数据来自于两个著名电影网站MovieLens和IMDB。实验结果表明Div-clustering推荐算法在学术论文和电影的推荐中体现出更高的准确率,与传统基于普通用户的推荐算法相比,Div-clustering在实时评估和线下分析中表现出更好的稳定性,也说明来源于高活跃度用户群体数据产生的推荐比普通用户群体数据产生的推荐,更容易被其它用户接受和信任。
  (2)针对推荐系统中信任关联的稀疏性问题,以高活跃度用户群体更容易被信任为出发点,提出挖掘用户间隐性信任关联的推荐算法PointBurst,所挖掘的隐性信任关联为用户间已知的显性信任关联提供了有力的补充,缓解了协同过滤等传统算法在电子商务环境中面临的信任关联稀疏性问题。PointBurst算法在多用户图模型的基础上着重分析用户间的信任关联特征和关联强度,优化了同类型实体之间的分类和不同类型实体之间的关联标记,从已经识别为高活跃度用户群体中,进一步挖掘高信任度的用户群体和隐性的信任关联,最终利用已知的显性信任关联和挖掘的隐性信任关联共同作为推荐系统的输入而生成推荐项目。通过在del.icio.us,Myspace和MovieLens等数据集中分别运行PointBurst算法和传统推荐算法进行比较,结果表明PointBurst算法产生的推荐项目更加准确和稳定。
  (3)在用户的隐私分享量与信任关联强度成正比的发现基础上,提出一种基于用户隐私分享因素的学习模型ISBP,探索用户在信任关联中分享个人隐私的潜在因素,识别出高隐私分享量的用户群体,使推荐系统可以通过收集该用户群体的数据而增加推荐的准确率。ISBP在近期有关隐私分享的研究中归纳了影响用户在各类电子商务场景中的潜在因素,制定了因素假设,改进了决策树分类器、K近邻分类器和朴素贝叶斯分类器,使其能够检测出影响用户在信任关联中隐私分享量的潜在因素。将ISBP学习模型运行在从多组实时数据平台SO JUMP收集的数据集中后发现,隐私分享量最高的用户特征是年轻、非计算机类的群体,而与性别无关。在不引起所有用户隐私担忧的前提下,该类高隐私分享量的用户群体可以分享比其它用户群体更多的个人隐私信息,有利于推荐系统更好地了解用户需求并产生更准确的推荐。
  (4)发现了导致高隐私分享量用户群体流失的溢出现象,并提出了缓解溢出现象的决策支持机制DSS。所谓溢出现象是指,高隐私分享量的用户群体在受到不良的隐私收集顺序影响时,降低了后续的隐私分享量,使推荐系统不能够持续地获得用户的准确信息,引起了推荐准确率的下降。在分析多个数据集后发现,溢出现象是广泛存在的,主要体现在向用户收集高敏感度的隐私项目会使其后续的隐私分享量下降,而高隐私分享量用户受到的负面影响最大。本文对k-means聚类算法进行改进,使其可以检测出用户改变隐私分享量时对应的心理认知因素的改变,证实了用户的认知能力会引起溢出现象的产生,根本原因在于没有足够的储备知识来支持自己的隐私分享决策。本文提出了为用户提供隐私分享的决策支持机制,帮助用户理解推荐的机理和增加用户的储备知识。实验证明了决策支持机制可以将溢出现象的负面效果降低,保持高隐私分享量的用户群体继续为推荐系统提供充足的用户信息,维持较高的推荐准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号