首页> 中文学位 >基于Hadoop架构的商业推荐引擎协同过滤算法设计与实现
【6h】

基于Hadoop架构的商业推荐引擎协同过滤算法设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

缩略词表

第一章绪论

1.1 研究工作的背景和意义

1.2 国内外研究历史与现状

1.3 主要研究内容

1.4 本文结构安排

第二章推荐算法和大数据技术综述

2.1 引言

2.2 推荐系统分类

2.3 推荐系统的基本知识和数据来源

2.4 相似度的衡量标准

2.5 对推荐系统的优劣标准

2.6 基于内容的推荐系统

2.7 协同过滤推荐系统

2.8 混合推荐系统

2.9 Hadoop平台

第三章协同过滤推荐算法改进研究

3.1 引言

3.2 对基于内存的协同过滤的改进研究

3.3 对基于模型的协同过滤的改进研究

3.4 本章小结

第四章协同过滤推荐系统算法实验

4.1 引言

4.2 实验度量标准

4.3 实验环境和数据

4.4 训练数据和测试数据的分隔方式

4.5 实验方案和分析

4.6 本章小结

第五章基于Hadoop架构的协同过滤推荐系统的设计与实现

5.1 引言

5.2 基于项目的协同过滤计算的MapReduce

5.3 推荐流程设计

5.4 推荐系统架构

5.5 推荐系统的实现

5.6 推荐系统性能与分析

5.7 本章小结

第六章总结与展望

6.1 本文研究工作总结

6.2 研究工作建议和设想

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

推荐系统已被广泛使用在互联网的各个方面,其中电子商务的高速发展离不开个性化地推荐系统。尤其近年来,推荐系统越来越明显且有力地推动电子商务的业务增长。基于协同过滤的推荐算法是当今电子商务推荐系统中最被广泛采用的关键技术之一。
  在本文中通过全面介绍和研究当今推荐系统采用的主要推荐算法,例如基于内容、协同过滤算法等,以及学习了大数据处理平台Hadoop,简要介绍Hadoop的工作原理和MapReduce计算方式和HDFS分布式存储平台。
  针对基于内存的协同过滤算法的缺点,从相似度和加权平均方法切入,提出若干算法改进,改善推荐质量和提高性能。对于采用皮尔逊系数的协同过滤算法来说,就是当两个用户同时评分的项目数目比较少的时候,那么皮尔逊相关系数表现不佳,通过引入默认预测值能较好地解决这个问题;当某个项目被很多人同时评分,那么它容易和别的项目评分度较高,通过采取TF-IDF来解决;通过引入指数算法,来惩罚相似度低的项目的权重来提高推荐质量;Weighted SlopeOne算法在保持预测准确度的情况下提高系统性能。在协同过滤推荐算法中,因稀疏的用户项目评分矩阵而导致的矩阵规模膨胀是一个十分棘手的问题。稀疏的用户评价矩阵大大加重系统计算的时间。在本文中通过研究各种对矩阵降维的方法,例如奇异值矩阵分解技术,非负矩阵因式分解等概率统计模型,解决稀疏矩阵的计算问题。
  由于电子商务平台的迅速发展带来的几千万的用户数和数以亿计的商品量(例如亚马逊商城,天猫商城和京东商城等),对现有的推荐系统运行性能提出了严峻的挑战。依靠单机的推荐系统难以承受如此海量用户和数据的计算量,因此如今电子商务网站普遍采用分布式集群计算机来实现商品推荐引擎。本文尝试基于Hadoop实现一个具有伸缩性、高弹性、高容灾性、稳定的商品推荐引擎的设计和实现。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号