互联网访问数据用户识别与兴趣度分析——电信用户数据

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的快速发展和电子商务以及电子产品的普及，网络信息资源的数量急剧增长。一方面，用户在浏览互联网时需要耗费大量的时间才能得到有用的信息。另一方面，信息提供商比如电子商务网站，也希望能够根据用户的偏好，从海量的商品信息中为用户推荐感兴趣或者需要的商品资源。
　　论文以某运营商的用户宽带访问记录为基础数据，通过对用户访问日志记录进行分析，挖掘出用户的兴趣爱好特征，从而实现商品信息的个性化推荐。用户访问一个网页时，互联网服务提供商（ISP）会记录用户的日志信息，称为用户访问日志记录，其中包含用户的访问行为相关信息。论文首先研究了基于K-Modes算法的独立用户识别技术，对日志记录进行会话识别分析，识别出属于同一个会话的日记记录集合，进而通过聚类技术识别出独立用户。在此基础上，提出了基于维基百科的语义消歧算法，并结合该算法研究了结合语义的用户兴趣特征分析技术，通过构建兴趣特征分类库，进一步实现了相似兴趣特征用户分类，为商品信息的精确推荐提供了基础。结合用户访问日志记录的海量数据特点和MapReduce在大数据处理以及算法的可扩展性上的优势，论文最后在Hadoop平台上设计并实现了这些算法。总结起来，论文的主要工作包含以下几个方面。
　　独立用户识别技术研究。将用户识别过程分为数据清洗、会话识别、Cookie提取和用户识别四个步骤。数据清洗是删除冗余和无效数据，在此基础上，提出了结合参引页和时间阈值的会话识别方法；通过对Cookie数据的分析，提取出表示用户登录常用网站的用户名字段，最终确定了能够有效判断独立用户的十个字段，基于K-Modes算法的用户识别技术，通过聚类从日志记录中识别出独立用户，并为其编号。
　　用户兴趣特征分析技术研究。首先，分析了总体的业务流程，根据用户的搜索关键字，通过分词技术，提取出特征关键字；结合维基百科语义词典，提出了中文语义消歧算法，研究了兴趣特征关键字消岐技术，从而得到每个用户的兴趣特征。基于用户在每个词语中相同的语义和分类下的词频统计，为其标识权重；在此基础上，通过构建一个兴趣特征分类库，并根据特征分类库中的每一个分类词与用户的相似度，实现了相似兴趣特征用户的分类。
　　结合所研究的独立用户识别和用户兴趣特征分析技术，论文在Hadoop环境中设计并实现相关算法。首先分析了系统的整体架构，将系统分为用户识别和用户特征分析两个子系统；并进一步将用户识别子系统分为数据清理、会话识别、Cookie提取和用户识别四个子模块，将用户特征分析子系统分为关键字提取、用户兴趣特征提取和相似特征用户挖掘三个子模块。详细分析了各个模块的执行过程，并给出了关键模块的核心代码实现，验证了课题所研究技术的有效性。

著录项

作者
魏聪;
展开▼
作者单位

东华大学;

展开▼
授予单位东华大学;
学科计算机软件与理论
授予学位硕士
导师姓名于守健;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
互联网访问; 日志数据; 用户识别; 聚类算法; 兴趣度分析; 语义相似度;

相似文献

中文文献
外文文献
专利

1. Spring MVC框架下电信用户信息分析大数据可视化研究 [J] . 曹鹏 . 电脑知识与技术 . 2019,第033期
2. 电信用户信息大数据应用 [J] . 陈志雄 . 中国新通信 . 2016,第010期
3. 电信用户业务数据自主提取方法研究 [J] . 赖振丹 ,陈伟平 . 科技与企业 . 2012,第021期
4. 基于决策树的数据挖掘技术在电信用户流失预测的应用与研究 [J] . 张献华 ,田亮 ,叶幸春 . 中国新通信 . 2007,第014期
5. 必须重视和加强电信用户数据及计费管理 [J] . 孙明海 . 通信企业管理 . 1998,第12期
6. 面向用户互联网访问日志的异常点击分析 [C] . 王倩 ,刘奕群 ,马少平 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 基于大数据平台的电信用户行为日志分析研究 [A] . 袁丹 . 2017

互联网访问数据用户识别与兴趣度分析——电信用户数据

目录

摘要

著录项

相似文献

相关主题

期刊订阅