首页> 中文学位 >面向社会化媒体用户评论行为的属性推断
【6h】

面向社会化媒体用户评论行为的属性推断

代理获取

目录

声明

摘要

1.1 课题研究背景及意义

1.2 问题描述

1.3 本文工作

1.4 论文结构

第二章 相关工作

2.1 基于用户行为的属性推断

2.2 用户评论数据的文本分析

2.2.1 基于人工标注特征提取

2.2.2 基于特定词特征提取

2.2.3 基于语义关系特征提取

2.3 不平衡数据的分类学习

2.3.1 采样技术

2.3.2 代价敏感学习

2.3.3 集成学习

2.4 小结

第三章 用户评论行为建模

3.1 用户评论样式特征

3.2 用户评论行为数据的上下文特征

3.3 用户评论行为数据的客体特征

3.4 基于语义知识库的评论分析

3.4.1 语义知识库的选择

3.4.2 层次化语义分析

3.4.3 语义特征的路径向量表示

3.5 基于词向量的评论挖掘

3.5.1 词向量模型

3.5.2 基于词向量的用户建模

3.6 小结

第四章 基于特征重要性的概率选择

4.2 特征重要性度量

4.2.1 基于熵的特征重要性度量

4.2.2 基于基尼指数的特征重要性度量

4.2.3 特征重要性与概率选择

4.3 基于信息增益的概率包裹式特征筛选

4.4 基于启发式概率特征搜索算法

4.5 小结

第五章 数据不平衡分类学习

5.1 基于分类学习的属性推断

5.2 面向不均衡属性分布的增强学习

5.3 小结

6.1 数据集与数据预处理

6.2 性能度量指标

6.3 实验结果

6.3.1 属性推断方法对比

6.3.2 用户行为建模分析

6.3.3 特征筛选算法对比及参数分析

6.3.4 不均衡样本比例处理方法对比及参数分析

6.3.5 用户行为不均衡性对分类结果的影响

6.4 小结

7.1 总结

7.2 展望

参考文献

致谢

攻读学位期间发表的学术论文和参加科研情况

攻读学位期间参加的科研项目

展开▼

摘要

社会化媒体平台是指为用户提供评论、投票、反馈、分享等功能的在线媒体,像凤凰网等新闻网站、亚马逊和淘宝等电商网站、豆瓣等电影评论网站。用户网络评论是社会舆论的一种表现形式,具有公开性和可用性特点,群体意见为其他用户在决定购买产品或使用服务的时候提供了参考。理解用户评论行为进行属性推断,可以帮助企业、机构、政府等提高服务质量,用于个性化推荐、市场营销等,具有重要应用价值。然而社会化媒体用户多为匿名身份,其评论行为数据具有碎片化、信息价值含量低和不平衡的特点,且用户群体的属性分布严重不均衡,这些问题给用户属性推断带来挑战。
  针对用户评论行为数据分布不平衡、噪音和碎片化的问题,本文引入客体信息、环境信息,作为对用户评论行为数量少的补充信息,辅助用户特征建模;结合基于语义知识库的层次化语义建模方法和基于词向量模型学习词向量的文本挖掘方法深度挖掘用户评论,分别从全局的角度和局部的角度消除词语歧义带来的不良影响,并保留评论中潜在的语义关系,从而达到深度挖掘用户评论潜在的语义特征的目的。
  针对建模后的用户特征维度大,碎片化数据价值含量低等问题,基于信息增益度量特征重要性,提出两种代表性概率特征筛选算法的改进策略:概率包裹式特征选择算法和启发式概率特征搜索算法,分别在分类学习前和迭代式学习过程中进行概率特征选择,既保留了重要特征信息,也给低价值特征提供小概率选择机会,筛选密切相关特征,以降低搜索空间,提高收敛速度和学习效果。
  针对用户属性不均衡问题,提出了面向小比例类型数据的差异性特征选择和迭代式增强学习算法,集成多个特征相关的分类器,考虑不同特征组合和分类器适用性的同时,使得集成之后的分类器注重更容易分错的小比例类型数据的学习,能够有效提高用户属性分类学习的准确率。
  分别使用真实的中文和英文数据集验证本文方法,包括不同的行为建模方式和特征筛选方法对属性推断的影响,以及不同参数和用户属性分布不平衡问题对属性推断的影响,并和其他方法进行了对比,实验结果表明本文方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号