首页> 中国专利> 一种基于隐链接的用户参与热点话题行为分析方法及系统

一种基于隐链接的用户参与热点话题行为分析方法及系统

摘要

本发明公开了一种基于隐链接的用户参与热点话题行为分析方法,属于计算机网络信息领域。获取用户过往行为以及自身属性等信息,提取用户间共同过往行为获取标签相似度系数,利用云模型分析用户对共同过往行为的关注程度,得到用户相似度,根据阈值判断两用户是否存在隐链接。最后,根据用户参与话题的驱动因素——显示连接、隐链接、个人兴趣、行为随机性构建驱动力模型,确定对用户参与话题讨论决定性因素。该方法将隐链接引入驱动力分析模型,并且提供了一种多维云模型为用户建立隐链接,避免了赋权问题的产生。针对每个用户分析用户参与话题讨论的驱动力因素。本方法可以广泛应用于社交网络数据分析等相关领域。

著录项

  • 公开/公告号CN105786979A

    专利类型发明专利

  • 公开/公告日2016-07-20

    原文格式PDF

  • 申请/专利权人 重庆邮电大学;

    申请/专利号CN201610083788.6

  • 申请日2016-02-07

  • 分类号

  • 代理机构重庆市恒信知识产权代理有限公司;

  • 代理人刘小红

  • 地址 400065 重庆市南岸区黄桷垭崇文路2号

  • 入库时间 2023-06-19 00:06:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-03-17

    授权

    授权

  • 2016-08-17

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160207

    实质审查的生效

  • 2016-07-20

    公开

    公开

说明书

技术领域

本发明属于数据挖掘、社交网络分析领域,主要涉及根据社交网络用户行为分析,构建网络结构及资源配置。

背景技术

随着互联网、移动互联网的快速发展,以社交网络为代表的网络系统逐渐成为人们信息传播、交流沟通的主要形式,对社交网络的分析也逐渐成为研究热点。而社交网络分析的本质即对用户行为的分析。

基于热点话题的用户行为分析属于用户的群体性行为分析,当前热点话题的研究主要从用户影响力、信息传播等方向进行不同深度研究探索。多数基于话题的影响力分析侧重于好友影响力、社团影响力等“显示链接”驱动因素,而对于一些用户间的隐形关系所起到的影响力并没有进行充分分析。肖云鹏博士在其论文(肖云鹏.在线社会网络用户行为模型与应用算法研究,北京邮电大学,2013)中首次提出“隐链接”这一概念,我们理解为非显示链接用户之间所存在的微妙关系,即不存在明显关注、被关注关系,但双方出于共同目的、共同兴趣、共同立场而形成的隐形关系,亦或者双方由于立场相对、观点相悖而产生的博弈性关系。这种隐形关系对用户行为也具有一定的驱动作用,因此,在对用户行为进行分析时,仅仅考虑“显式链接”而忽略“隐链接”的驱动作用,对用户行为分析结果会造成一定偏差。

另外,用户行为的分析、相似度的度量通常考虑多种因素共同作用。在进行分析时需要对各因素分配权值来量化其所起作用。当前主要赋权法分为主、客观赋权法。主观赋权法一般需要人的主观判断,缺乏理论依据;客观赋权法则依赖于充足的样本数据,计算复杂度较高。在赋权方法还不够完善、与数据匹配程度不高的情况下,应当选择合适的分析方式,避免不当的赋权方式影响分析结果。

最后,在涉及用户行为驱动因素分析时,多数研究以用户个性出发,以用户群体共性分析为结论。而实际社交网络中,每个用户的行为各具特点,其所依赖的驱动因素也各具差异。因此,对于不同类型用户行为特色,需要针对性分析每个用户其行为所受驱动的决定性因素。

发明内容

本发明针对现有技术存在的问题:现有技术采用多属性权值分配存在的不足,即主观赋权法缺乏理论依据,客观赋权法对数据具有的依赖性并且提升了计算复杂度。本发明利用云模型建立隐链接,最后针对用户行为差异性,基于最大自然估计以及概率论建立FHIR模型,具体分析在每个用户参与热点话题这一行为中以上三个因素所起的驱动作用,量化其驱动强度,提高系统驱动效率和准确性。

本发明解决上述技术问题的技术方案是,将隐链接作为驱动因素之一,利用云模型为用户建立隐链接,即非显示链接用户之间所存在的微妙关系,即不存在明显关注、被关注关系,但双方出于共同目的、共同兴趣、共同立场而形成的隐形关系,亦或者双方由于立场相对、观点相悖而产生的博弈性关系,针对用户行为共性为其建立隐链接关系;针对多属性权值分配方法的不完善,采用基于云模型的用户相似度分析。对于每两个用户,根据其所参与的话题确定两用户对共同标签的隶属程度。利用云模型计算两用户对共同标签的隶属程度度的相似度,即用户行为相似度。根据所设定的相似阈值确定两用户间是否存在隐链接。本发明基于最大似然估计以及概率论对驱动用户参与话题讨论的因素——显示链接(F)、隐链接(H)、个人兴趣(I)、参与随机性(R)因素进行建模,旨在对每个用户进行个性化分析,确定用户参与热点话题这一行为所受到的驱动因素,获取各因素对用户的驱动强度,根据驱动强度确定话题对用户的吸引力,并调整系统资源,针对对用户驱动强度大的话题,分配更多的系统资源,驱动强度小的话题,减小系统资源,提高系统的有效利用率。

一种基于用户参与社交话题行为的影响力系统,包括,数据源获取模块获取数据源,提取好友关系、过往行为、个人属性;从好友关系中获取显示链接F,建立云模型从过往行为中获取隐链接H,根据个人属性获取个人兴趣I,随机性R信息;定义影响力因子并建立影响力模型(FHIR模型)分析不同用户所受以驱动因素的差异性并且计算受显示链接F、隐链接H、个人兴趣I、随机性R因素对用户参与某热点话题的驱动强度,根据驱动强度动态调整网络资源。

获取隐链接(H)包括:根据两用户ui、uj对共同标签下话题的参与次数获取各标签数字特征Ex、En、He,将其作为云模型的输入获取用户ui、uj行为相似度Sl(ui,uj);根据用户ui、uj话题标签一致程度,调用公式计算用户标签相似系数δ;依据用户行为相似度Sl(ui,uj)以及标签相似系数δ,调用公式:S(ui,uj)=δ*Sl(ui,uj)计算用户相似度S(ui,uj)。其中,ui(l)、uj(l)分别表示两用户(ui、uj)所参与过的话题标签。

本发明还提出一种基于隐链接的用户参与热点话题行为分析方法,数据源获取模块获取数据源,提取好友关系、过往行为、个人属性;从好友关系中获取显示链接F信息,建立多维云模型从用户过往行为中获取隐链接H信息,根据个人属性获取个人兴趣I信息,随机性R信息;建立用户参与热点话题行为影响力模型FHIR模型,计算用户参与热点话题受F、H、I、R因素影响下的驱动概率,获取上述因素对用户参与某话题的驱动强度,根据驱动强度动态调整网络资源。

所述获取隐链接H信息进一步包括:多维云模型根据用户及好友过往行为,根据用户行为获得两用户的行为相似度,计算用户对共同关注热点话题标签相似系数,根据行为相似系数和标签相似系数计算两用户相似度,根据预定阈值和相似度判断用户与好友是否建立隐链接。

所述计算两用户相似度具体为:根据公式:计算两用户对共同关注热点话题标签相似系数,根据相似系数及两用户行为相似度Sc(Ui,Uj),调用公式:S(Ui,Uj)=δ*Sc(Ui,Uj)计算两用户相似度,其中,ui(l)∩uj(l)为用户ui、uj共同标签,ui(l)∪uj(l)为用户ui、uj的所有标签。

本发明其中一个实施例包括:当用户参与热点话题k讨论的驱动力因素为F、I、R时,根据公式:Pk=PF*f(k/F)+PI*f(k/I)+(1-PF-PR)*f(k/R)计算用户参与热点话题k讨论的概率,其中,f(k/F)表示目标用户基于“显示链接”而参与热点话题讨论的概率,f(k/F)=TF(k)/NFNF为该用户的所有显示链接好友所参与过的所有话题量;f(k/I)=TI(k)/NINI为ui所参与的所有话题类型的发帖均量;f(k/R)=1/NR,NR为ui当前可参与的所欲帖子数量;根据最大似然估计,当取最大值时获得的PF、PI、PR即为显示链接F、个人兴趣I、随机性R的驱动强度。其中,Pk为用户参与话题k的概率,K为话题数。

本发明其中一个实施例包括:当用户参与热点话题k讨论的驱动力因素为H、I时,根据公式:Pk=PH*f(k/H)+PI*f(k/I)+(1-PH-PI)*f(k/R)计算用户参与热点话题k讨论的概率,其中,f(k/H)=TH(k)/NH,NH为用户ui在驱动为H时所有参与过的话题数量,根据最大似然估计,当取最大值时获得的PH、PI即为驱动力为F、I时的驱动强度。

本发明其中一个实施例包括:当用户参与热点话题k讨论的驱动力因素为F、H、I、R时,根据公式:Pk=PF*f(k/F∪H)+PI*f(k/I)+(1-PH-PR)*f(k/R)计算用户参与热点话题k讨论的概率,其中,f(k/F∪H)=T(k)/NH∪Ff(k/R)=TR(k)/NR,NR为用户ui在驱动为R时所参与的所有话题类型的发帖均量,NH∪F表示参与热点话题k讨论用户驱动力为H、F时的好友所有参与讨论的话题量;根据最大似然估计,当取最大值时获得的PF、PH、PR、PI即为驱动力为F、H、R、I时的驱动强度。

本发明针对现有技术在对用户行为进行分析时,仅仅考虑“显式链接”而忽略用户间隐性关系的的驱动作用,将“隐链接”作为驱动因素之一进行建模分析,使驱动用户行为的因素更加明了,并且量化出各驱动因素的驱动强度,进一步挖掘隐链接在驱动用户行为中起到的作用,对用户参与某热点话题的预测更加准确,能够由此预先更加准确调整网络结构和带宽资源分配。

附图说明

图1是本发明的实施方式流程图;

图2是本发明隐链接数据关系示意图。

具体实施方式

为使本发明的目的、技术方案更加简明清晰,以下参照附图并举实施例对本发明具体实施做进一步的阐述。

如图1所示为本发明的实施方式流程图,主要包括:获取数据源,提取好友关系、过往行为、个人属性等信息,从好友关系中获取显示链接F信息;利用云模型从过往行为中获取隐链接H;根据个人属性获取个人兴趣I,随机参与R信息;建立FHIR模型分析上述因素对用户行为的驱动强度。

S1:获取数据。数据获取模块利用网络爬虫或者通过各社交网站开放API平台获取数据。数据内容主要包括用户发布、参与的话题信息、用户好友列表以及用户好友所参与过的话题信息。具体话题信息包括话题id、用户参与或发布时间、话题所属标签。

S2:隐链接构建。

图2所示为本发明隐链接数据关系示意图。

为构建隐链接,数据整理模块对上述数据关系进行了整理,其关系如图2所示。ui为目标用户,Topic/Label为目标用户所发布的话题,uj则为参与过Topic/Label的用户。

利用云模型对ui和uj进行相似度分析,为用户建立隐链接。

S21:提取目标用户ui与uj所参与过的标签下的话题进行时间分片,根据每个标签下的所有时间片计算每个标签数字特征值,直到完成所有标签数字特征值的计算。假设两用户共同标签为L1、L2。将两用户话题信息划分时间片,时间片数N,获取任意第n个时间片内所参与的标签为L1的话题个数Xn1,根据公式>Ex1=1N*Σn=1NXn1,En1=π2*1NΣn=1N|Xn1-Ex|,He1=1NΣn=1N(Xn1-Ex)2-En>获取标签为L1时的数字特征值(Ex1、En1、He1);对于标签L2,获取任意第n个时间片内所参与的标签为L2的话题个数Xn2,根据公式>En2=π2*1NΣn=1N|Xn2-Ex|,He2=1NΣn=1N(Xn2-Ex)2-En>获取标签为L2时的数字特征值(Ex2、En2、He2)。利用云生成器,根据公式:temp1=NORM(En1,He1),temp2=NORM(En2,He2),x1=NORM(Ex1,temp1),x2=NORM(Ex2,temp2),获得以En1为期望,以He1为方差生成的随机数temp1,以En2为期望,以He2为方差生成的随机数temp2,根据temp1、temp2(其向量为)产生两云滴。根据以上方法分别生成用户ui与uj的云滴重复上述云滴生成方式,对ui、uj各自生成预定个数云滴,云滴在空间的分布即构成用户ui与uj各自的云C1、C2。其中,μc1为用户ui的云滴对云C1的隶属度,μc2为用户uj的云滴对云C2的隶属度;x1、x2为以上云滴生成过程中生成的具有倾向的随机数。

利用云相似度算法,根据公式计算云C1、C2的相似度,即作为用户ui与uj的行为相似度Sc(Ui,Uj)。其中,Nc为C1、C2的云滴数。

对于μc1c2则表示C1、C2中两对应云滴对各自云的隶属度的差值。根据两云滴间距离d,即d最小时,与云C1中的云滴底坐标(x1,x2)距离最近的C2中云滴为C1中云滴的对应云滴。两用户为隐链接关系。

由于以上相似度仅针对两用户对共同标签下话题的参与情况是否相似,没有考虑到用户间共同话题个数与其参与相似度的前提,因此,采用Jaccard系数方式将共同标签作为相似系数,根据公式:计算标签相似系数。根据标签相似系数及两用户的行为相似度Sc(Ui,Uj),调用公式:S(Ui,Uj)=δ*Sc(Ui,Uj)计算最终用户相似度。其中,ui(l)∩uj(l)为ui、uj共同标签,ui(l)∪uj(l)为ui、uj的所有标签。

S22:提取参与ui所发布过的话题的好友用户,分别计算这些好友用户与ui的相似度。对所得相似度进行排序,从排序中取排序位于前预定数的用户与ui建立隐链。

S3:建立驱动力模型。

针对用户参与热点话题这一行为中不同用户所受驱动因素不同、驱动强度不同的现象,本文以最大似然估计为理论基础建立影响力驱动模型—EIPR。将用户行为转换为相关概率事件,利用最大似然思想进行参数估计。

首先,我们假设用户参与热点话题这一行为仅受到独立影响因素驱动。在该假设成立情况下,对用户仅受显性链接因素驱动模式ER、仅受隐链接驱动模式IR、仅受个人兴趣驱动PR三种模式进行IndependentDrive分析。其次,我们假设用户参与热点话题这一行为同时受到多种影响因素的共同驱动。在该假设成立情况下,对用户受显性链接因素、个人兴趣因素同时驱动模式EPR以及受隐链接因素、个人兴趣因素同时驱动模式IPR和同时受到显性链接、隐链接、个人兴趣因素驱动模式E&IPR的三种模式进行CombinedDrive分析。最后,通过两种分析方式下的六种分析模式获取当前用户的行为更倾向于受哪些因素驱动并且给出各因素驱动强度,进一步分析隐链接在驱动用户行为中所扮演角色。

(1)对于IndependentDrive的情况

假设用户ui仅受F因素驱动,则根据最大似然估计,对>L(PF)=Πk=1K(PF*f(k/F)+(1-PF)*f(k/R))>取最大值maxL(PF)时的PF,则此时的PF即为ui仅受F驱动时F的驱动强度。

其中,f(k/F)表示目标用户u基于“显示链接”而参与热点话题讨论的概率,f(k/F)=TF(k)/NFNF为该用户的所有显示链接好友所参与过的所有话题量,K为ui所参与过的所有话题。

同理,可以得到IndependentDrive情况下,用户仅受H或I驱动时,>L(PH)=Πk=1K(PH*f(k/H)+(1-PH)*f(k/R)),L(PI)=Πk=1K(PI*f(k/I)+(1-PI)*f(k/R))>取最大值maxL(PH)、maxL(PI)时两因素的驱动强度PH、PI,即为用户ui受驱动时H,I的驱动强度。

其中,f(k/H)表示目标用户基于“隐链接H”而参与热点话题讨论的概率,f(k/H)=TH(k)/NHNH为该用户的所有隐链接好友所参与过的所有话题量;f(k/I)=TI(k)/NINI为ui所参与的所有话题类型的发帖均量,K为ui所参与过的所有话题;f(k/R)=1/NR,NR为ui当前可参与的所欲帖子数量,K为ui所参与过的所有话题。

(2)对于CombinedDrive情况

假设ui行为仅受F、I、R三种因素驱动。当用户参与热点话题k讨论的驱动力因素为F、I、R时,根据公式:>L(PF,PI,PR)=Πk=1K(PF*f(k/F)+PI*f(k/I)+(1-PR-PI)*f(k/R))>取L(PF,PI)的最大值maxLnL(PF,PI),则此时的PF、PI、PR即为F、I、R综合驱动时F、I、R因素的驱动强度。

其中,K为ui所参与过的所有话题,f(k/F)表示目标用户基于“显示链接”而参与热点话题讨论的概率,f(k/F)=TF(k)/NFNF为该用户的所有显示链接好友所参与过的所有话题量;f(k/I)=TI(k)/NINI为Ui所参与的所有话题类型的发帖均量;f(k/R)=1/NR,NR为Ui当前可参与的所欲帖子数量。

同理,可以得到CombinedDrive情况下,用户受H、I共同驱动时,>L(PH,PI)=Σk=1K(PH*f(k/H)+PI*f(k/I)+(1-PH)*f(k/R))>能取最大值maxL(PH,PI)时两因素的驱动强度PH、PI

其中,f(k/F)表示目标用户u基于“显示链接”而参与热点话题讨论的概率,f(k/F)=TF(k)/NFNF为该用户的所有显示链接好友所参与过的所有话题量;f(k/I)=TI(k)/NINI为Ui所参与的所有话题类型的发帖均量,K为ui所参与过的所有话题;f(k/R)=1/NR,NR为Ui当前可参与的所欲帖子数量,K为ui所参与过的所有话题。

同理,当用户参与热点话题k讨论的驱动力因素为F、H、I、R时,根据公式:Pk=PF*f(k/F∪H)+PI*f(k/I)+(1-PH-PR)*f(k/R)计算用户参与热点话题k讨论的概率,其中,f(k/F∪H)=T(k)/NH∪Ff(k/R)=TR(k)/NR,NR为用户ui在驱动为R时所参与的所有话题类型的发帖均量,NH∪F表示参与热点话题k讨论用户驱动力为H、F时的好友所有参与讨论的话题量;根据最大似然估计,当取最大值时获得的PF、PH、PR、PI即为驱动力为F、H、R、I时的驱动强度。

本发明将隐链接因素引入用驱动力模型,并且利用基于云模型的相似度分析方式计算用户相似度并为用户建立隐链接。之后为用户参与热点话题这一行为所受驱动因素进行了建模分析,并得出最终结果。

应当指出上述具体的实施例,可以使本领域的技术人员和读者更全面地理解本发明创造的实施方法,应该被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。因此,尽管本发明说明书参照附图和实施例对本发明创造已进行了详细的说明,但是,本领域的技术人员应当理解,仍然可以对本发明创造进行修改或者等同替换,总之,一切不脱离本发明创造的精神和范围的技术方案及其改进,其均应涵盖在本发明创造专利的保护范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号