首页> 中国专利> 基于LDA主题模型的微博用户兴趣的挖掘方法及系统

基于LDA主题模型的微博用户兴趣的挖掘方法及系统

摘要

本发明公开了一种基于LDA主题模型的微博用户兴趣的挖掘方法,包括以下步骤:从微博中采集用户关系信息和用户标签信息;将用户关系信息集成至LDA主题模型中;根据兴趣类别从用户标签信息中分别为每个主题选定一个标签作为种子词,并提取多个种子词以将多个种子词集成至LDA主题模型中,以利用LDA主题模型对用户的兴趣进行挖掘。本发明实施例的挖掘方法,通过采集用户关系信息和用户标签信息,从而根据用户关系信息和用户标签信息深入的挖掘隐藏在用户关系和用户标签当中的用户兴趣和用户标签的对应关系,找出用户在不同兴趣领域的分布。本发明还公开了一种基于LDA主题模型的微博用户兴趣的挖掘系统。

著录项

  • 公开/公告号CN103970863A

    专利类型发明专利

  • 公开/公告日2014-08-06

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN201410193287.4

  • 发明设计人 徐华;黄笑秋;王玮;

    申请日2014-05-08

  • 分类号G06F17/30(20060101);

  • 代理机构北京清亦华知识产权代理事务所(普通合伙);

  • 代理人张大威

  • 地址 100084 北京市海淀区100084-82信箱

  • 入库时间 2023-12-17 00:55:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-12-19

    授权

    授权

  • 2014-09-03

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140508

    实质审查的生效

  • 2014-08-06

    公开

    公开

说明书

技术领域

本发明涉及计算机应用与互联网技术领域,特别涉及一种基于LDA(Latent Dirichlet Allocation,隐式狄利克雷分配)主题模型的微博用户兴趣的挖掘方法及系统。

背景技术

近些年,许多用户开始通过微博例如推特或者新浪微博向他人分享自己的想法或 者展示自己,例如用户在社交网络中通过各种社交行为如发微博或者给某种资源点赞, 从而分享自己的想法或者展示自己。因此,在某种程度上,用户的社交行为或者微博 可以显示用户的兴趣领域。举例而言,新浪微博的用户可以给自己加上标签信息,以 用来展示自己的不同,因此用户标签信息可以显示用户的兴趣。另外,由于用户之间 的关系不仅仅能表现他们的交往关系,也能展示他们之间有共同的兴趣,因此用户关 系信息也能被用来做用户兴趣的挖掘。

然而,虽然对如何从用户的社交行为或者微博中挖掘兴趣信息做了很多研究,但 是都忽略了用户标签信息和用户关系信息,尤其是基于新浪微博的研究并没有考虑用 户标签信息,且由于基于推特的研究并没有这种资源,所以也没有考虑标签信息,导 致无法深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的 一个目的在于提出一种能深入的挖掘隐藏在用户关系和用户标签当中的用户兴趣和用 户标签的对应关系的基于LDA主题模型的微博用户兴趣的挖掘方法。

本发明的另一个目的在于提出一种基于LDA主题模型的微博用户兴趣的挖掘系 统。

为达到上述目的,本发明一方面实施例提出了一种基于LDA主题模型的微博用户 兴趣的挖掘方法,包括以下步骤:从微博中采集用户关系信息和用户标签信息,其中, 所述用户标签信息包括多个用户标签;将所述用户关系信息集成至隐式狄利克雷分配 LDA主题模型中,所述LDA主题模型根据兴趣类别设置有多个主题;以及根据所述兴 趣类别从所述用户标签信息中分别为每个主题选定一个标签作为种子词,并提取多个 种子词以将所述多个种子词集成至所述LDA主题模型中,以利用所述LDA主题模型 对用户的兴趣进行挖掘。

根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘方法,通过采集用 户关系信息和用户标签信息,并将用户关系信息集成至LDA主题模型中,且从用户标 签信息中提取出多个种子词,以将多个种子词集成至LDA模型中,实现利用LDA主 题模型对用户的兴趣进行挖掘,可以深入的挖掘隐藏在用户关系和标签当中的用户兴 趣和用户标签的对应关系,找出用户在不同兴趣领域的分布。

另外,根据本发明上述实施例的基于LDA主题模型的微博用户兴趣的挖掘方法还 可以具有如下附加的技术特征:

在本发明的一个实施例中,在将所述用户关系信息集成至所述LDA主题模型中之 后,还包括:将Topic-in-set先验、狄利克雷森林先验和层次非对称先验集成至所述LDA 主题模型中。

进一步地,在本发明的一个实施例中,所述用户关系信息、Topic-in-set先验、狄 利克雷森林先验和层次非对称先验根据以下公式进行采样,以集成至所述LDA主题模 型中:

P(zi=k|z-i,w,q1:T)(ΣsFdn-i,s(d)+γΣk=1TΣsFdn-i,s(d)+γ)×(ησ(k)S(i)+1-η)×ΠsIvirv(Cv(si))+n-i,vCv(si)ΣkCv(s)(rvk+n-i,v(k))·n-i,k(d)+αNk+α'/TΣtNk+αΣkTn-i,k(d)+α

其中,为文档d在狄利克雷森林中节点s上分配的词的数目,γ为所述狄利克雷 森林的超参数,η为软约束的参数,为文档所述d分配至主题k上的数目,σ(k)为指 示器函数,为主题v在所述狄利克雷森林上的边的权重,Cv(s↓i)为所述主题v的狄利 克雷树中,同时属于叶子节点wi的祖先以及所述节点s的孩子节点的节点集合,为所述 主题v的狄利克雷树中,所述叶子节点wi的祖先的节点集合。

进一步地,在本发明的一个实施例中,从所述用户标签信息中提取所述多个种子词, 并将所述多个种子词集成至所述LDA主题模型中,进一步包括:通过计算每个剩余标 签与所述每个主题的种子词的共现,为所述每个主题选定预设个数标签作为所述种子 词的候选词,并集成至所述LDA主题模型中,以对所述种子词进行补充。

进一步地,在本发明的一个实施例中,根据以下公式计算所述每个剩余标签与所述 每个主题的种子词的共现:

frequency*PMI(r,m)=Pr,m*log2Pr,mPrPm

其中,r为所述种子词,m为剩余标签中的一个,Pr,m表示所述种子词r和所述剩余标 签中的一个m共同出现的概率,Pr表示所述种子词r出现的概率,Pm则为所述剩余标签中 的一个m出现的概率。

本发明另一方面实施例提出了一种基于LDA主题模型的微博用户兴趣的挖掘系 统,包括:根据本发明实施例的采集模块,用于从微博中采集用户关系信息和用户标 签信息,其中,所述用户标签信息包括多个用户标签;集成模块,用于将所述用户关 系信息集成至LDA主题模型中,其中,所述LDA主题模型根据兴趣类别设置有多个 主题;以及提取模块,用于根据所述兴趣类别从所述用户标签信息中分别为每个主题 选定一个标签作为种子词,并提取多个种子词以将所述多个种子词集成至所述LDA主 题模型中,以利用所述LDA主题模型对用户的兴趣进行挖掘。

根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘系统,通过采集用 户关系信息和用户标签信息,并将用户关系信息集成至LDA主题模型中,且从用户标 签信息中提取出多个种子词,以将多个种子词集成至LDA模型中,实现利用LDA主 题模型对用户的兴趣进行挖掘,可以深入的挖掘隐藏在用户关系和标签当中的用户兴 趣和用户标签的对应关系,找出用户在不同兴趣领域的分布。

另外,根据本发明上述实施例的基于LDA主题模型的微博用户兴趣的挖掘系统还 可以具有如下附加的技术特征:

在本发明的一个实施例中,所述集成模块还用于将Topic-in-set先验、狄利克雷森 林先验和层次非对称先验集成至所述LDA主题模型中。

进一步地,在本发明的一个实施例中,所述用户关系信息验、Topic-in-set先验、 狄利克雷森林先验和层次非对称先验根据以下公式进行采样,以集成到所述LDA主题 模型中:

P(zi=k|z-i,w,q1:T)(ΣsFdn-i,s(d)+γΣk=1TΣsFdn-i,s(d)+γ)×(ησ(k)S(i)+1-η)×ΠsIvirv(Cv(si))+n-i,vCv(si)ΣkCv(s)(rvk+n-i,v(k))·n-i,k(d)+αNk+α'/TΣtNk+αΣkTn-i,k(d)+α

其中,为文档d在狄利克雷森林中节点s上分配的词的数目,γ为所述狄利克雷 森林的超参数,η为软约束的参数,为所述文档d分配至主题k上的数目,σ(k)为指 示器函数,为主题v在所述狄利克雷森林上的边的权重,Cv(s↓i)为所述主题v的狄利 克雷树中,同时属于叶子节点wi的祖先以及所述节点s的孩子节点的节点集合,为所述 主题v的狄利克雷树中,所述叶子节点wi的祖先的节点集合。

进一步地,在本发明的一个实施例中,所述提取模块还用于通过计算每个剩余标 签与所述每个主题的种子词的共现,为所述每个主题选定预设个数标签作为所述种子 词的候选词,并集成至所述LDA主题模型中,以对所述种子词进行补充。

进一步地,在本发明的一个实施例中,根据以下公式计算所述每个剩余标签与所 述每个主题的种子词的共现:

frequency*PMI(r,m)=Pr,m*log2Pr,mPrPm

其中,r为所述种子词,m为所述剩余标签中的一个,Pr,m表示所述种子词r和所述剩 余标签中的一个m共同出现的概率,Pr表示所述种子词r出现的概率,Pm则为所述剩余标 签中的一个m出现的概率。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明 显和容易理解,其中:

图1为根据本发明一个实施例的基于LDA主题模型的微博用户兴趣的挖掘方法的 流程图;

图2为根据本发明一个具体实施例的基于LDA主题模型的微博用户兴趣的挖掘方 法的流程图;

图3为根据本发明一个实施例的基于不同先验的主题模型结果示意图;

图4为根据本发明一个实施例的基于LDA主题模型的微博用户兴趣的挖掘系统的 结构示意图;以及

图5为根据本发明一个具体实施例的基于LDA主题模型的微博用户兴趣的挖掘系 统的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参 考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简 化本发明的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例, 并且目的不在于限制本发明。此外,本发明可以在不同例子中重复参考数字和/或字母。 这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的 关系。此外,本发明提供了的各种特定的工艺和材料的例子,但是本领域普通技术人 员可以意识到其他工艺的可应用于性和/或其他材料的使用。另外,以下描述的第一特 征在第二特征之“上”的结构可以包括第一和第二特征形成为直接接触的实施例,也可 以包括另外的特征形成在第一和第二特征之间的实施例,这样第一和第二特征可能不 是直接接触。

在本发明的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、 “连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连 通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而 言,可以根据具体情况理解上述术语的具体含义。

下面参照附图描述根据本发明实施例提出的基于LDA主题模型的微博用户兴趣的 挖掘方法及系统,首先将参照附图描述根据本发明实施例提出的基于LDA主题模型的 微博用户兴趣的挖掘方法。参照图1所示,该挖掘方法包括以下步骤:

S101,从微博中采集用户关系信息和用户标签信息,其中,用户标签信息包括多 个用户标签。

在本发明的一个实施例中,如图2所示,本发明实施例基于API(Application Programming Interface,应用程序编程接口)通过网络爬虫定期从微博中爬取微博用户 信息,并提取微博用户信息中的用户关系信息和用户标签信息,保证了信息的实时性。

S102,将用户关系信息集成至LDA主题模型中,LDA主题模型根据兴趣类别设 置有多个主题。

在本发明的一个实施例中,在将用户关系信息集成至LDA主题模型中之后,还包 括:将Topic-in-set先验、狄利克雷森林(Dirichlet Forest)先验和层次非对称先验集成 至LDA主题模型中。

其中,参照图2所示,主题模型是一个无监督的学习算法,根据约束聚类方法的 性质,先验知识可以更加有效的提升聚类效果,使聚类效果更加符合预期。具体地, 主题模型是当前很常用的文本挖掘模型,本发明实施例的LDA主题模型集成了 Topic-in-set先验,Dirichlet Forest先验,层次非对称先验和用户关系先验四种先验知识, 可以理解为对LDA主题模型进行改进,改进后的LDA主题模型也可以称为兴趣挖掘 模型。进一步地,在Topic-in-set先验中,主题和标签之间通过添加了Topic-must-link, 从而固定种子词的主题分布。在Dirichlet Forest先验中,标签和标签之间通过添加了 Must-link和Cannot-link,从而引导部分标签的主题分布,并且考虑到整个文档不同类 别标签数量的不平衡性,层次非对称先验也被引入LAD主题模型中,实现使整个主题 模型更加贴近数据集。另外,由于用户关系也会影响用户兴趣领域的分布,所以将用 户关系作为先验知识,并集成至LDA主题模型中。

具体地,在本发明的一个实施例中,用户关系信息、Topic-in-set先验、狄利克雷 森林先验和层次非对称先验根据以下公式进行采样,以集成至LDA主题模型中:

P(zi=k|z-i,w,q1:T)(ΣsFdn-i,s(d)+γΣk=1TΣsFdn-i,s(d)+γ)×(ησ(k)S(i)+1-η)×ΠsIvirv(Cv(si))+n-i,vCv(si)ΣkCv(s)(rvk+n-i,v(k))·n-i,k(d)+αNk+α'/TΣtNk+αΣkTn-i,k(d)+α

其中,为文档d在狄利克雷森林中节点s上分配的词的数目,γ为狄利克雷森林 的超参数,η为软约束的参数,为文档d分配至主题k上的数目,σ(k)为指示器函数, 为主题v在狄利克雷森林上的边的权重,Cv(s↓i)为主题v的狄利克雷树中,同时属于 叶子节点wi的祖先以及节点s的孩子节点的节点集合,为主题v的狄利克雷树中,叶子 节点wi的祖先的节点集合。在本发明的实施例中,采样公式将四种先验结合起来,以共 同影响标签信息的主题分布。换言之,本发明实施例的LDA主题模型通过整合用户关 系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验约束LDA主题模型, 并且通过采样公式来融合这些先验知识和LDA主题模型。

S103,根据兴趣类别从用户标签信息中分别为每个主题选定一个标签作为种子词, 并提取多个种子词以将多个种子词集成至LDA主题模型中,以利用LDA主题模型对 用户的兴趣进行挖掘。

进一步地,在本发明的一个实施例中,从用户标签信息中提取多个种子词,并将 多个种子词集成至LDA主题模型中,进一步包括:通过计算每个剩余标签与每个主题 的种子词的共现,为每个主题选定预设个数标签作为种子词的候选词,并集成至LDA 主题模型中,以对种子词进行补充。

其中,在本发明的一个实施例中,根据以下公式计算每个剩余标签与每个主题的 种子词的共现:

frequency*PMI(r,m)=Pr,m*log2Pr,mPrPm

其中,r为种子词,m为剩余标签中的一个,Pr,m表示r和m共同出现的概率,Pr表示 r出现的概率,Pm则为m出现的概率。

在本发明的一个实施例中,参照图2所示,四种先验集成兴趣分布采样过程为迭 代采样过程,并且可以利用不同先验的在LDA主题模型对用户兴趣进行挖掘,例如 LDA主题模型可以集成用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非 对称先验中的一个或者多个。

具体地,本发明的一个实施例中,首先预定义K个主题,然后为每一个主题选择 种子标签即种子词作为Topic-in-set的知识。需要说明的是,这里每个主题的部分标签 可能相同,因为这些标签体现出用户兴趣领域,所以希望有Topic-in-set知识的LDA 模型可以产生与预定义的兴趣领域相关的主题。

进一步地,在本发明的实施例中,为了能够获取这些标签,首先选择了每个兴趣 领域最有代表性的标签即种子词r,计算种子词r和剩余所有标签中的一个m即每个剩 余标签之间共同出现的概率,然后每个标签在每个主题下都按照共现的结果进行排序, 最后每个主题下的前预设个数例如前K个标签被选为种子词的候选词。例如设置K为 5,则取每个主题下前五个标签即词选为种子标签即种子词的候选词,并且将 Topic-must-link放在种子标签和相应的主题之间。换言之,本发明实施例通过从用户标 签信息中抽取种子词作为先验知识,集成到改进后的LDA主题模型中,首先根据设定 的兴趣类别,为每一个兴趣领域即主题选定一个种子词,例如“旅游”、“游戏”等,再利 用PMI(Pointwise Mutual Information,点互式信息)作为评价标准,以即根据每个剩 余标签与每个主题的种子词的共现,为每个主题的种子词额外选出一部分标签补充到 种子词中,实现对用户的兴趣挖掘可以基于种子词分析微博用户的兴趣领域。

进一步地,图3为根据本发明一个实施例的基于不同先验的主题模型结果示意图。 其中,TIS-LDA约束主题模型为只集成了Topic-in-set先验的LDA主题模型,DT-LDA 约束主题模型为集成了Topic-in-set先验和狄利克雷森林先验的LDA主题模型, ADT-LDA约束主题模型为集成了Topic-in-set先验、狄利克雷森林先验和层次非对称 先验的LDA主题模型,DR-LDA约束主题模型为集成了用户关系信息、Topic-in-set 先验、狄利克雷森林先验和层次非对称先验的LDA主题模型。如图3所示,不同种类 的标签信息被分配到不同的主题中,且合理的先验知识能够帮助主题产生更好的聚类 效果,即随着先验知识的增加,聚类效果越来越好,更加符合预期,因此本发明实施 例优选为利用DR-LDA约束主题模型即集成了上述四种先验的LDA主题模型,以从用 户标签信息和用户关系信息中挖掘用户的兴趣信息,找出用户在不同兴趣领域的分布。

根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘方法,通过采集用 户关系信息和用户标签信息,并将用户关系信息、Topic-in-set先验、狄利克雷森林先 验和层次非对称先验集成至LDA主题模型中,且从用户标签信息中提取出多个种子词, 以将多个种子词集成至LDA模型中,实现利用LDA主题模型对用户的兴趣进行挖掘, 可以深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系,找出 用户在不同兴趣领域的分布。

图4为根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘系统的结构 示意图。参照图4所示,根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖 掘系统(以下简称系统100)包括:采集模块10、集成模块20和提取模块30。

其中,采集模块10用于从微博中采集用户关系信息和用户标签信息,其中,用户 标签信息包括多个用户标签。集成模块20用于将用户关系信息集成至LDA主题模型 中,其中,LDA主题模型根据兴趣类别设置有多个主题。提取模块30用于根据兴趣类 别从用户标签信息中分别为每个主题选定一个标签作为种子词,并提取多个种子词以 将多个种子词集成至LDA主题模型中,以利用LDA主题模型对用户的兴趣进行挖掘。

在本发明的一个实施例中,如图2所示,本发明实施例基于API通过网络爬虫定 期从微博中爬取微博用户信息,并提取微博用户信息中的用户关系信息和用户标签信 息,保证了信息的实时性。

在本发明的一个实施例中,集成模块20还用于将Topic-in-set先验、狄利克雷森 林先验和层次非对称先验集成至LDA主题模型中。

其中,参照图2所示,主题模型是一个无监督的学习算法,根据约束聚类方法的 性质,先验知识可以更加有效的提升聚类效果,使聚类效果更加符合预期。具体地, 主题模型是当前很常用的文本挖掘模型,本发明实施例的LDA主题模型集成了 Topic-in-set先验,Dirichlet Forest先验,层次非对称先验和用户关系先验四种先验知识, 可以理解为对LDA主题模型进行改进,改进后的LDA主题模型也可以称为兴趣挖掘 模型。进一步地,在Topic-in-set先验中,主题和标签之间通过添加了Topic-must-link, 从而固定种子词的主题分布。在Dirichlet Forest先验中,标签和标签之间通过添加了 Must-link和Cannot-link,从而引导部分标签的主题分布,并且考虑到整个文档不同类 别标签数量的不平衡性,层次非对称先验也被引入LAD主题模型中,实现使整个主题 模型更加贴近数据集。另外,由于用户关系也会影响用户兴趣领域的分布,所以将用 户关系作为先验知识,并集成至LDA主题模型中。

具体地,在本发明的一个实施例中,用户关系信息、Topic-in-set先验、Dirichlet 先验和层次非对称先验根据以下公式进行采样,以集成至LDA主题模型中:

P(zi=k|z-i,w,q1:T)(ΣsFdn-i,s(d)+γΣk=1TΣsFdn-i,s(d)+γ)×(ησ(k)S(i)+1-η)×ΠsIvirv(Cv(si))+n-i,vCv(si)ΣkCv(s)(rvk+n-i,v(k))·n-i,k(d)+αNk+α'/TΣtNk+αΣkTn-i,k(d)+α

其中,为文档d在狄利克雷森林中节点s上分配的词的数目,γ为狄利克雷森林 的超参数,η为软约束的参数,为文档d分配至主题k上的数目,σ(k)为指示器函数, 为主题v在狄利克雷森林上的边的权重,Cv(s↓i)为主题v的狄利克雷树中,同时属于 叶子节点wi的祖先以及节点s的孩子节点的节点集合,为主题v的狄利克雷树中,叶子 节点wi的祖先的节点集合。

在本发明的实施例中,采样公式将四种先验结合起来,以共同影响标签信息的主 题分布。换言之,本发明实施例的LDA主题模型通过整合用户关系信息、Topic-in-set 先验、狄利克雷森林先验和层次非对称先验约束LDA主题模型,并且通过采样公式来 融合这些先验知识和LDA主题模型。

进一步地,在本发明的一个实施例中,提取模块30还用于通过计算每个剩余标签 与每个主题的种子词的共现,为每个主题选定预设个数标签作为种子词的候选词,并 集成至LDA主题模型中,以对种子词进行补充。

其中,在本发明的一个实施例中,根据以下公式计算每个剩余标签与每个主题的 种子词的共现:

frequency*PMI(r,m)=Pr,m*log2Pr,mPrPm

其中,r为种子词,m为剩余标签中的一个,Pr,m表示r和m共同出现的概率,Pr表示 r出现的概率,Pm则为m出现的概率。

在本发明的一个实施例中,参照图2所示,四种先验集成兴趣分布采样过程为迭 代采样过程,并且可以利用不同先验的在LDA主题模型对用户兴趣进行挖掘,例如 LDA主题模型可以集成用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非 对称先验中的一个或者多个。

具体地,本发明的一个实施例中,首先预定义K个主题,然后为每一个主题选择 种子标签即种子词作为Topic-in-set的知识。需要说明的是,这里每个主题的部分标签 可能相同,因为这些标签体现出用户兴趣领域,所以希望有Topic-in-set知识的LDA 模型可以产生与预定义的兴趣领域相关的主题。

进一步地,在本发明的实施例中,为了能够获取这些标签,首先选择了每个兴趣 领域最有代表性的标签即种子词r,计算种子词r和剩余所有标签中的一个m即每个剩 余标签之间共同出现的概率,然后每个标签在每个主题下都按照共现的结果进行排序, 最后每个主题下的前预设个数例如前K个标签被选为种子词的候选词。例如设置K为 5,则取每个主题下前五个标签即词选为种子标签即种子词的候选词,并且将 Topic-must-link放在种子标签和相应的主题之间。换言之,本发明实施例通过从用户标 签信息中抽取种子词作为先验知识,集成到改进后的LDA主题模型中,首先根据设定 的兴趣类别,为每一个兴趣领域即主题选定一个种子词,例如“旅游”、“游戏”等,再利 用PMI作为评价标准,以根据每个剩余标签与每个主题的种子词的共现,为每个主题 的种子词额外选出一部分标签补充到种子词中,实现对用户的兴趣挖掘可以基于种子 词分析微博用户的兴趣领域。

进一步地,图3为根据本发明一个实施例的基于不同先验的主题模型结果示意图。 其中,TIS-LDA约束主题模型为只集成了Topic-in-set先验的LDA主题模型,DT-LDA 约束主题模型为集成了Topic-in-set先验和狄利克雷森林先验的LDA主题模型, ADT-LDA约束主题模型为集成了Topic-in-set先验、狄利克雷森林先验和层次非对称 先验的LDA主题模型,DR-LDA约束主题模型为集成了用户关系信息、Topic-in-set 先验、狄利克雷森林先验和层次非对称先验的LDA主题模型。如图3所示,不同种类 的标签信息被分配到不同的主题中,且合理的先验知识能够帮助主题产生更好的聚类 效果,即随着先验知识的增加,聚类效果越来越好,更加符合预期,因此本发明实施 例优选为利用DR-LDA约束主题模型即集成了上述四种先验的LDA主题模型,以从用 户标签信息和用户关系信息中挖掘用户的兴趣信息,找出用户在不同兴趣领域的分布。

进一步地,在本发明的一个实施例中,参照图5所示,上述的挖掘系统100还可 以包括:前台展示界面模块40和展示界面模块接口50。

其中,前台展示界面模块40用于给用户例如微博用户兴趣挖掘系统的使用者提供 良好的操作界面,以方便用户查看当前兴趣领域的大致分布,例如用户自己或其他人 的兴趣分布,并查找与自己兴趣相近的微博用户。界面展示模块接口50分别与采集模 块10、集成模块20、提取模块30和前台界面展示模块40相连,界面展示模块接口50 用于提供前台展示界面模块40和后台程序的接口,即前台展示界面模块40可以通过 界面展示模块接口50调用采集模块10、集成模块20和提取模块30,以方便程序聚类 结果可以展示到前台界面上。

另外,在本发明的一个实施例中,该挖掘系统100的上述采集模块10、集成模块 20、提取模块30、前台界面展示模块40和界面展示模块接口50均在Windows下用java、 Python和JSP语言开发实现。进一步地,基于上述开发平台,该挖掘系统100的部署 运行需要如下几个层次运行环境的支撑。首先在操作系统层,挖掘系统100需要在 Windows XP或其兼容的操作系统平台之上运行,同时还需要程序运行支撑环境,也就 是java和Python运行支撑环境。当具备了上述支撑环境时,该挖掘系统100即可正常 运行。而用户只需要通过网页浏览器访问系统就能浏览自己感兴趣的产品的评论的分 析结果。

根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘系统,通过采集用 户关系信息和用户标签信息,并将用户关系信息、Topic-in-set先验、狄利克雷森林先 验和层次非对称先验集成至LDA主题模型中,且从用户标签信息中提取出多个种子词, 以将多个种子词集成至LDA模型中,实现利用LDA主题模型对用户的兴趣进行挖掘, 可以深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系,找出 用户在不同兴趣领域的分布。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括 一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段 或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或 讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能, 这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用 于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中, 以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可 以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执 行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、 存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系 统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包 括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置), 随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM 或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机 可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通 过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行 处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上 述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行 的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本 领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑 功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可 编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤 是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储 介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成 的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成 的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储 在一个计算机可读取存储介质中。另外,术语“第一”、“第二”仅用于描述目的,而不能 理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有 “第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中, “多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示 例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或 者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意 性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者 特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以 理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、 替换和变型,本发明的范围由所附权利要求及其等同限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号