首页> 中国专利> 用于帖子召回的方法、计算设备和存储介质

用于帖子召回的方法、计算设备和存储介质

摘要

本公开的实施例涉及用于帖子召回的方法、计算设备和计算机存储介质。该方法包括:获取预定时间间隔内的用户针对帖子的第一互动行为数据、以及用户之间的第二互动行为数据、用户标识和帖子标识;生成有向图,有向图指示多个用户节点、多个帖子节点、用于指示第一互动行为的有向边、以及用于指示第二互动行为的有向边;在有向图上,以交替的方式随机游走,以便采集多个节点序列,以用于生成输入特征序列;利用预定尺寸的窗口滑过输入特征序列,以便生成多个子序列以用于训练神经网络模型;经由经训练的神经网络模型,生成用户嵌入表征向量和帖子嵌入表征向量,以便召回关于当前用户的帖子。本公开能够有效提高召回的高相关性的帖子的数量。

著录项

  • 公开/公告号CN114881114A

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 上海任意门科技有限公司;

    申请/专利号CN202210349370.0

  • 发明设计人 唐方爽;张璐;陶明;彭飞;唐文斌;

    申请日2022-04-01

  • 分类号G06K9/62(2022.01);G06F16/901(2019.01);G06F16/9536(2019.01);G06N3/04(2006.01);G06N3/08(2006.01);G06Q50/00(2012.01);

  • 代理机构北京市金杜律师事务所 11256;

  • 代理人张平

  • 地址 201203 上海市浦东新区中国(上海)自由贸易试验区碧波路690号3幢203-03室

  • 入库时间 2023-06-19 16:19:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-26

    实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:2022103493700 申请日:20220401

    实质审查的生效

  • 2022-08-09

    公开

    发明专利申请公布

说明书

技术领域

本公开的实施例总体涉及信息处理领域,具体涉及用于帖子召回的方法、计算设备和计算机存储介质。

背景技术

传统的用于帖子召回的方案例如包括两种:一种是基于用户画像的帖子的召回方法,另一种是基于用户协同过滤(User-CF)的算法进行帖子召回的方法。对于前者,由于用户行为数据通常较为稀疏,难以准确形成用户画像以用于召回帖子。对于后者的协同过滤算法,由于模型仅能学习到用户针对帖子的点赞或关注等行为的一级关系,因此学习能力不理想,所召回的帖子的数量较少并且相关性较低。

综上,传统的用于帖子召回的方案的不足之处在于,难以有效提高召回的高相关性的帖子的数量。

发明内容

提供了一种用于帖子召回的方法、计算设备以及计算机存储介质,能够有效提高召回的高相关性的帖子的数量。

根据本公开的第一方面,提供了一种用于帖子召回的方法。该方法包括:获取预定时间间隔内的用户针对帖子的第一互动行为数据、以及用户之间的第二互动行为数据、用户标识和帖子标识;基于第一互动行为数据、第二互动行为数据、用户标识和帖子标识,生成有向图,有向图指示多个用户节点、多个帖子节点、用于指示第一互动行为的用户节点到帖子节点的有向边、以及用于指示第二互动行为的用户节点之间的有向边;在有向图上,以顺着有向边方向和逆着有向边方向交替的方式随机游走,以便采集长度小于或者等于预定长度阈值的多个节点序列,以用于基于多个节点序列生成输入特征序列;利用预定尺寸的窗口滑过输入特征序列,以便生成多个子序列以用于训练神经网络模型;经由经训练的神经网络模型,生成用户嵌入表征向量和帖子嵌入表征向量,以便基于关于用户嵌入表征向量和帖子嵌入表征向量的相关度计算结果来召回关于当前用户的帖子。

根据本公开的第二方面,提供了一种计算设备。该计算设备包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据第一方面的方法。

在本公开的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。

在一些实施例中,在有向图上以顺着有向边方向和逆着有向边方向交替的方式随机游走,以便采集长度小于或者等于预定长度阈值的多个节点序列包括:针对用户节点到帖子节点的有向边的每种属性类型,从有向图中随机采样第一数量的长度不超过第一长度阈值的节点序列;以及针对用户节点之间的有向边的每种属性类型,从有向图中随机采样第二数量个长度不超过第二长度阈值的节点序列。

在一些实施例中,窗口的预定尺寸的是经由以下而确定的:响应于确定用户节点到帖子节点的有向边的属性类型为点击,确定窗口的预定尺寸为第一预定值,以及确定预定长度阈值为第一阈值;以及响应于确定用户节点到帖子节点的有向边的属性类型为评论或者点赞,确定窗口的预定尺寸为第二预定值,以及确定预定长度阈值为第二阈值,第二预定值大于第一预定值,第二阈值大于第一阈值。

在一些实施例中,针对用户节点到帖子节点的有向边的每种属性类型,从有向图中随机采样第一数量的长度不超过第一长度阈值的节点序列包括:确定是否游走至用户节点;响应于确定游走至用户节点,在用户节点所关联的多个出边中随机选择符合第一预定条件的一个出边,以便游走至出边顺着有向边方向所指向的目标帖子节点,来采集目标帖子节点的帖子标识以作为节点序列的数据,第一预定条件与用户节点到帖子节点的有向边的属性类型相关联;确定是否以下任一条件满足:节点序列的长度是否大于或者等于第一长度阈值;目标帖子节点不存在符合第一预定条件的入边;响应确定上述条件均未满足,在目标帖子节点所关联的多个有向边的入边中随机选择符合第一预定条件的一个入边,以便转移至入边逆着有向边方向所指向的下一用户节点。

在一些实施例中,针对用户节点到帖子节点的有向边的每种属性类型,从有向图中随机采样第一数量的长度不超过第一长度阈值的节点序列还包括:响应于确定游走至一帖子节点,在帖子节点所关联的多个入边中随机选择符合第一预定条件的一个入边,以便游走至入边逆着有向边方向所指向的目标用户节点,来采集目标用户节点的用户标识以作为节点序列的数据;确定是否以下任一条件满足:节点序列的长度是否大于或者等于第一长度阈值;目标用户节点不存在符合第一预定条件的出边;响应确定上述条件均未满足,在目标用户节点所关联的多个有向边的出边中随机选择符合第一预定条件的一个出边,以便转移至出边顺着有向边方向所指向的下一帖子节点。

在一些实施例中,对用户节点之间的有向边的每种属性类型,从有向图中随机采样第二数量个长度不超过第二长度阈值的节点序列包括:确定是否以下任一条件满足:节点序列的长度是否大于或者等于第二长度阈值;游走至的用户节点不存在符合第二预定条件的入边或者出边;响应于确定上述条件均未满足,在游走至的当前用户节点所关联的多个出边中随机选择符合第二预定条件的一个出边,以便游走至出边顺着有向边方向所指向的下一用户节点,来采集下一用户节点的用户标识以作为当前节点序列的数据,第二预定条件与用户节点之间的有向边的每种属性类型的属性类型相关联。

在一些实施例中,基于第一互动行为数据、第二互动行为数据、用户标识和帖子标识生成有向图包括:基于用户标识和帖子标识,分别构建用户节点和帖子节点;基于用户针对帖子的第一互动行为数据,在对应用户节点和对应帖子节点之间插入一个或者多个用于指示第一互动行为的有向边,用户节点到帖子节点的有向边的属性类型包括点击、点赞、评论、收藏、分享;以及基于用户之间的第二互动行为数据,在对应用户节点之间插入一个或者多个用于指示第二互动行为的有向边,用户节点之间的有向边的属性类型包括关注、私聊。

在一些实施例中,基于多个节点序列生成输入特征序列包括:分别基于第一互动行为的有向边的类型、第二互动行为的有向边的类型,在有向图上随机游走,以便采集多个与有向边的类型相关联的序列;基于用户节点到帖子节点的有向边的属性类型、用户节点之间的有向边的属性类型,确定对应的节点序列的权重;以及基于权重和对应的节点序列,生成输入特征序列;召回关于当前用户的帖子包括:召回与当前用户相似的帖子、召回与当前用户相似的用户的发帖,以及召回与当前用户互动过的帖子相似的帖子。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。

图1示出了根据本公开的实施例的用于帖子召回的方法的系统100的示意图。

图2示出了根据本公开的实施例的用于帖子召回的方法的流程图。

图3示出了根据本公开的实施例的有向图的示意图。

图4示出了根据本公开的实施例的用于生成有向图的方法的流程图。

图5示出了根据本公开的实施例的用于生成有向图的方法的流程图。

图6示出了根据本公开的实施例的神经网络模型的示意图。

图7是用来实现本公开实施例的用于帖子召回的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上所描述,传统的基于用户画像的帖子的召回方法存在用户行为数据较为稀疏的问题;传统的基于用户协同过滤算法进行帖子的召回方法仅能学习到用户针对帖子的点赞或关注等行为的一度关系,从而导致学习能力较差。因此,传统的基于用户画像的帖子的召回方法的不足之处在于:有效提高召回的高相关性的帖子的数量。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于帖子召回的方案。在该方案中,通过基于所获取的用户针对帖子第一互动行为数据、第二互动行为数据、用户标识和帖子标识,生成包括用户节点和帖子节点的异构有向图,本公开能够有效指示用户与帖子之间、以及用户与用户之间的互动行为关系。另外,本公开通过在有向图上以沿着有向边方向和逆着有向边方向的交替方式随机游走,以便采集多个节点序列来生成输入特征序列,本公开不仅可以采集到用户对帖子的一跳的互动关系,还可以采集到由帖子到用户再到其他帖子的多跳互动关系,进而使得本公开的模型能够学习到更多跳(多级)的用户与帖子之间的关系。再者,本公开通过利用预定尺寸的窗口滑过输入特征序列用以生成用于训练神经网络模型的子序列,并且经由经训练的神经网络模型生成用户嵌入表征向量和帖子嵌入表征向量;以及基于关于用户嵌入表征向量和帖子嵌入表征向量的相似度计算结果来确定关于当前用户的召回的帖子,本公开不仅可以获得指示更丰富关联关系的模型学习样本,而且可以通过预定尺寸的设置来调整训练样本所体现节点之间关联关系的级数。因此,本公开能够有效提高召回的高相关性的帖子的数量。

在下文中,将结合附图更详细地描述本方案的具体示例。

图1示出了根据本公开的实施例的用于帖子召回的方法的系统100的示意图。如图1所示,系统100例如包括计算设备110、用户终端120、网络130。计算设备110可以通过网络130与用户终端120进行数据交互。

计算设备110例如包括但不限于服务器计算机、多处理器系统、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。在一些实施例中,计算设备110可以具有一个或多个处理单元,包括诸如图像处理单元GPU、现场可编程门阵列FPGA和专用集成电路ASIC等的专用处理单元以及诸如中央处理单元CPU的通用处理单元。

计算设备110例如可以是用于提供社交网络平台应用的服务器。在一些实施例中,计算设备110例如包括应用层112、学习层114和网络层116。网络层116例如用于基于经由应用层112所获取的用户针对帖子的第一互动行为数据、用户之间的第二互动行为数据、用户标识和帖子标识,来生成有向图。学习层114例如用于针对网络层116所生成的有向图进行学习,以便生成用户嵌入表征向量和帖子嵌入表征向量。应用层112例如用于获取用户针对帖子的第一互动行为数据、用户之间的第二互动行为数据、用户标识和帖子标识,以及基于学习层114所生成的用户嵌入表征向量和帖子嵌入表征向量,来确定关于用户的召回的帖子。召回关于当前用户的帖子例如包括:召回与当前用户相似的帖子、召回与当前用户相似的用户的发帖,以及召回与当前用户互动过的帖子相似的帖子。

具体而言,计算设备110可以获取预定时间间隔内的用户针对帖子的第一互动行为数据、以及用户之间的第二互动行为数据、用户标识和帖子标识,以及基于所获取的第一互动行为数据、第二互动行为数据、用户标识和帖子标识,生成有向图。计算设备110还可以在有向图上,以交替的方式随机游走,以便采集多个节点序列以用于生成输入特征序列。计算设备110还可以利用预定尺寸的窗口滑过输入特征序列,以便生成子序列以用于训练神经网络模型;以及经由经训练的神经网络模型生成用户嵌入表征向量和帖子的表征向量,并基于关于用户嵌入表征向量和帖子嵌入表征向量的相似度计算结果来确定关于用户的召回的帖子。

以下将结合图2和图3描述根据本公开的实施例的用于帖子召回的方法。图2示出了根据本公开的实施例的用于帖子召回的方法200的流程图。图3示出了根据本公开的实施例的有向图300的示意图。应当理解,方法200例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。

在步骤202处,计算设备110获取预定时间间隔内的用户针对帖子的第一互动行为数据、以及用户之间的第二互动行为数据、用户标识和帖子标识。

用户针对帖子的第一互动行为例如包括:点击、点赞、评论、收藏、分享。用户之间的第二互动行为例如包括:私聊、关注。

获取第一互动行为数据、第二互动行为数据的方式例如包括:计算设备110通过应用层选取预定时间间隔内(例如最近一个月)用户和帖子的互动日志中关于点击、点赞、评论、收藏、分享的数据;以及获取当前用户之间、私聊、关注的数据。

在步骤204处,计算设备110基于第一互动行为数据、第二互动行为数据、用户标识和帖子标识,生成有向图,有向图指示多个用户节点、多个帖子节点、用于指示第一互动行为的用户节点到帖子节点的有向边、以及用于指示第二互动行为的用户节点之间的有向边。

如图3所示,有向图300为异构网络。有向图300包括多个用户节点(例如标记310、312、314和316所示)、多个帖子节点(例如标记320和322所示)、以及用于指示第一互动行为的用户节点至帖子节点的有向边(例如属性类型为“分享”的有向边334)、用于指示第二互动行为的用户节点之间的有向边(例如属性类型为“关注”的有向边332,属性类型为“私聊”的有向边336)。例如,有向边334位于存在第一互动行为(例如分享)的用户节点312与帖子节点320之间。有向边336位于存在第二互动行为(例如私聊)的用户节点310和用户节点312之间。每个有向边包括出边和入边。每个节点可以关联有一个或者多个出边和/或入边。例如,用户节点312关联有有向边332、336和有向边334的出边,同时用户节点312还关联有有向边338的入边。如图所示。从一个有向边的出边至入边的方向为顺着有向边的方向(即有向边箭头方向),从一个有向边的入边至出边的方向为逆着有向边的方向(即有向边箭头相反方向)。

关于生成有向图的方式,其例如包括:计算设备110基于用户标识和帖子标识,分别构建用户节点和帖子节点;基于用户针对帖子的第一互动行为数据,在对应用户节点和对应帖子节点之间插入一个或者多个用于指示第一互动行为的有向边,用户节点到帖子节点的有向边的属性类型包括点击、点赞、评论、收藏、分享;以及基于用户之间的第二互动行为数据,在对应用户节点之间插入一个或者多个用于指示第二互动行为的有向边,用户节点之间的有向边的属性类型包括关注、私聊。下文将结合图4具体说明生成有向图的方法400,在此,不再赘述。

在步骤206处,计算设备110在有向图上,以顺着有向边方向和逆着有向边方向交替的方式随机游走,以便采集长度小于或者等于预定长度阈值的多个节点序列,以用于基于多个节点序列生成输入特征序列。

例如,计算设备110针对用户节点到帖子节点的每种有向边的属性类型(例如,标记为User2PostEdgeType_i),从有向图中随机采样N_i个长度不超过L_i的节点序列;以及针对用户节点之间的有向边的每种属性类型(例如,标记为User2UserEdgeType_j),从有向图中随机采样N_j个长度不超过L_j的节点序列,N_i、L_i、N_j、L_j为自然数。

对于用户节点到帖子节点的有向边的每种属性类型,进一步的针对图中每一个用户节点或者帖子节点,随机采样M个节点序列。

关于针对用户节点到帖子节点的有向边的每种属性类型采样多个节点序列的方式,其例如包括:计算设备110确定是否游走至用户节点;如果确定游走至用户节点,在用户节点所关联的多个出边中随机选择符合第一预定条件的一个出边,以便游走至出边顺着有向边方向所指向的目标帖子节点,来采集目标帖子节点的帖子标识以作为节点序列的数据,第一预定条件与用户节点到帖子节点的有向边的属性类型相关联;确定是否以下任一条件满足:节点序列的长度是否大于或者等于第一长度阈值;目标帖子节点不存在符合第一预定条件的入边;如果确定上述条件均未满足,在目标帖子节点所关联的多个有向边的入边中随机选择符合第一预定条件的一个入边,以便转移至入边逆着有向边方向所指向的下一用户节点。

以下结合图3以有向边的属性类型为点赞帖子为例,说明从有向图中以交替随机游走方式采样第一数量的长度不超过第一长度阈值(例如L_i)的序列的方式。例如,如果计算设备110确定当前游走至一用户节点314,则在当前用户节点314所关联的多个出边(例如有向边340、342和344的3个出边)中随机选择符合第一预定条件(例如,有向边的属性类型为“点赞”)的一个出边所有出边中随机选一个出边,例如是有向边344的出边。例如,用户节点314由该有向边344的出边顺着有向边344的方向游走至下一个节点322(这个节点必定代表一个帖子节点),以采集当前帖子节点322的帖子标识以作为当前节点序列的数据。再从当前帖子节点322所关联的多个有向边的入边(例如有向边342、346和348的3个入边)中随机选择符合第一预定条件(有向边的属性类型为“点赞”)的一个入边,例如有向边346的入边。然后,由该有向边346的入边逆着有向边346的方向转移到下一个用户节点310(这个节点必定是用户节点)。重复以上过程,交替地由出边和入边(即,交替地以顺着有向边的方向和逆着有向边的方向)随机游走,采集所游经节点的标识信息,直到达到最大长度L_i,或者找不到符合第一预定条件的出边和入边。

如果计算设备110确定当前游走至一帖子节点,则类似的,在帖子节点所关联的多个入边中随机选择符合第一预定条件的一个入边,以便游走至入边逆着有向边方向所指向的目标用户节点,来采集目标用户节点的用户标识以作为节点序列的数据作为当前节点序列的数据。再在目标用户节点所关联的多个有向边的出边中随机选择符合第一预定条件的一个出边,以便转移至出边顺着有向边方向所指向的下一帖子节点。重复以上过程,交替地由出边和入边(即,交替地以顺着有向边的方向和逆着有向边的方向)随机游走,采集所游经节点的标识信息,直到达到最大长度L_i,或者找不到符合第一预定条件的出边和入边。

在一些实施例中,计算设备110还针对用户节点之间有向边的每种属性类型,从有向图中以随机游走的方式采样N_j个长度不超过L_j的序列。关于随机游走的方式采样方式例如包括两种,一种与前文所描述的交替随机游走方式类似,即,针对用户节点之间有向边的每种属性类型交替地由用户节点的出边和入边(即,交替地以顺着有向边的方向和逆着有向边的方向)随机游走,采集所游经节点的标识信息,直到达到最大长度L_j。另一种是顺序随机游走,即,针对用户节点之间有向边的每种属性类型,始终沿着有向边的方向依次顺序采样。下文将结合图5说明从有向图中随机采样第二数量个长度不超过第二长度阈值的节点序列的方法500。在此,不再赘述。

通过上述在用户节点与帖子节点之间交替随机游走的采样方式,以及在用户节点之间交替或者顺序随机游走的方式,本公开可以采集并学习到用户针对帖子的多跳互动行为特征,以及用户之间多跳的互动行为特征。而传统的例如协同过滤的采样方式,鉴于不存在帖子针对用户的互动行为,因而仅能采集并学习用户针对帖子的一跳互动行为特征,进而导致模型学习不充分。因此,本公开能够学习到更为丰富的互动行为特征。

在步骤208处,计算设备110利用预定尺寸的窗口滑过输入特征序列,以便生成多个子序列以用于训练神经网络模型。

关于确定窗口的预定尺寸的方式,其例如包括:计算设备110确定用户针对帖子的第一互动行为是否为点击,如果确定用户节点到帖子节点的有向边的属性类型为点击,确定窗口的预定尺寸为第一预定值,以及确定预定长度阈值为第一阈值;以及如果确定用户节点到帖子节点的有向边的属性类型为评论或者点赞,确定窗口的预定尺寸为第二预定值,以及确定预定长度阈值为第二阈值,第二预定值大于第一预定值,第二阈值大于第一阈值。例如,有些用户节点至帖子节点的有向边的属性类型代表用户针对帖子的强互动,比如关注、评论等,而有些有向边的属性类型代表用户针对帖子的弱互动,比如点击。应当理解,在用户针对帖子的第一互动行为数据中,强互动通常覆盖率比较低,而弱互动覆盖率比较高。通过在弱互动和强互动时均采集节点序列,本公告开可以解决强互动数据稀疏的问题。不过,应当理解,采样时应该根据不同的有向边的属性类型,选择合适的窗口的预定尺寸的参数。比如,当有向边的属性类型代表用户针对帖子的强互动时,比如关注、评论时,所采集的序列长度可以更长,而当有向边的属性类型代表用户针对帖子的弱互动时,比如点击,所采集的序列长度可以更短。

关于选择合适的窗口的预定尺寸的参数,应当理解,如果窗口的预定尺寸较小,例如被配置为3,则神经网络模型经由针对所生成的子序列的训练,可以学习到节点之间短距离的关系。例如用户A点赞帖子B,用户C也点赞帖子B,则神经网络模型可以学习到用户A与用户B之间的关系,但是无法学习到更长距离的关系,例如,用户C也点赞帖子D、用户E也点赞帖子D,则无法学习到用户A与用户C和用户E之间的关系。如果窗口的预定尺寸较大,例如被配置为5,则可以学习到A与用户B、用户C和用户E之间的关系。

在步骤210处,计算设备110经由经训练的神经网络模型,生成用户嵌入表征向量和帖子嵌入表征向量,以便基于关于用户嵌入表征向量和帖子嵌入表征向量的相关度计算结果来召回关于当前用户的帖子。

关于神经网络模型,其例如是基于Word2Vec而构建。Word2Vec通常被用于自然语言处理(NLP)中,以便从大量文本语料中以无监督的方式学习语义知识。本公开利用Word2Vec从大量的节点序列中学习节点中的关系。具体而言,即利用Word2Vec通过学习节点序列来用嵌入表征向量的方式表征用户节点信息和帖子,即通过一个嵌入空间使得关系上相似的用户节点和帖子节点在该空间内距离很近。

在一些实施例中,基于Word2Vec的连续词袋模型(Continuous Bagof-Words,即CBOW)而构建神经网络模型。下文将结合图6说明基于CBOW模型所构建的神经网络600。图6示出了根据本公开的实施例的神经网络模型600的示意图。神经网络模型600例如用于基于当前节点的上下文节点,来预测当前节点。如图6所示,神经网络模型600例如包括输入层610、投影层620和输出层630。

神经网络模型600的训练过程例如包括:首先,生成one-hot向量表示。输入层的612、614和616例如是one-hot向量表示x。例如窗口的预定尺寸为K,假设待预测的当前节点例如处于c的位置。则下文节点的窗口输入例如为如下表达式(1)所示。

(x

然后初始化第一矩阵V,生成神经网络模型600的输入节点向量。以下结合表达式(2)说明生成输入节点向量v的方式。

v

之后,计算上下文窗口内节点向量的加权平均值向量v

v

初始化第二矩阵W,以基于第二矩阵W和平均值向量计算向量z,例如z=W*v

经由经训练的神经网络模型600,基于投影层620的嵌入层向量生成用户嵌入表征向量和帖子嵌入表征向量。

关于召回关于用户的帖子方式例如包括,计算设备110将用户嵌入表征向量和帖子嵌入表征向量进行点积或者余弦相似度计算;然后,比较点积或者余弦相似度计算的计算结果,以用于召回与当前用户相似的帖子、召回与当前用户相似的用户的发帖,以及召回与当前用户互动过的帖子相似的帖子。例如,计算设备110的应用层基于学习层所输出的关于用户嵌入表征向量和帖子嵌入表征向量进行点积或者余弦相似度计算,然后比较点积或者余弦相似度计算的计算结果,如果结果越大则表明相似度程度越高,例如取计算结果排名前十的帖子作为当前用户的召回帖子。

应当理解,由于针对用户和帖子在同一个向量空间进行学习,因此关于与当前用户相似的帖子、与当前用户相似的用户的发帖,以及与当前用户互动过的帖子相似的帖子的相似度的计算均可以通过用户嵌入表征向量和帖子嵌入表征向量的相似度计算来得到。因此,本公开可以召回更多关联性高的帖子。

在上述方案中,通过基于所获取的用户针对帖子第一互动行为数据、第二互动行为数据、用户标识和帖子标识,生成包括用户节点和帖子节点的异构有向图,本公开能够有效指示用户与帖子之间、以及用户与用户之间的互动行为关系。另外,本公开通过在有向图上以沿着有向边方向和逆着有向边方向的交替方式随机游走,以便采集多个节点序列来生成输入特征序列,本公开不仅可以采集到用户对帖子的一跳的互动关系,还可以采集到由帖子到用户再到其他帖子的多跳互动关系,进而使得本公开的模型能够学习到更多跳(多级)的用户与帖子之间的关系。再者,本公开通过利用预定尺寸的窗口滑过输入特征序列用以生成用于训练神经网络模型的子序列,并且经由经训练的神经网络模型生成用户嵌入表征向量和帖子嵌入表征向量;以及基于关于用户嵌入表征向量和帖子嵌入表征向量的相似度计算结果来确定关于当前用户的召回的帖子,本公开不仅可以获得指示更丰富关联关系的模型学习样本,而且可以通过预定尺寸的设置来调整训练样本所体现节点之间关联关系的级数。因此,本公开能够有效提高召回的高相关性的帖子的数量。

图4示出了根据本公开的实施例的用于生成有向图的方法400的流程图。方法400例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法400还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。

在步骤402处,计算设备110基于用户标识和帖子标识,分别构建用户节点和帖子节点。

在步骤404处,计算设备110基于用户针对帖子的第一互动行为数据,在对应用户节点和对应帖子节点之间插入一个或者多个用于指示第一互动行为的有向边,用户节点到帖子节点的有向边的属性类型包括点击、点赞、评论、收藏、分享。

例如,如果用户A对帖子B有点击,或点赞、评论、收藏或分享,则在用户A的对应用户节点与帖子B的对应帖子节点之间加入一条由对应用户节点指向对应帖子节点的有向边,该有向边的属性类型例如是点击,或点赞、评论、收藏或分享。如果用户A对帖子B有多种互动行为,则在用户A的对应用户节点与帖子B的对应帖子节点之间加入多条由对应用户节点指向对应帖子节点的有向边,这些多条有向边具有多种不同的属性类型。

在步骤406处,计算设备110基于用户之间的第二互动行为数据,在对应用户节点之间插入一个或者多个用于指示第二互动行为的有向边,用户节点之间的有向边的属性类型包括关注、私聊。

例如,根据计算设备110不同用户之间的关注、私聊等信息,咋对应用户节点之间插入属性类型为关注、私聊的有向边。比如,用户A关注用户C,则在对应于用户A的用户节点加入一条属性类型为关注的有向边,以便从对应于用户A的用户节点指向对应于用户C的另一用户节点。在一些实施例中,如果用户A和用户D的聊天轮次大于X,则在对应于用户A的用户节点与对应于D的用户节点之间加入一条属性类型为私聊的有向边,该有向边从对应于用户A的用户节点指向对应于D的用户节点。

通过采用上述手段,本公开能够有效指示用户与帖子之间、以及用户与用户之间的互动行为关系。

图5示出了根据本公开的实施例的用于生成有向图的方法500的流程图。方法500例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法500还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。

在步骤502处,计算设备110确定是否以下任一条件满足:节点序列的长度是否大于或者等于第二长度阈值;游走至的用户节点不存在符合第二预定条件的入边或者出边。

在步骤504处,如果计算设备110确定上述条件均未满足,在游走至的当前用户节点所关联的多个出边中随机选择符合第二预定条件的一个出边,以便游走至出边顺着有向边方向所指向的下一用户节点,来采集下一用户节点的用户标识以作为当前节点序列的数据,第二预定条件与用户节点之间的有向边的每种属性类型的属性类型相关联。

在步骤506处,如果计算设备110确定上述任一条件满足,停止随机游走。

图7示出了可以用来实施本公开内容的实施例的示例设备700的示意性框图。例如,如图1所示的计算设备110可以由设备700来实施。如图所示,设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机存取存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在随机存取存储器703中,还可存储设备700操作所需的各种程序和数据。中央处理单元701、只读存储器702以及随机存取存储器703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至输入/输出接口705,包括:输入单元706,例如键盘、鼠标、麦克风等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理,例如方法200、400和500,可由中央处理单元701执行。例如,在一些实施例中,方法200、400和500可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由只读存储器702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到随机存取存储器703并由中央处理单元701执行时,可以执行上文描述的方法200、400和500的一个或多个动作。

本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号