首页> 中国专利> 社交网络的信息收集方法及信息收集装置

社交网络的信息收集方法及信息收集装置

摘要

本发明提供了社交网络的信息收集方法及信息收集装置。本发明利用社交网络用户之间的内在联系,选择出待提取的用户,并根据用户的提取优先级,优先提取价值较高的用户发布的内容,从而提高了社交网络的信息收集效率。

著录项

  • 公开/公告号CN107292750A

    专利类型发明专利

  • 公开/公告日2017-10-24

    原文格式PDF

  • 申请/专利权人 株式会社理光;

    申请/专利号CN201610203819.7

  • 申请日2016-04-01

  • 分类号

  • 代理机构北京银龙知识产权代理有限公司;

  • 代理人许静

  • 地址 日本东京都

  • 入库时间 2023-06-19 03:35:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-18

    授权

    授权

  • 2017-11-24

    实质审查的生效 IPC(主分类):G06Q50/00 申请日:20160401

    实质审查的生效

  • 2017-10-24

    公开

    公开

说明书

技术领域

本发明涉及网络内容收集技术领域,具体涉及一种社交网络的信息收集方法及信息收集装置。

背景技术

社交网络已深入到人们的日常生活中,社交网络的形式多种多样,例如各种微博平台。微博是一种基于用户关系的信息分享、传播以及获取的平台。用户可以通过WEB、WAP等各种客户端组建个人社区,在个人社区上发布文字、图片或视频等内容进行信息更新,并实现即时分享。微博平台的用户A可以通过关注用户B,成为该用户B的粉丝,以及时获得用户B的信息更新。

微博作为广泛使用的社交网络,其所包含的海量数据对于很多应用场景都有重大的意义。为了获取上述数据,可以通过网络爬虫来收集微博网站中的信息。然而,微博用户的数量和微博平台上的数据都十分庞大,现有的信息收集方法收集数据所需要的时间过长,因此亟需一种能够提高信息收集的效率的方案。

发明内容

本发明实施例要解决的技术问题是提供一种社交网络的信息收集方法及信息收集装置,更为准确和更为快速的从社交网络上收集所需要的信息。

根据本发明实施例的一个方面,提供了一种社交网络的信息收集方法,包括:

基于种子词,搜索社交网络中包含有所述种子词的内容,获得第一搜索结果并保存到一收集结果数据库中,所述社交网络包括有多个用户、各用户的用户子网、各用户在其用户子网上发布的内容、以及用户之间的用户间拓扑关系;

确定发布所述第一搜索结果中的内容的用户,得到第一级用户,将所述第一级用户加入到一候选用户集合;

逐个提取所述候选用户集合中各用户在其用户子网上发布的内容,保存到所述收集结果数据库中,直至达到预设的提取停止条件,其中,在提取当前用户在其用户子网上发布的内容时,根据所述用户间拓扑关系,确定当前用户的下一级用户,并将所述下一级用户加入到所述候选用户集合。

根据本发明实施例的一个方面,上述信息收集方法中,所述逐个提取所述候选用户集合中各用户在其用户子网上发布的内容,保存到所述收集结果数据库中,直至达到预设的提取停止条件的步骤包括:

从所述候选用户集合中选择一个用户作为当前用户,其中,在所述候选用户集合中存在第一级用户时,选择一个第一级用户作为当前用户,否则,从所述候选用户集合中选择具有最高提取优先级的用户,作为当前用户;

提取当前用户在其用户子网上发布的内容并保存至所述收集结果数据库;

根据所述用户间拓扑关系,确定当前用户的下一级用户,将当前用户从所述候选用户集合中删除,以及将所述下一级用户加入到所述候选用户集合;

判断所述提取停止条件是否满足,若是,则结束流程;否则,返回所述从所述候选用户集合中选择一个用户作为当前用户的步骤。

根据本发明实施例的一个方面,上述信息收集方法中,在所述将当前用户从所述候选用户集合中删除,以及将所述下一级用户加入到所述候选用户集合的步骤之前,所述方法还包括:

提取用于表示当前用户特性的用户标签,计算当前用户的用户标签与所述种子词之间的第一相关性,得到当前用户的标签品质;

计算当前用户在其用户子网上发布的内容与所述第一搜索结果之间的第二相关性,得到当前用户的内容品质;

对当前用户的标签品质和内容品质进行融合,获得当前用户的下一级用户的提取优先级。

根据本发明实施例的一个方面,上述信息收集方法中,所述第一相关性为所述用户标签对应的词向量与所述种子词对应的词向量之间的余弦距离;

所述第二相关性为第一词袋特征向量与第二词袋特征向量之间的余弦距离,所述第一词袋特征向量是基于当前用户在其用户子网上发布的内容所构建的词袋特征向量,所述第二词袋特征向量是基于所述第一搜索结果构建的词袋特征向量。

根据本发明实施例的一个方面,上述信息收集方法中,所述对当前用户的标签品质和内容品质进行融合,获得当前用户的下一级用户的提取优先级的步骤包括:计算当前用户的标签品质和内容品质的和值,得到所述当前用户的下一级用户的提取优先级。

根据本发明实施例的一个方面,上述信息收集方法中,所述对当前用户的标签品质和内容品质进行融合,获得当前用户的下一级用户的提取优先级的步骤包括:

根据当前用户的标签品质,在所述候选用户集合中的所有用户中的排名,得到当前用户的第一融合分量;

根据当前用户的内容品质,在所述候选用户集合的所有用户中的排名,得到当前用户的第二融合分量;

计算第一融合分量和第二融合分量的和值,得到所述当前用户的下一级用户的提取优先级。

根据本发明实施例的一个方面,上述信息收集方法中,在所述将所述下一级用户加入到所述候选用户集合之后,所述方法还包括:根据所述第一相关性,初始化所述当前用户的下一级用户的标签品质;以及,根据所述第二相关性,初始化所述当前用户的下一级用户的内容品质。

根据本发明实施例的一个方面,上述信息收集方法中,所述提取停止条件包括以下条件中的至少一种:达到预定的提取时间阈值;提取到预定的用户级别深度;当前用户的提取优先级低于预定门限。

根据本发明的另一方面,提供了一种社交网络的信息收集装置,所述信息收集装置包括:

搜索单元,用于基于种子词,搜索社交网络中包含有所述种子词的内容,获得第一搜索结果并保存到一收集结果数据库中,所述社交网络包括有多个用户、各用户的用户子网、各用户在其用户子网上发布的内容、以及用户之间的用户间拓扑关系;

候选用户生成单元,用于确定发布所述第一搜索结果中的内容的用户,得到第一级用户,将所述第一级用户加入到一候选用户集合;

提取单元,用于逐个提取所述候选用户集合中各用户在其用户子网上发布的内容,保存到所述收集结果数据库中,直至达到预设的提取停止条件,其中,在提取当前用户在其用户子网上发布的内容时,根据所述用户间拓扑关系,确定当前用户的下一级用户,并将所述下一级用户加入到所述候选用户集合。

根据本发明实施例的一个方面,上述信息收集装置中,所述提取单元包括:

选择单元,用于从所述候选用户集合中选择一个用户作为当前用户,其中,在所述候选用户集合中存在第一级用户时,选择一个第一级用户作为当前用户,否则,从所述候选用户集合中选择具有最高提取优先级的用户,作为当前用户;

收集单元,用于提取当前用户在其用户子网上发布的内容并保存至所述收集结果数据库;

更新单元,用于根据所述用户间拓扑关系,确定当前用户的下一级用户,将当前用户从所述候选用户集合中删除,以及将所述下一级用户加入到所述候选用户集合;

判断单元,用于判断所述提取停止条件是否满足,若是,则结束内容提取;否则,继续触发所述选择单元。

根据本发明实施例的一个方面,上述信息收集装置中,所述更新单元包括:

确定单元,用于根据所述用户间拓扑关系,确定当前用户的下一级用户;

优先级计算单元,用于提取用于表示当前用户特性的用户标签,计算当前用户的用户标签与所述种子词之间的第一相关性,得到当前用户的标签品质;计算当前用户在其用户子网上发布的内容与所述第一搜索结果之间的第二相关性,得到当前用户的内容品质;对当前用户的标签品质和内容品质进行融合,获得当前用户的下一级用户的提取优先级;

候选用户集合维护单元,用于在所述优先级计算单元获得当前用户的下一级用户的提取优先级后,将当前用户从所述候选用户集合中删除,以及将所述下一级用户加入到所述候选用户集合。

根据本发明实施例的一个方面,上述信息收集装置中,所述优先级计算单元,具体用于计算当前用户的标签品质和内容品质的和值,得到所述当前用户的下一级用户的提取优先级。

根据本发明实施例的一个方面,上述信息收集装置中,所述优先级计算单元,具体用于根据当前用户的标签品质,在所述候选用户集合中的所有用户中的排名,得到当前用户的第一融合分量;根据当前用户的内容品质,在所述候选用户集合的所有用户中的排名,得到当前用户的第二融合分量;计算第一融合分量和第二融合分量的和值,得到所述当前用户的下一级用户的提取优先级。

根据本发明实施例的一个方面,上述信息收集装置中,所述更新单元还包括:

初始化单元,用于在所述候选用户集合维护单元将所述当前用户的下一级用户加入到所述候选用户集合之后,根据所述第一相关性,初始化所述当前用户的下一级用户的标签品质;以及,根据所述第二相关性,初始化所述当前用户的下一级用户的内容品质。

与现有技术相比,本发明实施例提供的社交网络的信息收集方法及信息收集装置,利用社交网络用户之间的内在联系,选择出待提取的用户加入至候选用户集合,并根据用户的提取优先级,优先提取候选用户集合中价值较高的用户发布的内容,可以提高社交网络的信息收集效率。

附图说明

图1为本发明实施例提供的一种社交网络的信息收集方法的流程示意图;

图2为本发明实施例中逐个用户进行内容提取的一种流程示意图;

图3为本发明实施例中计算提取优先级的一种流程示意图;

图4为本发明实施例提供的信息收集装置的功能结构示意图;

图5为本发明实施例提供的信息收集装置的提取单元的功能结构示意图;

图6为本发明实施例提供的信息收集装置的更新单元的功能结构示意图;

图7为本发明实施例提供的信息收集装置的一种硬件结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。

应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。

社交网络通常包括有以下元素:

用户,例如,可以通过用户身份标识来表示;

用户的用户子网,例如微博上用户组建的个人社区,通常可以通过统一资源定位符(URL,Uniform Resoure Locator)来表示某个用户的用户子网;

用户在其用户子网上发布的内容,该内容可以是文本、图片、视频或音频等形式。本文里,将主要针对收集文本内容为例进行说明。

用户之间的用户间拓扑关系,例如微博平台上通过关注方式建立的粉丝关系。当第二用户在社交网络上关注了第一用户时,则上述用户间拓扑关系中形成了从第一用户到第二用户的连接关系,该连接关系是具有方向的。为了便于描述,本文中,将所述从第一用户到第二用户的连接关系,表述为:第一用户的下一级用户包括有第二用户。

本发明实施例对以上社交网络上的文本内容进行收集,在信息收集过程中,考虑到社交网络的用户间拓扑关系,以及内容和用户之间的联系,确定出下一个收集的用户,从而可以更快更精确的收集到所需的信息。

请参照图1,本发明实施例提供的一种社交网络的信息收集方法,包括以下步骤:

步骤11,基于种子词,搜索社交网络中包含有所述种子词的内容,获得第一搜索结果并保存到一收集结果数据库中。

本发明实施例中,所述社交网络通常包括有多个用户、各用户的用户子网、各用户在其用户子网上发布的内容、以及用户之间的用户间拓扑关系。本实施例所述的内容,是指基于一种或多种自然语言的文本内容,如中文文本内容或其他语言的文本内容。所述种子词通常包括至少一个搜索关键词以及搜索关键词之间的逻辑关系,如与、或等关系。搜索关键词可以是用户自行指定的词,用以指明本次搜索聚焦的主题,以在社交网络上搜索所需要的内容。

本发明实施例中,可以应用各种已有的搜索算法执行上述搜索,以获得包括有种子词的内容。

步骤12,确定发布所述第一搜索结果中的内容的用户,得到第一级用户,将所述第一级用户加入到一候选用户集合。

由于第一级用户发布的内容中直接包含有上述种子词,因此第一级用户都是价值较高的用户,这些用户发布的内容中很可能包含有与种子词相关性较高的信息,因此,在获得第一搜索结果时,本发明实施例可以进一步提取发布第一搜索结果中的内容的用户,加入到候选用户集合。

步骤13,逐个提取所述候选用户集合中各用户在其用户子网上发布的内容,保存到所述收集结果数据库中,直至达到预设的提取停止条件,其中,在提取当前用户在其用户子网上发布的内容时,根据所述用户间拓扑关系,确定当前用户的下一级用户,并将所述下一级用户加入到所述候选用户集合。

这里,本发明实施例针对候选用户集合中各个用户,逐个进行内容提取处理,提取该用户在该用户的用户子网上发布的内容,例如,所有内容或发布时间在预设时间段内的内容,并将提取到的内容保存至所述收集结果数据库中。在当前用户的内容提取的过程中(具体的可以在内容提取前、提取中或提取完成后),进一步根据用户间拓扑关系,提取当前用户的下一级用户,即关注当前用户的用户,加入到所述候选用户集合。例如,可以根据微博平台的粉丝关系,提取当前用户的粉丝,加入所述候选用户集合。

以上方法中,首先基于种子词进行搜索,获得第一搜索结果以及第一级用户,然后进一步提取第一级用户以及该第一级用户的下级用户发布的内容,这些用户发布的内容通常与种子词有较高的相关性。当达到预定的提取停止条件时,将停止提取处理,此时收集结果数据库中的内容为本次收集过程所收集到的信息。这里,提取停止条件可以是以下条件中的任意一种或多种:达到预定的提取时间阈值;提取到预定的用户级别深度;当前用户的提取优先级低于预定门限。

通过以上方法,本发明实施例能够直接收集到包含种子词的内容,还可以收集到与种子词具有较高相关性的内容,可以提高信息收集的准确性,减少了收集所需时间,提高了信息收集效率。

在以上步骤13中,在逐个提取所述候选用户集合中各用户发布的内容时,可以根据各个用户的重要程度来设置对应的提取优先级。第一级用户发布的内容中直接包括有所述种子词,因此具有较高的优先级,作为一种实现方式,本实施例在上述步骤13中,可以首先收集第一级用户的内容,而后根据其他用户的提取优先级逐个进行内容提取,此时,如图2所示,上述步骤13具体可以包括:

步骤131,从所述候选用户集合中选择一个用户作为当前用户,其中,在所述候选用户集合中存在第一级用户时,选择一个第一级用户作为当前用户,否则,从所述候选用户集合中选择具有最高提取优先级的用户,作为当前用户;

步骤132,提取当前用户在其用户子网上发布的内容并保存至所述收集结果数据库;

步骤133,根据所述用户间拓扑关系,确定当前用户的下一级用户,将当前用户从所述候选用户集合中删除,以及将所述下一级用户加入到所述候选用户集合;

步骤134,判断所述提取停止条件是否满足,若是,则结束流程;否则,返回步骤131。

本发明实施例针对所述候选用户集合中第一级用户外的其他用户,可以基于提取优先级来确定提取的先后顺序,优先提取价值较高的用户的内容。

在社交网络中,建立有拓扑连接的用户之间,通常具有较高的相关性。例如,对于微博平台来说,假设用户A是用户B的粉丝,那么用户A具有与用户B相类似的兴趣的可能性较大,因此他们发布的微博更有可能与相同的主题相关。因此,本发明实施例根据当前用户发布的内容及其用户标签,来计算当前用户的品质得分,并将该品质得分作为该当前用户的下一级用户的提取优先级。具体的计算过程可以在上述步骤133中执行,此时如图3所示,上述步骤133具体包括:

步骤1331,根据所述用户间拓扑关系,确定当前用户的下一级用户。

步骤1332,提取用于表示当前用户特性的用户标签,计算当前用户的用户标签与所述种子词之间的第一相关性,得到当前用户的标签品质;计算当前用户在其用户子网上发布的内容与所述第一搜索结果之间的第二相关性,得到当前用户的内容品质。

用户标签是用户自行为自己设置的标签,通常表示用户的特性,如兴趣、地理位置、年龄等分类。当然,社交网络也可以根据用户的行为特征为用户设置对应的用户标签。通常,用户标签也是通过用文本内容的形式,表示在该用户的用户子网上。本实施例可以从用户子网上提取用户的用户标签。若提取到的用户标签为空,则第一相关性可以表示为0;若当前用户发布的内容为空,则第二相关性可以表示为0。

这里,所述第一相关性可以通过所述用户标签对应的词向量与所述种子词对应的词向量之间的余弦距离来表征,该余弦距离越大,则表示第一相关性越高。本发明实施例提供的一种计算公式如下:

上述公式中,uq为当前用户的标签品质,显然第一相关性越高,标签品质的得分也越高,表示标签品质越好;label_vec为当前用户U的用户标签所对应的词向量,label_vec1,label_vec2,label_vec3…label_vecn为当前用户U的多个用户标签对应的特征向量,其中n是当前用户U的用户标签的数量。seed_vec是种子词的词向量,如果种子词包括多个搜索关键词,那么seed_vec是每个搜索关键词的词向量之和。label_vec、seed_vec可以通过现有技术的word2vec模型得到的,该模型可以预先通过社交网络的内容语料(如微博语料)训练得到。

这里,所述第二相关性可以通过第一词袋特征向量与第二词袋特征向量之间的余弦距离来表征,该余弦距离越大,则表示第二相关性越高。所述第一词袋特征向量是基于当前用户在其用户子网上发布的内容所构建的词袋特征向量,所述第二词袋特征向量是基于所述第一搜索结果构建的词袋特征向量。本发明实施例提供的第二相关性的一种计算公式如下:

上述公式中,mq为当前用户的内容品质,显然第二相关性越高,内容品质的得分也越高,表示内容品质也越好;b_vec为第一词袋特征向量;r_vec为第二词袋特征向量。

步骤1333,对当前用户的标签品质和内容品质进行融合,获得当前用户的下一级用户的提取优先级。这里,提取优先级与当前用户的标签品质和内容品质均正相关,即当前用户的标签品质越优,该提取优先级越高;当前用户的内容品质越优,该提取优先级越高。

步骤1334,将当前用户从所述候选用户集合中删除,以及将所述下一级用户加入到所述候选用户集合。

在将所述当前用户的下一级用户加入到所述候选用户集合中时,本发明实施例还可以根据所述第一相关性,初始化所述当前用户的下一级用户的标签品质;以及,根据所述第二相关性,初始化所述当前用户的下一级用户的内容品质,即,将当前用户的下一级用户的标签品质初始化为当前用户的第一相关性的值,将当前用户的下一级用户的内容品质初始化为当前用户的第二相关性的值。

在上述步骤1333中,对当前用户的标签品质和内容品质进行融合,得到下一级用户的提取优先级。这样,即使当前用户的用户标签为空或者发布内容为空,也可以利用另一品质因素来计算提取优先级。

本发明实施例提供的上述融合处理的一种实现方式为:直接计算当前用户的标签品质和内容品质的和值,将该和值作为当前用户的下一级用户的提取优先级。

本发明实施例提供的上述融合处理的另一种实现则可以按照以下方式进行:

1)根据当前用户的标签品质,在所述候选用户集合中的所有用户中的排名,得到当前用户的第一融合分量。这里,预先设定标签品质较好的用户所对应的第一融合分量的值,不小于标签品质较差的用户所对应的第一融合分量的值。

2)根据当前用户的内容品质,在所述候选用户集合的所有用户中的排名,得到当前用户的第二融合分量。这里,预先设定内容品质较好的用户所对应的第二融合分量的值,不小于内容品质较差的用户所对应的第二融合分量的值。

3)计算第一融合分量和第二融合分量的和值,得到所述当前用户的下一级用户的提取优先级。

按照以上计算方式,上述和值越大,则提取优先级越高。下面给出一个具体的融合示例:

假设预先定义:标签品质在所述候选用户集合中排名前M名的用户,其第一融合分量的值均为x;第M名之后(不包括第M名)的用户,其第一融合分量的值均为0;内容品质在所述候选用户集合中排名前L名的用户,其第二融合分量的值均为y;第L名之后(不包括第L名)的用户,其第二融合分量的值均为0。在融合处理时,根据当前用户的标签品质和内容品质在所述候选用户集合中的排名,确定第一融合分量和第二融合分量的值,然后,计算第一融合分量和第二融合分量的和值,得到所述当前用户的下一级用户的提取优先级。

以上仅是一种融合的示例。当采用相反的融合方式时,例如,当预先设定标签品质较好的用户所对应的第一融合分量的值,不大于标签品质较差的用户所对应的第一融合分量的值,以及,内容品质较好的用户所对应的第二融合分量的值,不大于内容品质较差的用户所对应的第二融合分量的值时,则可能是上述和值越小,提取优先级越高。

从以上所述可以看出,本发明实施例以上方法利用社交网络用户之间的内在联系,选择出待提取的用户,并根据用户的提取优先级,优先提取价值较高的用户发布的内容,从而能够更为有效的进行内容收集。

请参照图4,本发明实施例还提供了一种社交网络的信息收集装置的功能结构示意图,如图4所示,该信息收集装置40包括:

搜索单元41,用于基于种子词,搜索社交网络中包含有所述种子词的内容,获得第一搜索结果并保存到一收集结果数据库中;

候选用户生成单元42,用于确定发布所述第一搜索结果中的内容的用户,得到第一级用户,将所述第一级用户加入到一候选用户集合;

提取单元43,用于逐个提取所述候选用户集合中各用户在其用户子网上发布的内容,保存到所述收集结果数据库中,直至达到预设的提取停止条件,其中,在提取当前用户在其用户子网上发布的内容时,根据所述用户间拓扑关系,确定当前用户的下一级用户,并将所述下一级用户加入到所述候选用户集合。

请参照图5,根据本发明实施例的一个方面,以上信息收集装40中,所述提取单元43包括:

选择单元431,用于从所述候选用户集合中选择一个用户作为当前用户,其中,在所述候选用户集合中存在第一级用户时,选择一个第一级用户作为当前用户,否则,从所述候选用户集合中选择具有最高提取优先级的用户,作为当前用户;

收集单元432,用于提取当前用户在其用户子网上发布的内容并保存至所述收集结果数据库;

更新单元433,用于根据所述用户间拓扑关系,确定当前用户的下一级用户,将当前用户从所述候选用户集合中删除,以及将所述下一级用户加入到所述候选用户集合;

判断单元434,用于判断所述提取停止条件是否满足,若是,则结束内容提取;否则,继续触发所述选择单元431。

请参照图5,根据本发明实施例的又一方面,以上信息收集装置40中,所述更新单元433包括:

确定单元4331,用于根据所述用户间拓扑关系,确定当前用户的下一级用户;

优先级计算单元4332,用于提取用于表示当前用户特性的用户标签,计算当前用户的用户标签与所述种子词之间的第一相关性,得到当前用户的标签品质;计算当前用户在其用户子网上发布的内容与所述第一搜索结果之间的第二相关性,得到当前用户的内容品质;对当前用户的标签品质和内容品质进行融合,获得当前用户的下一级用户的提取优先级;

候选用户集合维护单元4333,用于在所述优先级计算单元获得当前用户的下一级用户的提取优先级后,将当前用户从所述候选用户集合中删除,以及将所述下一级用户加入到所述候选用户集合;

初始化单元4334,用于在所述候选用户集合维护单元4333将所述当前用户的下一级用户加入到所述候选用户集合之后,根据所述第一相关性,初始化所述当前用户的下一级用户的标签品质;以及,根据所述第二相关性,初始化所述当前用户的下一级用户的内容品质。

本发明实施例中,所述优先级计算单元4332可以通过多种不同的方式来计算当前用户的下一级用户的提取优先级。其中一种可能的计算方式为:所述优先级计算单元4332,具体用于计算当前用户的标签品质和内容品质的和值,将该和值作为所述当前用户的下一级用户的提取优先级。另一种可能的计算方式为:所述优先级计算单元4332,具体用于根据当前用户的标签品质,在所述候选用户集合中的所有用户中的排名,得到当前用户的第一融合分量;根据当前用户的内容品质,在所述候选用户集合的所有用户中的排名,得到当前用户的第二融合分量;计算第一融合分量和第二融合分量的和值,得到所述当前用户的下一级用户的提取优先级。

图7则给出了本发明实施例的信息收集装置的一种硬件结构示意图,该信息收集装置可以部署于计算机系统70中,该计算机系统70包括:

处理器71、RAM 72、ROM 73、硬盘74、输入设备75、显示设备76,以及将上述设备连接的总线结构77。

这里,输入设备75可以包括鼠标、键盘以及各种手写输入鼠标或触摸输入设备;显示设备76包括各种显示器和投影设备等;总线架构77可以是可以包括任意数量的互联的总线和桥;处理器71代表的一个或者多个处理器单元,以及由RAM 72和ROM 73代表的一个或者多个存储器的各种电路连接在一起。处理器71运算的中间结果可以存储在RAM 72中,最终得到的收集结果数据库的数据可以保存在硬盘74中。总线架构77还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起,这些都是本领域所公知的。因此,本文不再对其进行详细描述。

当处理器71调用并执行所述RAM 72和/或ROM 73123中所存储的程序和数据时,可以实现如下的功能模块:

搜索单元,用于基于种子词,搜索社交网络中包含有所述种子词的内容,获得第一搜索结果并保存到一收集结果数据库中;

候选用户生成单元,用于确定发布所述第一搜索结果中的内容的用户,得到第一级用户,将所述第一级用户加入到一候选用户集合;

提取单元,用于逐个提取所述候选用户集合中各用户在其用户子网上发布的内容,保存到所述收集结果数据库中,直至达到预设的提取停止条件,其中,在提取当前用户在其用户子网上发布的内容时,根据所述用户间拓扑关系,确定当前用户的下一级用户,并将所述下一级用户加入到所述候选用户集合。

综上,本发明实施例提供的信息收集方法及装置,利用社交网络用户之间的内在联系,选择出待提取的用户,并根据用户的提取优先级,优先提取价值较高的用户发布的内容,从而提高了社交网络的信息收集效率。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号