首页> 中国专利> 行业特征词确定方法和装置及行业文本聚类方法和服务器

行业特征词确定方法和装置及行业文本聚类方法和服务器

摘要

本发明实施例提供一种行业特征词确定方法和装置及行业文本聚类方法和服务器。该行业特征词确定方法包括:获取行业文本组;基于预设行业种子字确定策略,从所述行业文本组包含的文本中确定该文本对应的行业种子字;基于预设行业特征词提取策略,利用所述行业种子字,在对应的文本中提取该文本包含的行业特征词。本方案在获取到行业文本组之后,通过从行业文本组中确定行业种子字,由于行业种子字是根据行业文本组中每个字的参数以及对应字的参考参数确定的,保证了确定的行业种子字的可信度,同时避免了行业种子字的遗漏;再通过行业种子字从行业文本组中提取行业特征词,保证了提取的行业特征词的可信度。

著录项

  • 公开/公告号CN104391939A

    专利类型发明专利

  • 公开/公告日2015-03-04

    原文格式PDF

  • 申请/专利权人 北京锐安科技有限公司;

    申请/专利号CN201410682793.X

  • 发明设计人 王铎;

    申请日2014-11-24

  • 分类号G06F17/30;

  • 代理机构北京品源专利代理有限公司;

  • 代理人胡彬

  • 地址 100044 北京市海淀区中关村南大街乙56方圆大厦9层

  • 入库时间 2023-12-17 04:19:09

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-01-30

    授权

    授权

  • 2015-04-01

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141124

    实质审查的生效

  • 2015-03-04

    公开

    公开

说明书

技术领域

本发明实施例涉及信息聚类技术领域,尤其涉及一种行业特征词确定方法 和装置及行业文本聚类方法和服务器。

背景技术

聚类是对数据对象进行划分的一种过程,与分类不同的是,聚类所划分的 类是未知的,因此是一个“无监督学习”(unsupervised learning)过程,即聚类 不需要提供训练数据,倾向于数据的自然划分。

文本聚类(Text clustering)是聚类分析技术在文本处理领域的一种应用, 具体是将文本集合分组成多个类,使得在同一个类中的文本内容具有较高的相 似度,而不同类或簇中的文本内容差别较大。

然而现有技术中并没有提供确定行业特征词的处理方法。利用现有的聚类 方法,在对行业文本进行聚类时,由于很难确定行业特征词,导致行业文本聚 类结果的准确性低。

发明内容

本发明实施例提供一种行业特征词确定方法和装置,以提供行业特征词的 确定方式。

本发明实施例还提供一种行业文本聚类方法和服务器,以提供行业文本聚 类的实现方式。

第一方面,本发明实施例提供了一种行业特征词确定方法,包括:

获取行业文本组;

基于预设行业种子字确定策略,从所述行业文本组包含的文本中确定该文 本对应的行业种子字;

基于预设行业特征词提取策略,利用所述行业种子字,在对应的文本中提 取该文本包含的行业特征词。

第二方面,本发明实施例提供了一种行业特征词确定装置,包括:

文本获取模块,用于获取行业文本组;

种子字确定模块,用于基于预设行业种子字确定策略,从所述行业文本组 包含的文本中确定该文本对应的行业种子字;

特征词提取模块,用于基于预设行业特征词提取策略,利用所述行业种子 字,在对应的文本中提取该文本包含的行业特征词。

本发明实施例提供的行业特征词确定方法和装置,在获取到行业文本组之 后,通过从行业文本组中确定行业种子字,由于行业种子字是根据行业文本组 中每个字的参数以及对应字的参考参数确定的,保证了确定的行业种子字的可 信度,同时避免了行业种子字的遗漏;再通过行业种子字从行业文本组中提取 行业特征词,保证了提取的行业特征词的可信度。

第三方面,本发明实施例提供了一种行业文本聚类方法,包括:

采用本发明任意实施例提供的行业特征词确定方法确定行业文本组包含的 文本对应的行业特征词;

对于所述行业文本组中的任意两个文本,统计所述两个文本的共有行业特 征词的数量;如果所述两个文本的共有行业特征词的数量大于第一设定阈值, 则将所述两个文本聚类为一个主题,并确定该主题的对应的文本列表以及该主 题对应的行业特征词的集合;

对于任意两个主题,根据所述两个主题各自对应的行业特征词的集合,确 定所述两个主题是否相似,并根据确定结果,确定是否合并所述两个主题,以 及所述两个主题各自的文本列表和行业特征词的集合。

第四方面,本发明实施例提供了一种行业文本聚类服务器,包括:

本发明任意实施例提供的行业特征词确定装置,用于确定行业文本组包含 的文本对应的行业特征词;

文本聚类模块,用于对于所述行业文本组中的任意两个文本,统计所述两 个文本的共有行业特征词的数量;如果所述两个文本的共有行业特征词的数量 大于第一设定阈值,则将所述两个文本聚类为一个主题,并确定该主题的对应 的文本列表以及该主题对应的行业特征词的集合;

主题聚类模块,用于对于任意两个主题,根据所述两个主题各自对应的行 业特征词的集合,确定所述两个主题是否相似,并根据确定结果,确定是否合 并所述两个主题,以及所述两个主题各自的文本列表和行业特征词的集合。

本发明实施例提供的行业文本聚类方法和服务器,在确定行业文本组中每 个文本对应的行业特征词之后,以两个文本为单位,根据该两个文本的共有的 行业特征词的数量,确定该两个文本的相似度,并将相似的两个文本聚类合并 为一个主题,并确定该主题的对应的文本列表以及该主题对应的行业特征词的 集合;然后以两个主题为单位,确定该两个主题的相似度,并将相似的两个主 题聚类合并,同时合并该两个主题各自的文本列表和行业特征词的集合,从而 得到了行业包含的主题,以及各主题对应的文本列表和行业特征词的集合。

附图说明

为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单 地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获 得其他的附图。

图1为本发明实施例一提供的一种行业特征词确定方法的流程图;

图2为本发明实施例二提供的一种行业特征词确定方法的流程图;

图3为本发明实施例三提供的一种行业特征词确定装置的结构示意图;

图4为本发明实施例四提供的一种行业文本聚类方法的流程图;

图5为本发明实施例五提供的一种行业文本聚类服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明 实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部 分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅 用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通 技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发 明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发 明相关的部分而非全部内容。

实施例一

请参阅图1,为本发明实施例一提供的一种行业特征词确定方法的流程图。 本发明实施例的方法可以由配置以硬件和/或软件实现的行业特征词确定装置执 行,该实现装置典型的是配置于能够提供文本聚类服务的服务器中。

该方法包括:步骤110~步骤130。

步骤110、获取行业文本组。

本步骤中,行业文本组由多篇行业文本组成,行业可以是现有的各种行业, 例如,汽车、体育、财经和娱乐等。具体可以人工收集行业文本组,例如,人 工收集1000篇汽车行业的典型文章,组成行业为汽车的文本组;也可以从行业 网站中抓取多篇行业文本,组成行业文本组。

优选是按设定的时间间隔(例如,3个月)动态获取行业文本组,由于在不 同的时间段内,行业发展趋势的不同,导致不同时段对应的行业文本组不同, 因此,有利于动态跟踪行业种子字,相应得到随时间动态变化的行业特征词, 也即,有利于动态确定行业热点。

步骤120、基于预设行业种子字确定策略,从所述行业文本组包含的文本中 确定该文本对应的行业种子字。

其中,所述预设行业种子字确定策略与行业文本组中每个字的参数(例如, 出现次数或出现频率,逆文档频率,或是否是停用字等)以及对应字的参考参 数关联,从而在保证确定的行业种子字的可信度的同时,避免了行业种子字的 遗漏。

本步骤中,可以根据每个字在对应的文本中的出现频率,确定行业种子字; 也可以根据对文本中的停用字进行过滤,根据经过滤处理后的每个字在对应的 文本中的出现频率,确定行业种子字。

需要说明的是,行业种子字随行业发展而动态变化。以汽车行业为例进行 说明,随着《爸爸去哪儿》综艺节目的热播,相应的行业文本组中与汽车赞助 商“英菲尼迪”相关的文本增多,导致从这一时间段的行业文本中得到的行业 种子字包含“英”、“菲”、“尼”和“迪”;又如,随着《爸爸去哪儿》综艺节目 收官,以及《奔跑吧,兄弟》综艺节目的热播,相应的行业文本组中与汽车赞 助商“凌渡”相关的文本增多,导致从这一时间段的行业文本中得到的行业种 子字包含“凌”和“渡”;再如,随着混合动力系统的逐步发展,相应的行业文 本组中与“混合动力”相关的文本增多,导致从这一时间段的行业文本中得到 的行业种子字包含“混”、“合”、“动”和“力”。

步骤130、基于预设行业特征词提取策略,利用所述行业种子字,在对应的 文本中提取该文本包含的行业特征词。

如前所述,不同时段的行业文本组动态变化,导致相应的行业种子字和行 业特征词亦动态变化。

本实施例的技术方案,在获取到行业文本组之后,通过从行业文本组中确 定行业种子字,由于行业种子字是根据行业文本组中每个字的参数以及对应字 的参考参数确定的,保证了确定的行业种子字的可信度,同时避免了行业种子 字的遗漏;再通过行业种子字从行业文本组中提取行业特征词,保证了提取的 行业特征词的可信度。

作为基于预设行业特征词提取策略,利用所述行业种子字,在对应的文本 中提取该文本包含的行业特征词的一种优选的实施方式,具体可以包括下述操 作:

在所述行业文本组包含的文本中确定包含至少一个行业种子字的词;

如果所述包含至少一个行业种子字的词在该文本中的出现次数大于第二门 限值,且长度小于第三门限值,则将所述包含至少一个行业种子字的词确定为 该文本中的行业特征词。

通过本实施方式确定的行业特征词满足以下条件:不仅包含有至少一个行 业种子字,而且所述行业特征词在行业文本中的共现频率较高,且限制了所述 行业特征词的长度。

需要说明的是,如果长度太短,导致提取到的包含有至少一个行业种子字 的行业特征词的可信度低,例如,由一个行业种子字和一个停用字组成的词, 且该词在文本中的出现次数大于第二门限值;如果长度太长,导致原本可以作 为行业特征词的词因长度太长,在文本中共现频率太低,而没有被正确提取, 因此与词出现次数对应的门限值以及与词长度对应的门限值的合理设置,能够 提高根据行业种子字确定的行业特征词的可信度和准确率。

作为基于预设行业特征词提取策略,利用所述行业种子字,在对应的文本 中提取该文本包含的行业特征词的另一种优选的实施方式,具体可以包括下述 操作:

在所述行业文本组包含的文本中确定包含至少一个行业种子字的词;

如果所述包含至少一个行业种子字的词在该文本中的出现次数大于第二门 限值,且长度小于第三门限值,则将所述包含至少一个行业种子字的词确定为 该文本中的行业特征词;

判断所述包含至少一个行业种子字的词包含的子串在该文本中的出现次数 是否大于第四门限值;

若是,则将所述子串确定为该文本中的行业特征词;

其中,所述子串的长度大于等于2,且小于对应的包含至少一个行业种子字 的词的长度。

本实施方式与上述实施方式的区别在于:一方面,将包含有至少一个行业 种子字,行业文本中的词出现次数较高,且词长度符合要求的词作为行业特征 词;另一方面,通过子串对应的词出现次数和长度对确定的行业特征词的子串 进行进一步筛选,避免了行业特征词的遗漏。

例如,在确定行业特征词“凌渡车型好看”之后,对子串“凌渡”、“凌渡 车”、“凌渡车型”、“凌渡车型好”、“车型好”、“型好看”分别与第四门限值进 行比较,从而补充确定行业特征词。

实施例二

请参阅图2,为本发明实施例二提供的一种行业特征词确定方法的流程图。 本实施例在上述实施例的基础上,提供了基于预设行业种子字确定策略,从所 述行业文本组包含的文本中确定该文本对应的行业种子字这一操作的优选方 案。

该优选方案包括:步骤121~步骤123。

步骤121、对于所述行业文本组包含的文本,确定每个字在对应的文本中的 出现频率。

本步骤具体是对于每个文本,将该文本按字划分;统计每个字在该文本中 的出现次数,并统计该文本的文字总数;将每个字在该文本中的出现次数除以 该文本的文字总数,得到每个字在对应的文本中的出现频率。

步骤122、根据所述每个字在对应的文本中的出现频率,基于预设行业包含 的字的参考频率列表,确定该文本包含的候选种子字。

本步骤中,所述行业包含的字的参考频率列表通过下述操作获取:统计行 业文本组中每个字在整个行业文本组中的出现次数;统计行业文本组中各文本 对应的文字总数,得到行业文本组的文字总数;将每个字在整个行业文本组中 的出现次数除以行业文本组的文字总数,得到每个字对应的参考频率;根据每 个字对应的参考频率,建立行业包含的字的参考频率列表。

本步骤中,如果字在对应的文本中的出现频率与所述参考频率列表中对应 字的频率之比大于第一门限值,则将该字作为所述候选种子字。

步骤123、根据预设停用字列表过滤所述候选种子字,得到该文本包含的行 业种子字。

本步骤具体是根据停用字列表对所述候选种子字进行过滤,也即,通过在 候选种子字中剔除停用字,从而得到行业种子字。

本实施例的技术方案,对于行业文本组中的各文本,按字划分,确定每个 字在对应的文本中的出现频率,并根据参考频率列表中对应字的频率,确定候 选种子字,一方面能够避免候选种子字的遗漏,另一方面能够保证候选种子字 在行业文本中占有合适的共现频率;通过在候选种子字过滤掉停用字,提高了 得到的行业种子字的正确率。

实施例三

请参阅图3,为本发明实施例三提供的一种行业特征词确定装置的结构示意 图。该装置包括:文本获取模块310、种子字确定模块320和特征词提取模块 330。

其中,文本获取模块310用于获取行业文本组;种子字确定模块320用于 基于预设行业种子字确定策略,从所述行业文本组包含的文本中确定该文本对 应的行业种子字;特征词提取模块330用于基于预设行业特征词提取策略,利 用所述行业种子字,在对应的文本中提取该文本包含的行业特征词。

其中,所述预设行业种子字确定策略与行业文本组中每个字的参数(例如, 出现次数或出现频率,逆文档频率,或是否是停用字等)以及对应字的参考参 数关联,从而在保证确定的行业种子字的可信度的同时,避免了行业种子字的 遗漏。

本实施例的技术方案,在获取到行业文本组之后,通过从行业文本组中确 定行业种子字,由于行业种子字是根据行业文本组中每个字的参数以及对应字 的参考参数确定的,保证了确定的行业种子字的可信度,同时避免了行业种子 字的遗漏;再通过行业种子字从行业文本组中提取行业特征词,保证了提取的 行业特征词的可信度。

在上述方案中,种子字确定模块320优选包括:字出现频率确定单元、候 选种子字确定单元和行业种子字确定单元。

其中,字出现频率确定单元用于对于所述行业文本组包含的文本,确定每 个字在对应的文本中的出现频率;候选种子字确定单元用于根据所述每个字在 对应的文本中的出现频率,基于预设行业包含的字的参考频率列表,确定该文 本包含的候选种子字;行业种子字确定单元用于根据预设停用字列表过滤所述 候选种子字,得到该文本包含的行业种子字。

进一步地,候选种子字确定单元具体可以用于:如果字在对应的文本中的 出现频率与所述参考频率列表中对应字的频率之比大于第一门限值,则将该字 作为所述候选种子字。

作为本实施例的一种优选的实施方式,特征词提取模块330具体可以用于:

在所述行业文本组包含的文本中确定包含至少一个行业种子字的词;

如果所述包含至少一个行业种子字的词在该文本中的出现次数大于第二门 限值,且长度小于第三门限值,则将所述包含至少一个行业种子字的词确定为 该文本中的行业特征词。

作为本实施例的另一种优选的实施方式,特征词提取模块330具体可以用 于:

在所述行业文本组包含的文本中确定包含至少一个行业种子字的词;

如果所述包含至少一个行业种子字的词在该文本中的出现次数大于第二门 限值,且长度小于第三门限值,则将所述包含至少一个行业种子字的词确定为 该文本中的行业特征词;

判断所述包含至少一个行业种子字的词包含的子串在该文本中的出现次数 是否大于第四门限值;

若是,则将所述子串确定为该文本中的行业特征词;

其中,所述子串的长度大于等于2,且小于对应的包含至少一个行业种子字 的词的长度。

本发明实施例提供的行业特征词确定装置可执行本发明任意实施例所提供 的行业特征词确定方法,具备执行方法相应的功能模块和有益效果。

实施例四

请参阅图4,为本发明实施例四提供的一种行业文本聚类方法的流程图。本 发明实施例的方法可以由配置以硬件和/或软件实现的行业文本聚类服务器执 行。

该方法包括:步骤410~步骤430。

步骤410、确定行业文本组包含的文本对应的行业特征词,其中,所述行业 特征词采用前述实施例提供的行业特征词确定方法进行确定。

步骤420、对于所述行业文本组中的任意两个文本,统计所述两个文本的共 有行业特征词的数量;如果所述两个文本的共有行业特征词的数量大于第一设 定阈值,则将所述两个文本聚类为一个主题,并确定该主题的对应的文本列表 以及该主题对应的行业特征词的集合。

本步骤中,在确定行业文本组中每个文本对应的行业特征词之后,以两个 文本为单位,根据该两个文本的共有的行业特征词的数量,确定该两个文本的 相似度,并根据该两个文本的相似度确定结果,将相似的两个文本合并为一个 主题,并确定该主题的对应的文本列表以及该主题对应的行业特征词的集合。

具体地,可以将所述两个文本各自对应的行业特征词的集合确定为该主题 对应的行业特征词的集合。

步骤430、对于任意两个主题,根据所述两个主题各自对应的行业特征词的 集合,确定所述两个主题是否相似,并根据确定结果,确定是否合并所述两个 主题,以及所述两个主题各自的文本列表和行业特征词的集合。

本步骤中,以两个主题为单位,确定该两个主题的相似度,并将相似的两 个主题合并,同时合并两个主题各自的文本列表和行业特征词的集合。

优选地,如果所述两个主题共有的行业特征词的数量与包含的行业特征词 数量较少的主题中行业特征词数量的比值大于第二设定阈值,则确定所述两个 主题相似。

以体育行业为例进行说明。第一主题对应的行业特征词的集合为“上海, 世界,汇丰冠军赛,世锦赛”,第二主题对应的行业特征词的集合为“世界,汇 丰冠军赛,高尔夫,世锦赛”,第三主题对应的行业特征词的集合为“世界,高 尔夫”,其中,第一主题和第二主题共同包含“世界,汇丰冠军赛,世锦赛”, 并经过与第二设定阈值比较后,确定为相似主题,因此需要合并,合并后的主 题对应的行业特征词的集合为“上海,世界,汇丰冠军赛,世锦赛,高尔夫”; 第一主题与第三主题共同包含“世界,高尔夫”,并经过与第二设定阈值比较后, 确定为不相似主题,因此无需合并。

再以汽车行业为例进行说明。第一主题对应的行业特征词的集合为“空气 动力学性能,风阻系数,凌渡,油耗,卓越”,第二主题对应的行业特征词的集 合为“空气动力学性能,研发,风阻系数,凌渡”,第三主题对应的行业特征词 的集合为“凌渡,车型,空间”,其中,第一主题和第二主题共同包含“空气动 力学性能,研发,风阻系数,凌渡”,并经过与第二设定阈值比较后,确定为相 似主题,因此需要合并;第一主题与第三主题共同包含“凌渡”,并经过与第二 设定阈值比较后,确定为不相似主题,因此无需合并。

本实施例的技术方案,在确定行业文本组中每个文本对应的行业特征词之 后,以两个文本为单位,根据该两个文本的共有的行业特征词的数量,确定该 两个文本的相似度,并将相似的两个文本合并为一个主题,并确定该主题的对 应的文本列表以及该主题对应的行业特征词的集合;然后以两个主题为单位, 确定该两个主题的相似度,并将相似的两个主题合并,同时合并该两个主题各 自的文本列表和行业特征词的集合,从而得到了行业包含的主题,以及各主题 对应的文本列表和行业特征词的集合。

本实施例的技术方案可以发现与指定行业密切相关的主题类别,适用于发 现行业内热点话题,还适用于为客户端推送热点话题。

实施例五

请参阅图5,为本发明实施例五提供的一种行业文本聚类服务器的结构示意 图。该服务器包括:行业特征词确定装置510、文本聚类模块520和主题聚类模 块530。

其中,行业特征词确定装置510为前述实施例三提供的行业特征词确定装 置,用于确定行业文本组包含的文本对应的行业特征词;文本聚类模块520用 于对于所述行业文本组中的任意两个文本,统计所述两个文本的共有行业特征 词的数量;如果所述两个文本的共有行业特征词的数量大于第一设定阈值,则 将所述两个文本聚类为一个主题,并确定该主题的对应的文本列表以及该主题 对应的行业特征词的集合;主题聚类模块530用于对于任意两个主题,根据所 述两个主题各自对应的行业特征词的集合,确定所述两个主题是否相似,并根 据确定结果,确定是否合并所述两个主题,以及所述两个主题各自的文本列表 和行业特征词的集合。

本实施例的技术方案,在确定行业文本组中每个文本对应的行业特征词之 后,以两个文本为单位,根据该两个文本的共有的行业特征词的数量,确定该 两个文本的相似度,并将相似的两个文本合并为一个主题,并确定该主题的对 应的文本列表以及该主题对应的行业特征词的集合;然后以两个主题为单位, 确定该两个主题的相似度,并将相似的两个主题合并,同时合并该两个主题各 自的文本列表和行业特征词的集合,从而得到了行业包含的主题,以及各主题 对应的文本列表和行业特征词的集合。

在上述方案中,可以将所述两个文本各自对应的行业特征词的集合确定为 该主题对应的行业特征词的集合。

在上述方案中,主题聚类模块530具体可以用于:如果所述两个主题共有 的行业特征词的数量与包含的行业特征词数量较少的主题中行业特征词数量的 比值大于第二设定阈值,则确定所述两个主题相似。

本发明实施例提供的行业文本聚类服务器可执行本发明任意实施例所提供 的行业文本聚类方法,具备执行方法相应的功能模块和有益效果。

最后应说明的是:以上各实施例仅用于说明本发明的技术方案,而非对其 进行限制;实施例中优选的实施方式,并非对其进行限制,对于本领域技术人 员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的 任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号