首页> 中国专利> 商品评论文本的分析方法、装置、电子设备及存储介质

商品评论文本的分析方法、装置、电子设备及存储介质

摘要

本申请涉及一种商品评论文本的分析方法、装置、电子设备及存储介质,该方法包括:获取待分析的商品评论文本;对所述待分析的商品评论文本进行分词处理;基于预设主题库,对分词处理后的商品评论文本进行分析,以确定所述待分析的商品评论文本对应的主题标签,其中,所述预设主题库包括至少一种主题类型所涵盖的词组和所述词组对应的主题标签,所述主题标签用于表征用户对商品的所述主题类型的评定结果。这样,可以基于预设主题库,对每个待分析的商品评论文本进行分析,从而自动获取到每个待分析的商品评论文本对应的主题标签,无需人工对评论文本进行阅读并标注标签,从而节约了人力成本,且能够快速定位消费者的认知,有利于感知商品的共性。

著录项

  • 公开/公告号CN114580405A

    专利类型发明专利

  • 公开/公告日2022-06-03

    原文格式PDF

  • 申请/专利权人 珠海必要工业科技股份有限公司;

    申请/专利号CN202210173369.7

  • 发明设计人 史建睿;张然;

    申请日2022-02-24

  • 分类号G06F40/289;G06F40/216;G06F40/211;G06Q30/02;

  • 代理机构北京华夏泰和知识产权代理有限公司;

  • 代理人沈园园

  • 地址 519085 广东省珠海市唐家湾镇哈工大1号8栋

  • 入库时间 2023-06-19 15:32:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-03

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及电商领域,尤其涉及一种商品评论文本的分析方法、装置、电子设备及存储介质。

背景技术

随着电商领域的飞速发展,用户线上购买商品的行为比例正在逐年提升。目前,各大电商平台的商品质量参差不齐,商品的优缺点及用户的满意度,通常会在用户购买该商品后以评论文本的形式,沉淀于电商平台的底层数据中。然而,商品的优缺点往往需要通过人工对评论文本进行逐条阅读,以实现对商品的优缺点的甄别和分类,并且还需要人工对商品的优缺点进行记录、更新及维护,因此,现有的商品评论文本的分析方式,需要耗费大量的人力成本,且难以定位消费者的认知,不利于感知商品的共性问题。

发明内容

本申请提供了一种商品评论文本的分析方法、装置、电子设备及存储介质,以解决现有的商品评论文本的分析方式,需要耗费大量的人力成本,且难以定位消费者的认知,不利于感知商品的共性的问题。

第一方面,本申请提供了一种商品评论文本的分析方法,所述方法包括:

获取待分析的商品评论文本;

对所述待分析的商品评论文本进行分词处理;

基于预设主题库,对分词处理后的商品评论文本进行分析,以确定所述待分析的商品评论文本对应的主题标签,其中,所述预设主题库包括至少一种主题类型所涵盖的词组和所述词组对应的主题标签,所述主题标签用于表征用户对商品的所述主题类型的评定结果。

可选地,所述基于预设主题库,对分词处理后的商品评论文本进行分析,确定所述待分析的商品评论文本对应的主题标签,包括:

滤除分词处理后的商品评论文本中包含无效词组的短句或无效词组本身,得到有效词组;

从所述有效词组中获取与预设否定词相匹配的否定词;

基于所述预设主题库和所述否定词的数量和位置,确定所述待分析的商品评论文本对应的主题标签。

可选地,所述滤除分词处理后的商品评论文本中包含无效词组的短句或无效词组本身,得到有效词组,包括:

获取分词处理后的商品评论文本中与预设无效词组相匹配的无效词组,其中,所述预设无效词组包括以下至少一项:预设白名单词、预设停用词;

基于所述无效词组对分词处理后的商品评论文本进行过滤,得到有效词组。

可选地,所述基于所述预设主题库和所述否定词的数量和位置,确定所述待分析的商品评论文本对应的主题标签,包括:

基于所述预设主题库,确定所述有效词组中所涵盖的主题类型,以及每种主题类型对应的第一个词组和最后一个词组;

根据每种主题类型对应的第一个词组和最后一个词组,以及所述否定词的数量和位置,确定每种主题类型对应的主题标签;

将每种主题类型对应的主题标签,确定为所述待分析的商品评论文本对应的主题标签。

可选地,所述根据每种主题类型对应的第一个词组和最后一个词组,以及所述否定词的数量和位置,确定每种主题类型对应的主题标签,包括:

在第一主题类型对应的第一个词组之前不存在其他主题类型的情况下,获取所述有效词组中的第一个词组与所述第一主题类型对应的最后一个词组之间的否定词的数量,并根据获取到的否定词的数量确定用户对商品的所述第一主题类型的情感倾向,其中,所述第一主题类型为所述有效词组中所涵盖的主题类型中的任一主题类型;

在第一主题类型对应的第一个词组之前存在其他主题类型的情况下,获取所述第一主题类型的上一主题类型中的最后一个词组与所述第一主题类型对应的最后一个词组之间的否定词的数量,并根据获取到的否定词的数量确定用户对商品的所述第一主题类型的情感倾向;

基于用户对商品的所述第一主题类型的情感倾向,确定所述第一主题类型对应的主题标签。

可选地,所述根据获取到的否定词的数量确定用户对商品的所述第一主题类型的情感倾向,包括:

在获取到的否定词的数量为偶数,且获取到的否定词中的最后一个否定词后连接的词组表征为积极情感的情况下,确定所述用户对商品的所述第一主题类型的情感倾向为积极情感;

在获取到的否定词的数量为奇数,且获取到的否定词中的最后一个否定词后连接的词组表征为积极情感的情况下,确定所述用户对商品的所述第一主题类型的情感倾向为消极情感;

在获取到的否定词的数量为偶数,且获取到的否定词中的最后一个否定词后连接的词组表征为消极情感的情况下,确定所述用户对商品的所述第一主题类型的情感倾向为消极情感;

在获取到的否定词的数量为奇数,且获取到的否定词中的最后一个否定词后连接的词组表征为消极情感的情况下,确定所述用户对商品的所述第一主题类型的情感倾向为积极情感。

可选地,在所述基于预设主题库,对分词处理后的商品评论文本进行分析,确定所述待分析的商品评论文本对应的主题标签之后,所述方法还包括:

获取所述待分析的商品评论文本对应的评分等级;

基于所述待分析的商品评论文本对应的主题标签和所述评分等级,确定目标评定结果。

可选地,在所述基于所述待分析的商品评论文本对应的主题标签和所述评分等级,确定目标评定结果之后,所述方法还包括:

输出每个所述待分析的商品评论文本对应的主题标签和目标评定结果;

基于每个所述待分析的商品评论文本对应的主题标签和目标评定结果,生成报表展示页面;其中,所述报表展示页面包括如下至少一项:以商品为维度的主题标签报表、以商品类别为维度的主题标签报表、以商家为维度的主题标签报表、以主题标签生成时间为维度的主题标签报表、以不同目标评定结果为维度的商品评论文本和所述商品评论文本对应的订单信息。

可选地,在所述基于预设主题库,对分词处理后的商品评论文本进行分析,确定所述待分析的商品评论文本对应的主题标签之前,所述方法还包括:

基于历史评论文本语料,提取不同主题类型对应的高频词组;

对所述高频词组和所述高频词组对应的同义词进行词性标注;

基于不同主题类型对应的高频词组、所述高频词组对应的同义词和词性标注结果,构建所述预设主题库。

第二方面,本申请还提供了一种商品评论文本的分析装置,所述装置包括:

第一获取模块,用于获取待分析的商品评论文本;

分词处理模块,用于对所述待分析的商品评论文本进行分词处理;

分析模块,用于基于预设主题库,对分词处理后的商品评论文本进行分析,以确定所述待分析的商品评论文本对应的主题标签,其中,所述预设主题库包括至少一种主题类型所涵盖的词组和所述词组对应的主题标签,所述主题标签用于表征用户对商品的所述主题类型的评定结果。

第三方面,本申请还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现如第一方面任一项实施例所述的商品评论文本的分析方法的步骤。

第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的商品评论文本的分析方法的步骤。

在本申请实施例中,通过获取待分析的商品评论文本;对所述待分析的商品评论文本进行分词处理;基于预设主题库,对分词处理后的商品评论文本进行分析,以确定所述待分析的商品评论文本对应的主题标签,其中,所述预设主题库包括至少一种主题类型所涵盖的词组和所述词组对应的主题标签,所述主题标签用于表征用户对商品的所述主题类型的评定结果。通过这种方式,可以基于预设主题库,对每个待分析的商品评论文本进行分析,从而自动获取到每个待分析的商品评论文本对应的主题标签,无需人工对评论文本进行阅读并标注标签,从而节约了人力成本;还可以通过获得的主题标签了解消费者对商品的某一主题类型的评定结果,从而快速定位消费者对商品的评价(即对商品的某一主题类型的满意程度),有利于定位商品的优缺点,感知商品的共性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种商品评论文本的分析方法的流程示意图;

图2为本申请实施例提供的一种以商品为维度的商品质量对应的主题标签报表示意图;

图3为本申请实施例提供的一种以商品类别为维度的售后服务的主题标签报表示意图;

图4为本申请实施例提供的又一种商品评论文本的分析方法的流程示意图;

图5为本申请实施例提供的一种商品评论文本的分析装置的结构示意图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

参见图1,图1为本申请实施例提供的一种商品评论文本的分析方法的流程示意图。如图1所示,该商品评论文本的分析方法包括:

步骤101、获取待分析的商品评论文本。

具体地,上述待分析的商品评论文本可以为用户输入的简体中文、繁体中文、英文、日文、德文或者其他国家语言的文本,还可以是基于用户输入的中文、英文、日文、德文或者其他国家语言的语音进行语音识别后得到的文本,当然,还可以是通过其他方式获取到的关于商品的评论文本。该待分析的商品评论文本可以是指某一种类型商品的商品评论文本,还可以是汇集了多种类型商品的商品评论文本,本申请不做具体限定。

获取待分析的商品评论文本的方式,可以是实时获取,也可以是定时获取。当获取待分析的商品评论文本的方式是实时获取时,可以在接收到用户提交的商品评论文本时,将该商品评论文本作为待分析的商品评论文本,并实时地进行分析处理;当获取待分析的商品评论文本的方式是定时获取时,可以间隔预设时间周期对获取到的商品评论文本进行分析处理。这里的预设时间周期可以根据实际需要进行设置,如一小时、一天、一周等。

步骤102、对待分析的商品评论文本进行分词处理。

在该步骤中,可以将由一个或多个短句组成的待分析的商品评论文本,划分成一个个的词组,如划分成一个个名词、动词、形容词、副词、停用词等。例如,假设某条评论文本为“这款饼干口感偏甜,还带有奶香味”,那么可以将该评论文本分词处理成“这款/饼干/口感/偏甜,还/带有/奶香味”。这样,可以根据分词处理后的词组,对待分析的商品评论文本进行后续分析处理。需要说明的是,在分词处理后,还可以对分词处理得到的词组进行过滤,将其中的包含无效词组的短句或者无效词组本身过滤掉,保留有效词组,这样,不仅可以提高处理效率,还能提高处理结果的准确性。

步骤103、基于预设主题库,对分词处理后的商品评论文本进行分析,以确定待分析的商品评论文本对应的主题标签,其中,预设主题库包括至少一种主题类型所涵盖的词组和词组对应的主题标签,主题标签用于表征用户对商品的主题类型的评定结果。

具体地,上述预设主题库包括一个或多个主题类型所涵盖的词组和这些词组所对应的主题标签,其中,主题类型可以包括但不限于商品质量、质价比、售后服务、物流等类型,每个主题类型可以包括至少一个主题标签,不同的主题标签可以用于表征用户对商品的某一主题类型的不同的评定结果。每种主题类型对应的主题标签可以预先设置,每个主题标签所涵盖的词组也可以预先设置,这样,就可以根据这些词组,对分析处理后的评论文本进行分析,确定待分析的商品评论文本对应的主题标签。例如,当商品为食品时,商品质量这一主题类型可以包括“口感偏甜”、“口感偏咸”、“口感偏硬”、“口感偏软”、“味道一般”、“味道很好”等主题标签,其中,“口感偏甜”的主题标签可以涵盖“糖分高”、“偏甜”、“太甜”等词组,“口感偏咸”的主题标签可以涵盖“盐分高”、“偏咸”、“太咸”等词组,“口感偏硬”的主题标签可以涵盖“硬度高”、“硬邦邦”、“太硬”等词组,“口感偏软”的主题标签可以涵盖“硬度低”、“软软的”、“太软”等词组,“味道一般”的主题标签可以涵盖“一般”、“一般般”、“太一般”、“普通”等词组,“味道很好”的主题标签可以涵盖“太好吃”、“很好吃”、“好吃”等词组,具体如下表所示:

假设某一食品的商品评论文本中存在“偏甜”的词组或者其同义词时,即可分析出该食品的口感偏甜,并给出对应的主题标签。

在本实施例中,可以基于预设主题库,对每个待分析的商品评论文本进行分析,从而自动获取到每个待分析的商品评论文本对应的主题标签,无需人工对评论文本进行阅读并标注标签,从而节约了人力成本;还可以通过获得的主题标签了解消费者对商品的某一主题类型的评定结果,从而快速定位消费者对商品的评价(即对商品的某一主题类型的满意程度),有利于定位商品的优缺点,感知商品的共性。

进一步地,上述步骤103、基于预设主题库,对分词处理后的商品评论文本进行分析,以确定待分析的商品评论文本对应的主题标签,包括:

滤除分词处理后的商品评论文本中包含无效词组的短句或无效词组本身,得到有效词组;

从有效词组中获取与预设否定词相匹配的否定词;

基于预设主题库和否定词的数量和位置,确定待分析的商品评论文本对应的主题标签。

具体地,上述无效词组是指对于分析商品评论文本中用户的情感倾向没有实际意义的词组,该无效词组可以是停用词(是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词),如“啊”、“了”、“哎”、“吧”、“并”等;还可以是包含白名单词的短句中的词组或者白名单词本身,其中,白名单词(即为不具有情感表征的组)具体可以为具有假设语义的词,如“假设”、“假如”、“假使”、“如果”、“要是”、“倘若”等,也可以是特殊语境下的词,如“还没用”、“没用过”等。如果无效词组为停用词,则可以直接滤除该停用词;如果无效词组为白名单词,则可以直接滤除该白名单词所在的短句或者白名单词本身。以下对包含白名单词的场景进行举例说明,例如,假设某一评论文本为“这件衣服整体不错,如果能有小装饰就更好了”,由于后半句包含白名单词“如果”,因此可以将后半句过滤掉,分析时不予考虑。

上述预设否定词为预先设置的具有否定意义的词组,如“不”、“否”、“没有”、“无”等等,这样,可以从有效词组中获取与预设否定词相匹配的否定词,从而确定出有效词组中否定词的数量和位置,进而结合预设主题库,确定待分析的商品评论文本对应的主题标签。

在本实施例中,通过过滤掉分词处理后的商品评论文本中的无效词组,可以提高处理效率和处理结果的准确性,同时,通过预设否定词对有效词组中的否定词进行匹配,有利于正确理解用户的情感倾向,避免遗漏或者错误理解用户情感。

进一步地,上述步骤、滤除分词处理后的商品评论文本中包含无效词组的短句或无效词组本身,得到有效词组,包括:

获取分词处理后的商品评论文本中与预设无效词组相匹配的无效词组,其中,预设无效词组包括以下至少一项:预设白名单词、预设停用词;

基于无效词组对分词处理后的商品评论文本进行过滤,得到有效词组。

具体地,上述无效词组是指商品评论文本中不表征用户情感倾向的词组,该无效词组可以是停用词,如“啊”、“了”、“哎”、“吧”、“并”等;还可以是包含白名单词的短句中的词组或者白名单词本身,其中,白名单词可以为具有假设语义的词,如“假设”、“假如”、“假使”、“如果”、“要是”、“倘若”等,也可以是特殊语境下的词,如“还没用”、“没用过”等。如果无效词组为停用词,则可以直接滤除该停用词;如果无效词组为白名单词,则可以直接滤除该白名单词所在的短句或者白名单词本身。以下对包含白名单词的场景进行举例说明,例如,假设某一评论文本为“这件衣服整体不错,如果能有小装饰就更好了”,由于后半句包含白名单词“如果”,因此可以将后半句过滤掉,分析时不予考虑。

需要说明的是,上述预设无效词组可以根据实际需要预先设置,这样,在得到分词处理后的商品评论文本后,可以将其与预设无效词组进行匹配,从而得到无效组词并进行过滤。

在本实施例中,通过过滤掉分词处理后的商品评论文本中的无效词组,可以提高处理效率和处理结果的准确性。

进一步地,上述步骤、基于预设主题库和否定词的数量和位置,确定待分析的商品评论文本对应的主题标签,包括:

基于预设主题库,确定有效词组中所涵盖的主题类型,以及每种主题类型对应的第一个词组和最后一个词组;

根据每种主题类型对应的第一个词组和最后一个词组,以及否词定的数量和位置,确定每种主题类型对应的主题标签;

将每种主题类型对应的主题标签,确定为待分析的商品评论文本对应的主题标签。

在一实施例中,可以基于预设主题库,对有效词组中的名词、动词或者形容词进行匹配分析,从而确定出该有效词组中所包含的主题类型,也就是说,可以将该有效词组分别与预设主题库中的每种主题类型中所涵盖的词组进行匹配,从而确定出该有效词组中所包含的主题类型,以及每种主题类型对应的第一个词组和最后一个词组。进而根据否定词与每种主题类型对应的第一个词组和最后一个词组位置,确定实际需要考虑的否定词的数量,以及实际需要考虑的否定词与每种主题类型对应的第一个词组和最后一个词组位置关系,根据否定词的数量和位置进一步确定出用户对商品的该主题类型的情感倾向,最终确定出每种主题类型对应的主题标签。

例如,假设某一商品评论文本为“这款手机的外观真好看,性价比很高,就是送货不及时”,根据预设主题库,可以得到商品质量、质价比和物流3个主题类型,并且可以知道商品质量的主题类型中不包含否定词,且“好看”表征为积极情感;质价比的主题类型中不包含否定词,且“很高”表征为积极情感;物流的主题类型中包含一个否定词,且“及时”表征为积极情感,且该否定词位于物流的主题类型的第一个词组和最后一个词组之间,因此,商品质量的主题类型和质价比的主题类型最终表征为积极情感,而物流的主题类型最终表征为消极情感。

在本实施例中,可以基于预设主题库和获取到的否定词的数量和位置,确定出用户对商品的情感倾向,进而确定出待分析的商品评论文本中的主题标签,有利于定位消费者的认知,不利于感知商品的共性。

进一步地,上述步骤、根据每种主题类型对应的第一个词组和最后一个词组,以及否定词的数量和位置,确定每种主题类型对应的主题标签,包括:

在第一主题类型对应的第一个词组之前不存在其他主题类型的情况下,获取有效词组中的第一个词组与第一主题类型对应的最后一个词组之间的否定词的数量,并根据获取到的否定词的数量确定用户对商品的第一主题类型的情感倾向,其中,第一主题类型为有效词组中所涵盖的主题类型中的任一主题类型;

在第一主题类型对应的第一个词组之前存在其他主题类型的情况下,获取第一主题类型的上一主题类型中的最后一个词组与第一主题类型对应的最后一个词组之间的否定词的数量,并根据获取到的否定词的数量确定用户对商品的第一主题类型的情感倾向;

基于用户对商品的第一主题类型的情感倾向,确定第一主题类型对应的主题标签。

在一实施例中,对于有效词组中所涵盖的主题类型中的第一主题类型,可以先判断第一主题类型对应的第一个词组之前是否存在其他主题类型,如果第一主题类型对应的第一个词组之前不存在其他主题类型,则可以获取有效词组中的第一个词组与第一主题类型对应的最后一个词组之间的否定词的数量,并根据获取到的否定词的数量和否定词后连接的形容词的情感倾向,来确定用户对商品的第一主题类型的情感倾向;如果第一主题类型对应的第一个词组之前存在其他主题类型,则可以获取第一主题类型的上一主题类型中的最后一个词组与第一主题类型对应的最后一个词组之间的否定词的数量,并根据获取到的否定词的数量和否定词后连接的形容词的情感倾向,来确定用户对商品的第一主题类型的情感倾向,进而根据用户对商品的第一主题类型的情感倾向确定出第一主题类型对应的主题标签。需要说明的是,对于有效词组中所涵盖的主题类型中的任一主题类型,均可以采用上述方式来确定用户的情感倾向。

例如,假设某一商品评论文本为“皮肤没有过敏,但客服服务态度不是很好,而且价格也不算太便宜”,这样,存在主题类型1-商品质量:主题类型1的首字(即第一个字)=皮肤,主题类型1的尾字(即最后)=过敏;主题类型2-售后服务:主题类型2的首字=客服,主题类型2的尾字=很好;主题类型3-质价比:主题类型3的首字=价格,主题类型3的尾字=便宜。对于主题类型1,其前面没有其他主题类型,故只需考虑“皮肤”和“过敏”之间的否定词,最终确定出的主题类型1对应的否定词的数量为1个;对于主题类型2,其前面存在其他主题类型,故只需考虑“过敏”和“很好”之间的否定词,最终确定出的主题类型2对应的否定词的数量为1个;对于主题类型3,其前面存在其他主题类型,故只需考虑“很好”和“便宜”之间的否定词,最终确定出的主题类型3对应的否定词的数量为1个。这样,可以根据每个主题类型对应的否定词的数量和否定词后的词组的情感倾向,确定每个主题类型对应的主题标签。

在本实施例中,可以根据每种主题类型对应的第一个词组和最后一个词组,以及否定词的数量和位置,可以准确理解商品评论文本中用户的情感倾向,得到准确的主题标签。

进一步地,上述步骤、根据获取到的否定词的数量确定用户对商品的第一主题类型的情感倾向,包括:

在获取到的否定词的数量为偶数,且获取到的否定词中的最后一个否定词后连接的词组表征为积极情感的情况下,确定用户对商品的第一主题类型的情感倾向为积极情感;

在获取到的否定词的数量为奇数,且获取到的否定词中的最后一个否定词后连接的词组表征为积极情感的情况下,确定用户对商品的第一主题类型的情感倾向为消极情感;

在获取到的否定词的数量为偶数,且获取到的否定词中的最后一个否定词后连接的词组表征为消极情感的情况下,确定用户对商品的第一主题类型的情感倾向为消极情感;

在获取到的否定词的数量为奇数,且获取到的否定词中的最后一个否定词后连接的词组表征为消极情感的情况下,确定用户对商品的第一主题类型的情感倾向为积极情感。

在一实施例中,可以根据获取到的否定词的数量和与否定词连接的形容词的感情倾向,来确定用户对商品的第一主题类型的情感倾向。具体地,如果某一主题标签对应的否定词的数量为偶数,则用户对商品的第一主题类型的情感倾向与最后一个否定词后连接的词组表征为情感倾向一致。如果某一主题标签对应的否定词的数量为奇数,则用户对商品的第一主题类型的情感倾向与最后一个否定词后连接的词组表征为情感倾向不一致。

例如,假设用户对润肤霜的评论文本为“滋润不油腻”,其中,“滋润”表示积极情感,“油腻”表示消极情感,并且“滋润”前没有否定词,而“油腻”前带有奇数个否定词,因而这句评论文本为积极情感+否定词*消极情感=积极情感。但是如果否定词位于句子最后,其后面没有跟任何词组,那么可以不考虑该否定词。

在本实施例中,可以根据获取到的否定词的数量和与否定词连接的形容词的感情倾向,来确定用户对商品的第一主题类型的情感倾向,可以准确理解商品评论文本中用户的情感倾向,得到准确的主题标签。

进一步地,在上述步骤103、基于预设主题库,对分词处理后的商品评论文本进行分析,确定待分析的商品评论文本对应的主题标签之后,该方法还包括:

获取待分析的商品评论文本对应的评分等级;

基于待分析的商品评论文本对应的主题标签和评分等级,确定目标评定结果。

在一实施例中,在获取到待分析的商品评论文本的主题标签后,还可以获取待分析的商品评论文本的评分等级,通过评分等级对评定结果进行修正,得到目标评定结果。具体地,获取评分等级的方式可以是从用户购买商品后提交的评分等级中得到,如电商平台可以将用户的评分等级划分为5个等级,分别用1分、2分、3分、4分和5分表示,不同的分值表示用户不同的评分等级。当主题标签仅仅表征为积极情感,且评分等级较高时,可以确定目标评定结果为绝对好评;当主题标签表征为消极情感,但评分等级较高时,可以确定目标评定结果为疑似差评;当主题标签表征为消极情感,且评分等级较低时,可以确定目标评定结果为差评等。这样,可以通过评分等级对评价文本的评定结果进行修正,还可以在用户违背个人意愿给与五星好评后,真实体现出商品的缺点和不足。

进一步地,在上述步骤、基于待分析的商品评论文本对应的主题标签和评分等级,确定目标评定结果之后,该方法还包括:

输出每个待分析的商品评论文本对应的主题标签和目标评定结果;

基于每个待分析的商品评论文本对应的主题标签和目标评定结果,生成报表展示页面;其中,报表展示页面包括如下至少一项:以商品为维度的主题标签报表、以商品类别为维度的主题标签报表、以商家为维度的主题标签报表、以主题标签生成时间为维度的主题标签报表、以不同目标评定结果为维度的商品评论文本和商品评论文本对应的订单信息。

在一实施例中,在确定目标评定结果后,还可以生成报表展示页面,该报表展示页面用于对分析结果进行展示。具体地,该报表展示页面可以展示的内容包括但不限于:以商品为维度的主题标签报表、以商品类别为维度的主题标签报表、以商家为维度的主题标签报表、以主题标签生成时间为维度的主题标签报表、以不同目标评定结果为维度的商品评论文本和该商品评论文本对应的订单信息等。上述这些报表和信息可以是以柱状图、折线图或者表格等形式进行展示。例如,以商品为维度的商品质量对应的主题标签报表,其横坐标为商品名称,纵坐标为商品质量对应的各主题标签的数量,具体如图2所示;以商品类别为维度的售后服务的主题标签报表,其横坐标为商品类型,纵坐标为售后服务对应的各主题标签的数量,具体如图3所示等等。这样可以获取到每个商品、每个商品类别、每个商家命中的主题标签,了解消费者对每个商品、每个商品类别、每个商家的满意程度;还可以基于时间筛选近期产生的主题标签,了解每个商品、每个商品类别、每个商家的主题类型的变化情况,根据报表观测数据趋势,获知产品满意度,并根据管理的品类重点,筛选带有重点关注标签的评论信息;还可以快速筛选出表征积极情感和消极情感的商品评论文本及该商品评论文本对应的订单信息,如绝对差评的订单信息等,有利于跟进问题的产生及解决。

进一步地,在上述步骤103、基于预设主题库,对分词处理后的商品评论文本进行分析,以确定待分析的商品评论文本对应的主题标签之前,该方法还包括:

基于历史评论文本语料,提取不同主题类型对应的高频词组;

对高频词组和高频词组对应的同义词进行词性标注;

基于不同主题类型对应的高频词组、高频词组对应的同义词和词性标注结果,构建预设主题库。

具体地,上述高频词组为商品评价文本中经常出现的词组,该高频词组包括如下至少一种词性:动词、名词、形容词和副词。上述预设主题库包括一个或多个主题类型所涵盖的词组和这些词组所对应的主题标签,其中,主题类型可以包括但不限于商品质量、质价比、售后服务、物流等类型,每个主题类型可以包括至少一个主题标签,不同的主题标签可以用于表征用户对商品的某一主题类型的不同的评定结果。每种主题类型对应的主题标签可以预先设置,每种主题标签所涵盖的词组也可以预先设置,这样,就可以根据这些词组,对分析处理后的评论文本进行分析,确定待分析的商品评论文本对应的主题标签。例如,当商品为食品时,商品质量这一主题类型可以包括“口感偏甜”、“口感偏咸”、“口感偏硬”、“口感偏软”、“味道一般”、“味道很好”等主题标签,当检测到待分析的商品评论文本中存在“偏甜”的词组或者其同义词时,即可分析出该食品的口感偏甜,并给出对应的主题标签。

在本实施例中,可以根据实际需要预先构建预设主题库,再基于预设主题库,对每个待分析的商品评论文本进行分析,从而自动获取到每个待分析的商品评论文本对应的主题标签,无需人工对评论文本进行阅读并标注标签,从而节约了人力成本,且能够快速定位消费者的认知,有利于感知商品的共性。

参见图4,图4为本申请实施例提供的又一种商品评论文本的分析方法的流程示意图,如图4所示,该商品评论文本的分析方法可以包括如下步骤:

步骤401、获取待分析的商品评论文本,并对待分析的商品评论文本进行分词处理;

步骤402、滤除分词处理后的商品评论文本中的无效词组,得到有效词组;

在该步骤中,可以将包含预设白名单词的短句进行过滤,使其不参与主题命中。

步骤403、从有效词组中获取与预设否定词相匹配的否定词;

步骤404、基于预设主题库和否定词的数量和位置,确定待分析的商品评论文本对应的主题标签;

在该步骤中,需要判断有效词组中是否包含否定词,如果包含否定词,还需要进一步判断每个主题类型对应的否定词的数量,通过每个主题类型对应的否定词的数量和否定词后的形容词,确定该主题类型的情感倾向,从而确定每个主题类型的主题标签。

步骤405、获取待分析的商品评论文本对应的评分等级;

其中,该评分等级可以分为1、2、3、4、5五个等级,其中4和5等级可以理解为好评,1、2和3等级可以理解为中差评,判断该待分析的商品评论文本的评分等级和主题标签的情感倾向是否一致;

步骤406、基于待分析的商品评论文本对应的主题标签和评分等级,确定目标评定结果;

在该步骤中,如果该待分析的商品评论文本的评分等级为好评,且主题标签的情感倾向均为积极情感,则目标评定结果为绝对好评;如果该待分析的商品评论文本的评分等级为好评,但存在情感倾向为消极情感的主题标签,则目标评定结果为疑似差评;如果该待分析的商品评论文本的评分等级为中差评,且不论是否存在任意情感的主题标签,目标评定结果均为差评。

步骤407、输出每个待分析的商品评论文本对应的主题标签和目标评定结果;

步骤408、基于每个待分析的商品评论文本对应的主题标签和目标评定结果,生成报表展示页面;其中,报表展示页面包括如下至少一项:以商品为维度的主题标签报表、以商品类别为维度的主题标签报表、以商家为维度的主题标签报表、以主题标签生成时间为维度的主题标签报表、以不同目标评定结果为维度的商品评论文本和商品评论文本对应的订单信息。

在本实施例中,可以个性化定制预设主题库,对评论文本加以甄别并输出的结果;通过处理器运算,降低了人工对于增量及存量的评论文本的分析成本,对品质管理人员定位产品优缺点提供了高效的渠道,并可持续观测用户满意度的变化趋势。

除此之外,本申请实施例还提供了一种商品评论文本的分析装置。参见图5,图5为本申请实施例提供的一种商品评论文本的分析装置的结构示意图。如图5所示,该商品评论文本的分析装置500包括:

第一获取模块501,用于获取待分析的商品评论文本;

分词处理模块502,用于对待分析的商品评论文本进行分词处理;

分析模块503,用于基于预设主题库,对分词处理后的商品评论文本进行分析,以确定待分析的商品评论文本对应的主题标签,其中,预设主题库包括至少一种主题类型所涵盖的词组和词组对应的主题标签,主题标签用于表征用户对商品的主题类型的评定结果。

可选地,分析模块503包括:

滤除子模块,用于滤除分词处理后的商品评论文本中包含无效词组的短句或无效词组本身,得到有效词组;

获取子模块,用于从有效词组中获取与预设否定词相匹配的否定词;

确定子模块,用于基于预设主题库和否定词的数量和位置,确定待分析的商品评论文本对应的主题标签。

可选地,滤除子模块包括:

获取单元,用于获取分词处理后的商品评论文本中与预设无效词组相匹配的无效词组,其中,预设无效词组包括以下至少一项:预设白名单词、预设停用词;

过滤单元,用于基于无效词组对分词处理后的商品评论文本进行过滤,得到有效词组。

可选地,确定子模块包括:

第一确定单元,用于基于预设主题库,确定有效词组中所涵盖的主题类型,以及每种主题类型对应的第一个词组和最后一个词组;

第二确定单元,用于根据每种主题类型对应的第一个词组和最后一个词组,以及否定词的数量和位置,确定每种主题类型对应的主题标签;

第三确定单元,用于将每种主题类型对应的主题标签,确定为待分析的商品评论文本对应的主题标签。

可选地,第二确定单元具体用于:

在第一主题类型对应的第一个词组之前不存在其他主题类型的情况下,获取有效词组中的第一个词组与第一主题类型对应的最后一个词组之间的否定词的数量,并根据获取到的否定词的数量确定用户对商品的第一主题类型的情感倾向,其中,第一主题类型为有效词组中所涵盖的主题类型中的任一主题类型;

在第一主题类型对应的第一个词组之前存在其他主题类型的情况下,获取第一主题类型的上一主题类型中的最后一个词组与第一主题类型对应的最后一个词组之间的否定词的数量,并根据获取到的否定词的数量确定用户对商品的第一主题类型的情感倾向;

基于用户对商品的第一主题类型的情感倾向,确定第一主题类型对应的主题标签。

可选地,第二确定单元还具体用于:

在获取到的否定词的数量为偶数,且获取到的否定词中的最后一个否定词后连接的词组表征为积极情感的情况下,确定用户对商品的第一主题类型的情感倾向为积极情感;

在获取到的否定词的数量为奇数,且获取到的否定词中的最后一个否定词后连接的词组表征为积极情感的情况下,确定用户对商品的第一主题类型的情感倾向为消极情感;

在获取到的否定词的数量为偶数,且获取到的否定词中的最后一个否定词后连接的词组表征为消极情感的情况下,确定用户对商品的第一主题类型的情感倾向为消极情感;

在获取到的否定词的数量为奇数,且获取到的否定词中的最后一个否定词后连接的词组表征为消极情感的情况下,确定用户对商品的第一主题类型的情感倾向为积极情感。

可选地,该商品评论文本的分析装置500还包括:

第二获取模块,用于获取待分析的商品评论文本对应的评分等级;

确定模块,用于基于待分析的商品评论文本对应的主题标签和评分等级,确定目标评定结果。

可选地,该商品评论文本的分析装置500还包括:

输出模块,用于输出每个待分析的商品评论文本对应的主题标签和目标评定结果;

生成模块,用于基于每个待分析的商品评论文本对应的主题标签和目标评定结果,生成报表展示页面;其中,报表展示页面包括如下至少一项:以商品为维度的主题标签报表、以商品类别为维度的主题标签报表、以商家为维度的主题标签报表、以主题标签生成时间为维度的主题标签报表、以不同目标评定结果为维度的商品评论文本和商品评论文本对应的订单信息。

可选地,该商品评论文本的分析装置500还包括:

提取模块,用于基于历史评论文本语料,提取不同主题类型对应的高频词组,高频词组包括如下至少一种词性:动词、名词、形容词和副词;

标注模块,用于对高频词组和高频词组对应的同义词进行词性标注;

构建模块,用于基于不同主题类型对应的高频词组、高频词组对应的同义词和词性标注结果,构建预设主题库。

需要说明的是,该商品评论文本的分析装置500可以实现如前述任意一个方法实施例提供的商品评论文本的分析方法的步骤,且能达到相同的技术效果,在此不再一一赘述。

如图6所示,本申请实施例提供了一种电子设备,包括处理器611、通信接口612、存储器613和通信总线614,其中,处理器611,通信接口612,存储器613通过通信总线614完成相互间的通信,

存储器613,用于存放计算机程序;

在本申请一个实施例中,处理器611,用于执行存储器613上所存放的程序时,实现前述任意一个方法实施例提供的商品评论文本的分析方法,包括:

获取待分析的商品评论文本;

对待分析的商品评论文本进行分词处理;

基于预设主题库,对分词处理后的商品评论文本进行分析,以确定待分析的商品评论文本对应的主题标签,其中,预设主题库包括至少一种主题类型所涵盖的词组和词组对应的主题标签,主题标签用于表征用户对商品的主题类型的评定结果。

本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前述任意一个方法实施例提供的商品评论文本的分析方法的步骤。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号