首页> 中国专利> 基于文本的行业类别识别方法及装置

基于文本的行业类别识别方法及装置

摘要

本发明公开了一种基于文本的行业类别识别方法及装置,通过分别提取待识别行业的文本中的中文文本词向量集合和英文文本词向量集合,再根据英文文本词向量集合的长度和中文文本词向量集合的长度,去确定与待识别行业的文本匹配的行业类别,能够提高识别出与文本匹配的行业类别的准确性,有利于提高对不同行业的文本(如广告文本)中蕴含的品牌和品类进行探索的准确性及可靠性,以及无需对英文文本进行翻译,直接使用英文行业识别模型对英文文本进行分析,能够提高英文文本的分析效率以及准确性。

著录项

  • 公开/公告号CN113836305A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利权人 有米科技股份有限公司;

    申请/专利号CN202111150329.2

  • 发明设计人 黄于晏;陈莹莹;李展铿;

    申请日2021-09-29

  • 分类号G06F16/35(20190101);G06F40/30(20200101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构44202 广州三环专利商标代理有限公司;

  • 代理人肖宇扬;江银会

  • 地址 510006 广东省广州市番禺区小谷围街青蓝街26号1701

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本发明涉及文本处理技术领域,尤其涉及一种基于文本的行业类别识别方法及装置。

背景技术

互联网广告作为不同行业的商家、企业宣传、营销产品的重要渠道,常包含对应宣传产品的品牌、名称以及相关的介绍、成分、标语,有效对其进行行业分类,有助于对不同行业的广告形式和广告中蕴含的品牌和品类进行探索。

随着近年来国际品牌企业对中国市场的重视,广告中涌现的英文类品牌和商品也越来越多。因其传播的对象、发布平台与表现手段的不同,对应的广告文本数据具有中英文数据糅合、长度不一、口语化、模板化(如相同的句式嵌入不同的品牌或者单品名)和掺杂网络流行语等特点,使得难以确定或者无法准确确定与广告文本数据匹配的行业类别。

发明内容

本发明所要解决的技术问题在于,提供一种基于文本的行业类别识别方法及装置,能够准确确定与广告文本数据匹配的行业类别。

为了解决上述技术问题,本发明第一方面公开了一种基于文本的行业类别识别方法,所述方法包括:

对确定出的待识别行业的目标文本执行中英文信息提取操作,得到所述目标文本的中文文本词向量集合和所述目标文本的英文文本词向量集合;

确定所述中文文本词向量集合的长度和所述英文文本词向量集合的长度;

根据所述中文文本词向量集合的长度和所述英文文本词向量集合的长度,确定与所述目标文本匹配的行业类别。

作为一种可选的实施方式,在本发明第一方面中,所述根据所述中文文本词向量集合的长度和所述英文文本词向量集合的长度确定与所述目标文本匹配的行业类别,包括:

判断所述中文文本词向量集合的长度和所述英文文本词向量集合的长度是否均小于对应的确定出的长度阈值,得到判断结果;

根据所述判断结果,匹配与所述判断结果对应的行业识别模型,根据所述判断结果对应的行业识别模型,分析所述目标文本,得到与所述目标文本匹配的行业类别。

作为一种可选的实施方式,在本发明第一方面中,所述根据所述判断结果,匹配与所述判断结果对应的行业识别模型,包括:

当所述判断结果用于表示所述中文文本词向量集合的长度小于所述中文文本词向量集合对应的长度阈值且所述英文文本词向量集合的长度大于等于所述英文文本词向量集合对应的长度阈值时,确定所述英文文本词向量集合对应的英文行业识别模型,作为与所述判断结果对应的行业识别模型;

当所述判断结果用于表示所述中文文本词向量集合的长度大于等于所述中文文本词向量集合对应的长度阈值且所述英文文本词向量集合的长度小于所述英文文本词向量集合对应的长度阈值时,确定所述中文文本词向量集合对应的中文行业识别模型,作为与所述判断结果对应的行业识别模型;

当所述判断结果用于表示所述中文文本词向量集合的长度大于等于所述中文文本词向量集合对应的长度阈值且所述英文文本词向量集合的长度大于等于所述英文文本词向量集合对应的长度阈值时,确定所述中文文本词向量集合对应的中文行业识别模型及所述英文文本词向量集合对应的英文行业识别模型,作为与所述判断结果对应的行业识别模型。

作为一种可选的实施方式,在本发明第一方面中,所述根据所述判断结果对应的行业识别模型,分析所述待识别行业的目标文本,得到与所述目标文本匹配的行业类别,包括:

当与所述判断结果对应的行业识别模型为目标行业识别模型时,将目标文本词向量集合输入所述目标行业识别模型进行分析,并获取所述目标行业识别模型输出的行业分析结果,作为与所述目标文本匹配的行业类别;

其中,当所述目标行业识别模型为所述中文行业识别模型时,所述目标文本词向量集合为所述中文文本词向量集合;

当所述目标行业识别模型为所述英文行业识别模型时,所述目标文本词向量集合为所述英文文本词向量集合。

作为一种可选的实施方式,在本发明第一方面中,所述根据所述判断结果对应的行业识别模型,分析所述待识别行业的目标文本,得到与所述目标文本匹配的行业类别,包括:

当与所述判断结果对应的行业识别模型为所述中文行业识别模型及所述英文行业识别模型时,分别将所述中文文本词向量集合输入所述中文行业识别模型进行分析与将所述英文文本词向量集合输入所述英文行业识别模型进行分析,得到所述中文行业识别模型输出的第一行业分析结果及所述英文行业识别模型输出的第二行业分析结果;

根据所述第一行业分析结果和所述第二行业分析结果,确定与所述目标文本匹配的行业类别,所述第一行业分析结果和所述第二行业分析结果均包括对应的行业标签。

作为一种可选的实施方式,在本发明第一方面中,所述根据所述第一行业分析结果和所述第二行业分析结果,确定与所述目标文本匹配的行业类别,包括:

确定所述第一行业分析结果包括的行业标签和所述第二行业分析结果包括的行业标签之间的相似度;

判断所述相似度是否大于等于确定出的相似度阈值时,当判断出所述相似度大于等于所述相似度阈值时,确定所述第一行业分析结果包括的行业标签和/或所述第二行业分析结果包括的行业标签,作为与所述目标文本匹配的行业类别。

作为一种可选的实施方式,在本发明第一方面中,所述第一行业分析结果和所述第二行业分析结果均还包括对应的行业标签的置信度;

所述方法还包括:

当判断出所述相似度小于所述相似度阈值时,确定所述中文行业识别模型对应的权重因子和所述英文行业识别模型对应的权重因子;

计算所述第一行业分析结果包括的行业标签的置信度与所述中文行业识别模型对应的权重因子,得到第一行业标签分值,计算所述第二行业分析结果包括的行业标签的置信度与所述英文行业识别模型对应的权重因子,得到第二行业标签分值;

比较所述第一行业标签分值与所述第二行业标签分值,得到行业标签分值比较结果;

当所述行业标签分值比较结果用于表示所述第一行业标签分值大于所述第二行业标签分值时,确定所述第一行业分析结果包括的行业标签,为与所述目标文本匹配的行业类别;

当所述行业标签分值比较结果用于表示所述第一行业标签分值小于所述第二行业标签分值时,确定所述第二行业分析结果包括的行业标签,为与所述目标文本匹配的行业类别。

作为一种可选的实施方式,在本发明第一方面中,所述对确定出的待识别行业的目标文本执行中英文信息提取操作,得到所述目标文本的中文文本词向量集合和所述目标文本的英文文本词向量集合之前,所述方法还包括:

在确定出待识别行业的目标文本之后,对所述目标文本执行预处理操作,得到预处理后的目标文本;

其中,所述对确定出的待识别行业的目标文本执行中英文信息提取操作,得到所述目标文本的中文文本词向量集合和所述目标文本的英文文本词向量集合,包括:

对预处理后的所述目标文本执行中英文信息提取操作,得到所述目标文本的中文文本词向量集合和所述目标文本的英文文本词向量集合;

其中,所述预处理操作包括删除不满足信息条件的信息的操作和/或词形变换操作。

本发明第二方面公开了一种基于文本的行业类别识别装置,所述装置包括:

提取模块,用于对确定出的待识别行业的目标文本执行中英文信息提取操作,得到所述目标文本的中文文本词向量集合和英文文本词向量集合;

第一确定模块,用于确定所述中文文本词向量集合的长度和所述英文文本词向量集合的长度;

第二确定模块,用于根据所述中文文本词向量集合的长度和所述英文文本词向量集合的长度确定与所述目标文本匹配的行业类别。

作为一种可选的实施方式,在本发明第二方面中,所述第二确定模块,包括:

判断子模块,用于判断所述中文文本词向量集合的长度和所述英文文本词向量集合的长度是否均小于对应的确定出的长度阈值,得到判断结果;

匹配子模块,用于根据所述判断结果,匹配与所述判断结果对应的行业识别模型;

分析子模块,用于根据所述判断结果对应的行业识别模型,分析所述目标文本,得到与所述目标文本匹配的行业类别。

作为一种可选的实施方式,在本发明第二方面中,所述匹配子模块根据所述判断结果,匹配与所述判断结果对应的行业识别模型的方式具体为:

当所述判断结果用于表示所述中文文本词向量集合的长度小于所述中文文本词向量集合对应的长度阈值且所述英文文本词向量集合的长度大于等于所述英文文本词向量集合对应的长度阈值时,确定所述英文文本词向量集合对应的英文行业识别模型,作为与所述判断结果对应的行业识别模型;

当所述判断结果用于表示所述中文文本词向量集合的长度大于等于所述中文文本词向量集合对应的长度阈值且所述英文文本词向量集合的长度小于所述英文文本词向量集合对应的长度阈值时,确定所述中文文本词向量集合对应的中文行业识别模型,作为与所述判断结果对应的行业识别模型;

当所述判断结果用于表示所述中文文本词向量集合的长度大于等于所述中文文本词向量集合对应的长度阈值且所述英文文本词向量集合的长度大于等于所述英文文本词向量集合对应的长度阈值时,确定所述中文文本词向量集合对应的中文行业识别模型及所述英文文本词向量集合对应的英文行业识别模型,作为与所述判断结果对应的行业识别模型。

作为一种可选的实施方式,在本发明第二方面中,所述分析子模块根据所述判断结果对应的行业识别模型,分析所述待识别行业的目标文本,得到与所述目标文本匹配的行业类别的方式具体为:

当与所述判断结果对应的行业识别模型为目标行业识别模型时,将目标文本词向量集合输入所述目标行业识别模型进行分析,并获取所述目标行业识别模型输出的行业分析结果,作为与所述目标文本匹配的行业类别;

其中,当所述目标行业识别模型为所述中文行业识别模型时,所述目标文本词向量集合为所述中文文本词向量集合;

当所述目标行业识别模型为所述英文行业识别模型时,所述目标文本词向量集合为所述英文文本词向量集合。

作为一种可选的实施方式,在本发明第二方面中,所述分析子模块根据所述判断结果对应的行业识别模型,分析所述待识别行业的目标文本,得到与所述目标文本匹配的行业类别的方式具体为:

当与所述判断结果对应的行业识别模型为所述中文行业识别模型及所述英文行业识别模型时,分别将所述中文文本词向量集合输入所述中文行业识别模型进行分析与将所述英文文本词向量集合输入所述英文行业识别模型进行分析,得到所述中文行业识别模型输出的第一行业分析结果及所述英文行业识别模型输出的第二行业分析结果;

根据所述第一行业分析结果和所述第二行业分析结果,确定与所述目标文本匹配的行业类别,所述第一行业分析结果和所述第二行业分析结果均包括对应的行业标签。

作为一种可选的实施方式,在本发明第二方面中,所述分析子模块根据所述第一行业分析结果和所述第二行业分析结果,确定与所述目标文本匹配的行业类别的方式具体为:

确定所述第一行业分析结果包括的行业标签和所述第二行业分析结果包括的行业标签之间的相似度;

判断所述相似度是否大于等于确定出的相似度阈值时,当判断出所述相似度大于等于所述相似度阈值时,确定所述第一行业分析结果包括的行业标签和/或所述第二行业分析结果包括的行业标签,作为与所述目标文本匹配的行业类别。

作为一种可选的实施方式,在本发明第二方面中,所述第一行业分析结果和所述第二行业分析结果均还包括对应的行业标签的置信度;

第一确定模块,还用于当所述第二确定模块判断出所述相似度小于所述相似度阈值时,确定所述中文行业识别模型对应的权重因子和所述英文行业识别模型对应的权重因子;

所述装置还包括:

计算模块,用于计算所述第一行业分析结果包括的行业标签的置信度与所述中文行业识别模型对应的权重因子,得到第一行业标签分值;

所述计算模块,还用于计算所述第二行业分析结果包括的行业标签的置信度与所述英文行业识别模型对应的权重因子,得到第二行业标签分值;

比较模块,用于比较所述第一行业标签分值与所述第二行业标签分值,得到行业标签分值比较结果;

所述第一确定模块,还用于当所述行业标签分值比较结果用于表示所述第一行业标签分值大于所述第二行业标签分值时,确定所述第一行业分析结果包括的行业标签,为与所述目标文本匹配的行业类别;

所述第一确定模块,还用于当所述行业标签分值比较结果用于表示所述第一行业标签分值小于所述第二行业标签分值时,确定所述第二行业分析结果包括的行业标签,为与所述目标文本匹配的行业类别。

作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:

预处理模块,用于在所述提取模块对确定出的待识别行业的目标文本执行中英文信息提取操作,得到所述目标文本的中文文本词向量集合和所述目标文本的英文文本词向量集合之前,在确定出待识别行业的目标文本之后,对所述目标文本执行预处理操作,得到预处理后的目标文本;

其中,所述提取模块对确定出的待识别行业的目标文本执行中英文信息提取操作,得到所述目标文本的中文文本词向量集合和所述目标文本的英文文本词向量集合的方式具体为:

对预处理后的所述目标文本执行中英文信息提取操作,得到所述目标文本的中文文本词向量集合和所述目标文本的英文文本词向量集合;

其中,所述预处理操作包括删除不满足信息条件的信息的操作和/或词形变换操作。

本发明第三方面公开了另一种基于文本的行业类别识别装置,所述装置包括:

存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于文本的行业类别识别方法中的部分或全部步骤。

本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于文本的行业类别识别方法中的部分或全部步骤。

与现有技术相比,本发明实施例具有以下有益效果:

本发明实施例中,对确定出的待识别行业的目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合;确定中文文本词向量集合的长度和英文文本词向量集合的长度;根据中文文本词向量集合的长度和英文文本词向量集合的长度,确定与目标文本匹配的行业类别。可见,实施本发明通过分别提取待识别行业的文本中的中文文本词向量集合和英文文本词向量集合,再根据英文文本词向量集合的长度和中文文本词向量集合的长度,去确定与待识别行业的文本匹配的行业类别,能够提高识别出与文本匹配的行业类别的准确性,有利于提高对不同行业的文本(如广告文本)中蕴含的品牌和品类进行探索的准确性及可靠性,以及无需对英文文本进行翻译,直接使用英文行业识别模型对英文文本进行分析,能够提高英文文本的分析效率以及准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于文本的行业类别识别方法的流程示意图;

图2是本发明实施例公开的另一种基于文本的行业类别识别方法的流程示意图;

图3是本发明实施例公开的一种基于文本的行业类别识别装置的结构示意图;

图4是本发明实施例公开的另一种基于文本的行业类别识别装置的结构示意图;

图5是本发明实施例公开的又一种基于文本的行业类别识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种基于文本的行业类别识别方法及装置,能够通过分别提取待识别行业的文本中的中文文本词向量集合和英文文本词向量集合,再根据英文文本词向量集合的长度和中文文本词向量集合的长度,去确定与待识别行业的文本匹配的行业类别,能够提高识别出与文本匹配的行业类别的准确性,有利于提高对不同行业的文本(如广告文本)中蕴含的品牌和品类进行探索的准确性及可靠性,以及无需对英文文本进行翻译,直接使用英文行业识别模型对英文文本进行分析,能够提高英文文本的分析效率以及准确性。以下分别进行详细说明。

实施例一

请参阅图1,图1是本发明实施例公开的一种基于文本的行业类别识别方法的流程示意图。其中,图1所描述的方法可以应用于基于文本的行业类别识别装置中,基于文本的行业类别识别装置包括文本处理服务器、文本处理系统、文本处理平台以及文本处理设备中的任意一种,本发明实施例不做限定。如图1所示,该基于文本的行业类别识别方法可以包括以下操作:

101、对确定出的待识别行业的目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合。

本发明实施例中,行业包括但不限于游戏行业、金融行业、文化娱乐行业、综合电商行业、教育培训行业、医疗健康行业、餐饮食品行业、房地产行业、生活服务行业、结婚服务行业、社交婚恋行业、汽车行业、数码家电行业、美妆个护行业、服饰鞋包行业、母婴儿童行业、食品饮料行业、智能家居行业以及建材行业等中的至少一种。进一步的,行业包括多个子行业,例如:游戏行业包括角色扮演行业、动作冒险行业、策略游戏行业、模拟经营行业、棋牌游戏行业、体育竞速行业、飞行射击行业、休闲益智行业、其他游戏行业中的一种或多种。

本发明实施例中,待识别行业的目标文本为上述所有行业中其中一种行业的文本。可选的,待识别行业的目标文本包括任何需要识别其行业的广告文本或者非广告文本。进一步的,待识别行业的目标文本包括识别商品或非商品的包装得到的文本、从存储单元中获取到的待识别行业的文本以及用户输入的待识别行业的文本中的一种或者多种。又进一步的,待识别行业的目标文本还包括标题、产品说明(如:使用说明)及店铺信息(如:店铺名称)中的一种或者多种。

102、确定中文文本词向量集合的长度和英文文本词向量集合的长度。

本发明实施例中,可选的,计算中文文本词向量集合中词语的数量代表该中文文本词向量集合的长度,计算英文文本词向量集合中词语的数量代表该英文文本词向量集合的长度。其中,需要说明的是,当词向量集合中不包含任何词语或字时,表示该词向量集合为空,即长度为零。

103、根据中文文本词向量集合的长度和英文文本词向量集合的长度,确定与目标文本匹配的行业类别。

可见,实施图1所描述的方法能够通过分别提取待识别行业的文本中的中文文本词向量集合和英文文本词向量集合,再根据英文文本词向量集合的长度和中文文本词向量集合的长度,去确定与待识别行业的文本匹配的行业类别,能够提高识别出与文本匹配的行业类别的准确性,有利于提高对不同行业的文本(如广告文本)中蕴含的品牌和品类进行探索的准确性及可靠性,以及无需对英文文本进行翻译,直接使用英文行业识别模型对英文文本进行分析,能够提高英文文本的分析效率以及准确性。

在一个可选的实施例中,该方法还可以包括以下步骤:

确定待识别行业的目标文本中每个词语在待识别行业的目标文本中出现位置和/或字形复杂度;

根据每个词语在待识别行业的目标文本中出现位置和/或字形复杂度,修正中文文本词向量集合的长度和英文文本词向量集合的长度,并触发执行步骤103。

需要说明的是,字形越复杂,所对应的词集合的长度越长;出现位置越靠近目标文本的开头位置或者结尾位置,所对应的词集合的长度越长。

可见,该可选的实施例通过结合待识别行业的文本中词语在该文本中出现位置、字形复杂度修正中文文本词集合的长度、英文文本词集合的长度,能够精准地确定词集合的长度,从而有利于进一步提高行业识别模型匹配的准确性及可靠性,进而有利于进一步提高识别与文本匹配的行业类别的准确性及可靠性。

在另一个可选的实施例中,根据中文文本词向量集合的长度和英文文本词向量集合的长度确定与目标文本匹配的行业类别,包括:

判断中文文本词向量集合的长度和英文文本词向量集合的长度是否均小于对应的确定出的长度阈值,得到判断结果;

根据判断结果,匹配与判断结果对应的行业识别模型,根据判断结果对应的行业识别模型,分析目标文本,得到与目标文本匹配的行业类别。

该可选的实施例中,中文文本和英文文本所对应的长度阈值,可以是相同的,也可以是不同的。

可见,该可选的实施例通过将中文文本词向量集合的长度和英文文本词向量集合的长度与对应的长度阈值进行比较,能够准确地确定出匹配的行业类别识别模型对文本进行分析,提高了分析待识别行业的文本的准确性及可靠性,从而快速且能够提高识别出与文本匹配的行业类别的准确性。

在又一个可选的实施例中,根据判断结果匹配,与判断结果对应的行业识别模型,包括:

当判断结果用于表示中文文本词向量集合的长度小于中文文本词向量集合对应的长度阈值且英文文本词向量集合的长度大于等于英文文本词向量集合对应的长度阈值时,确定英文文本词向量集合对应的英文行业识别模型,作为与判断结果对应的行业识别模型;

当判断结果用于表示中文文本词向量集合的长度大于等于中文文本词向量集合对应的长度阈值且英文文本词向量集合的长度小于英文文本词向量集合对应的长度阈值时,确定中文文本词向量集合对应的中文行业识别模型,作为与判断结果对应的行业识别模型;

当判断结果用于表示中文文本词向量集合的长度大于等于中文文本词向量集合对应的长度阈值且英文文本词向量集合的长度大于等于英文文本词向量集合对应的长度阈值时,确定中文文本词向量集合对应的中文行业识别模型及英文文本词向量集合对应的英文行业识别模型,作为与判断结果对应的行业识别模型。

可见,该可选的实施例通过将中文文本词向量集合的长度和英文文本词向量集合的长度与对应的长度阈值进行比较得到的结果,确定中文行业识别模型和/或英文行业识别模型,能够提高确定出所需行业识别模型的准确性及可靠性,从而有利于进一步提高确定与文本匹配的行业类别的准确性及可靠性。

在又一个可选的实施例中,根据判断结果对应的行业识别模型,分析待识别行业的目标文本,得到与目标文本匹配的行业类别,包括:

当与判断结果对应的行业识别模型为目标行业识别模型时,将目标文本词向量集合输入目标行业识别模型进行分析,并获取目标行业识别模型输出的行业分析结果,作为与目标文本匹配的行业类别;

其中,当目标行业识别模型为中文行业识别模型时,目标文本词向量集合为中文文本词向量集合;

当目标行业识别模型为英文行业识别模型时,目标文本词向量集合为英文文本词向量集合。

该可选的实施例中,可选的,与目标文本匹配的行业类别可以为一级行业,也可以为二级行业,还可以为一级行业与二级行业,例如:与A文本匹配的行业类别为游戏行业,也可以为游戏行业的下一级行业:角色扮演行业,还可以为游戏行业与角色扮演行业。

可见,该可选的实施例通过将词集合输入到对应的行业识别模型中进行分析,能够提高文本的分析准确性及可靠性,从而进一步提高与文本匹配的行业类别的识别准确性及可靠性。

在又一个可选的实施例中,根据判断结果对应的行业识别模型,分析待识别行业的目标文本,得到与目标文本匹配的行业类别,包括:

当与判断结果对应的行业识别模型为中文行业识别模型及英文行业识别模型时,分别将中文文本词向量集合输入中文行业识别模型进行分析与将英文文本词向量集合输入英文行业识别模型进行分析,得到中文行业识别模型输出的第一行业分析结果及英文行业识别模型输出的第二行业分析结果;

根据第一行业分析结果和第二行业分析结果,确定与目标文本匹配的行业类别,第一行业分析结果和第二行业分析结果均包括对应的行业标签。

该可选的实施例中,根据第一行业分析结果和第二行业分析结果,确定与目标文本匹配的行业类别,包括:

确定第一行业分析结果包括的行业标签和第二行业分析结果包括的行业标签之间的相似度;

判断相似度是否大于等于确定出的相似度阈值(如98%)时,当判断出相似度大于等于相似度阈值时,确定第一行业分析结果包括的行业标签和/或第二行业分析结果包括的行业标签,作为与目标文本匹配的行业类别。

该可选的实施例中,可选的,当第一行业分析结果包括的行业标签的数量大于等于1,第二行业分析结果包括的行业标签的数量大于等于1。其中,当两者中其中一者的行业标签的数量大于1时,确定相似度最大的行业标签为与目标文本匹配的行业类别。这样能够提高识别出与文本匹配的行业类别的准确性及可靠性。

可见,该可选的实施例通过将中文行业识别模型输出的行业分析结果与英文行业识别模型输出的行业分析结果进行比较分析,并在分析出两者的行业标签的相似度较大时,将两者的行业标签确定为与文本匹配的行业类别,能够提高确定出与文本匹配的行业类别的准确性及可靠性。

在又一个可选的实施例中,第一行业分析结果和第二行业分析结果均还包括对应的行业标签的置信度;该方法还可以包括以下步骤:

当判断出相似度小于相似度阈值时,确定中文行业识别模型对应的权重因子和英文行业识别模型对应的权重因子;

计算第一行业分析结果包括的行业标签的置信度与中文行业识别模型对应的权重因子,得到第一行业标签分值,计算第二行业分析结果包括的行业标签的置信度与英文行业识别模型对应的权重因子,得到第二行业标签分值;

比较第一行业标签分值与第二行业标签分值,得到行业标签分值比较结果;

当行业标签分值比较结果用于表示第一行业标签分值大于第二行业标签分值时,确定第一行业分析结果包括的行业标签,为目标文本所属的行业;

当行业标签分值比较结果用于表示第一行业标签分值小于第二行业标签分值时,确定第二行业分析结果包括的行业标签,为目标文本所属的行业。

该可选的实施例中,可选的,当行业标签分值比较结果用于表示第一行业标签分值等于第二行业标签分值时,识别出与文本匹配的行业类别为空。

可见,该可选的实施例在判断出中文行业识别模型输出的行业分析结果与英文行业识别模型输出的行业分析结果两者的行业标签的相似度较小时,进一步通过计算行业标签的置信度与对应的行业识别模型的权重因子的行业标签分值,并将行业标签分值较大对应的行业标签确定为与文本匹配的行业类别,能够进一步提高确定出准确的与文本匹配的行业类别的概率。

在又一个可选的实施例中,该方法还可以包括以下操作:

当行业标签分值比较结果用于表示第一行业标签分值等于第二行业标签分值时,确定中文行业识别模型对应的行业标签的出现频次和英文行业识别模型对应的行业标签的出现频次;

将两者中出现频次大的行业标签,确定为与文本匹配的行业类别。

该可选的实施例中,每个行业标签的出现频次会预先记录起来,且每个行业标签的出现频次随着该行业标签的出现次数变化而变化。其中,每个行业标签的出现频次可以是该行业标签的累积出现频次或者预设时长段内(如一个月内)的出现频次,其中,预设时长段内的截止时刻为得到行业标签分值比较结果的时刻或者其他合理时刻。

可见,该可选的实施例在判断出中文文本对应的行业标签分值等于英文文本对应的行业标签分值时,进一步通过将出现频次较大的行业标签确定为与文本匹配的行业类别,能够进一步提高确定出准确的与文本匹配的行业类别的概率。

在又一个可选的实施例中,确定中文行业识别模型对应的权重因子和英文行业识别模型对应的权重因子,包括:

确定英文文本词集合中所有词语的信息和中文文本词集合中所有词语的信息,并根据英文文本词集合中所有词语的信息和中文文本词集合中所有词语的信息,确定中文行业识别模型对应的权重因子和英文行业识别模型对应的权重因子,其中,两者所有词语的信息均包括所有词语在目标文本中的占比、所有词语在目标文本的出现位置、所有词语的字形复杂度、所有词语的语义信息中的一种或多种。

可见,该可选的实施例通过结合词语的多种信息,如:在文本中的占比、字形复杂度等,确定中文行业识别模型对应的权重因子和英文行业识别模型对应的权重因子,能够提高权重因子的确定精准性及可靠性,从而进一步提高确定出准确的与文本匹配的行业类别的概率及可靠性。

在又一个可选的实施例中,该方法还可以包括以下操作:

基于确定出的样本文本的词集合中每个词的特征向量,确定样本文本的词集合中每个词的目标向量,每个词的目标向量中包含与该词相邻词的语义信息,样本文本的词集合包括样本文本的中文文本词集合或样本文本的英文文本词集合;

将样本文本的词集合中每个词的目标向量执行连接操作,得到目标样本文本;

基于目标样本文本训练确定出的基础行业识别模型,得到训练后的行业识别模型,行业识别模型用于分析待识别行业的文本,得到待识别行业的文本匹配的行业类别。

本发明实施例中,当样本文本的词集合为样本文本的中文文本词集合时,训练后的行业识别模型为中文行业识别模型;当样本文本的词集合为样本文本的英文文本词集合时,训练后的行业识别模型为英文行业识别模型。

可见,该可选的实施例通过分开使用中文文本训练行业识别模型和使用英文文本训练行业识别模型,得到中文文本行业识别模型和英文文本行业识别模型,减少了使用中英文文本共同训练行业识别模型时由于可能存在引入中英文之间的关联而导致训练出低准确性甚至无法训练出行业识别模型的发生情况,能够提高行业识别模型的训练准确性以及可靠性,确定出了具有适用性强的行业识别模型,以及通过将文本中每个词且与该词相邻词的语义信息加载到该词的特征向量上,有利于进一步提高行业识别模型的训练精准性、可靠性以及适用性,有利于提高识别出与文本匹配的行业类别的准确性及效率。

在又一个可选的实施例中,基于确定出的样本文本的词集合中每个词的特征向量,确定样本文本的词集合中每个词的目标向量,包括:

基于确定出的瓶颈层对样本文本的词集合中每个词的特征向量执行行业分类学习操作,得到样本文本的词集合中每个词的瓶颈向量;

将样本文本的词集合中每个词的瓶颈向量输入确定出的双向编码器堆栈进行分析,得到样本文本的词集合中每个词的目标向量。

该可选的实施例中,每个词的目标向量的维度小于每个词的瓶颈向量的维度,如:每个词的特征向量的维度为512维,每个词的目标向量的维度为64维。

该可选的实施例中,双向编码器包括但不限于基于双向QRNN编码器、双向LSTM编码器、双向GRU编码器、双向PQRNN编码器、transformer编码器中的一种确定出的编码器。需要说明的是,优先选择双向QRNN编码器,通过双向QRNN编码器能够提高对样本文本中多个词并行处理的能力,提高了行业识别模型的训练效率,有利于提高行业识别模型的更新迭代速度。

可见,该可选的实施例通过瓶颈层对样本文本中每个词的特征向量执行行业分类操作,能够在保留关键特征的情况下,降低词的特征向量的维度,有利于提高样本文本中每个词对应的上下文语义信息的提取准确性以及效率,从而有利于提高包含相邻词的语义信息的词的向量的确定精准性及效率。

实施例二

请参阅图2,图2是本发明实施例公开的另一种基于文本的行业类别识别方法的流程示意图。其中,图2所描述的方法可以应用于基于文本的行业类别识别装置中,基于文本的行业类别识别装置包括文本处理服务器、文本处理系统、文本处理平台以及文本处理设备中的任意一种,本发明实施例不做限定。如图2所示,该基于文本的行业类别识别方法可以包括以下操作:

201、在确定出待识别行业的目标文本之后,对目标文本执行预处理操作,得到预处理后的目标文本。

本发明实施例中,可选的,预处理操作包括删除不满足信息条件的信息的操作和/或词形变换操作。具体的,不满足信息条件的信息包括但不限于http响应头、非中英文的特殊字符(如:/、&等)、停用词(如:a、an、the等);词形变换包括词形还原和/或词干提取,如:did变换为do,cities变换为city。其中,当目标文本中存在http响应头时,使用正则表达式删除目标文本中的http响应头。

202、对预处理后的目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合。

203、确定中文文本词向量集合的长度和英文文本词向量集合的长度。

204、根据中文文本词向量集合的长度和英文文本词向量集合的长度,确定与目标文本匹配的行业类别。

本发明实施例中,需要说明的是,针对步骤202-步骤204的其他相关描述,请参阅实施例一中针对步骤101-步骤103的详细描述,本发明实施例不再赘述。

可见,实施图2所描述的方法能够通过分别提取待识别行业的文本中的中文文本词向量集合和英文文本词向量集合,再根据英文文本词向量集合的长度和中文文本词向量集合的长度,去确定与待识别行业的文本匹配的行业类别,能够提高识别出与文本匹配的行业类别的准确性,有利于提高对不同行业的文本(如广告文本)中蕴含的品牌和品类进行探索的准确性及可靠性,以及无需对英文文本进行翻译,直接使用英文行业识别模型对英文文本进行分析,能够提高英文文本的分析效率以及准确性。此外,通过对待识别行业的文本执行预处理操作,能够将文本中不必要的信息处理掉,从而有利于进一步提高执行识别出与文本匹配的行业类别的相关操作的准确性及可靠性,进而进一步提高确定出精准的与文本匹配的行业类别的效率及可靠性。

在一个可选的实施例,在对目标文本执行预处理操作,得到预处理后的目标文本之前,该方法还可以包括以下步骤:

判断目标文本是否存在预处理标记,当判断出目标文本未存在预处理标记时,触发执行上述的对目标文本执行预处理操作,得到预处理后的目标文本的操作;

当判断出目标文本存在预处理标记时,对目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合。

可见,本发明实施例通过在判断出待识别行业的文本未存在预处理标记时,方执行预处理操作操作,能够提高对待识别行业的文本执行预处理操作的准确性及可靠性。

在另一个可选的实施例,该方法还可以包括以下步骤:

判断目标文本中是否存在链接信息(如:html链接、XML链接),当判断出存在时,控制链接信息打开,得到该链接信息对应的界面,并从打开的界面中提取文本;

将提取到的文本更新至目标文本,并触发执行上述的对目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合的操作。

该可选的实施例中,当判断出不存在时,触发执行上述的对目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合的操作。

可见,本发明实施例在待识别行业的文本中存在链接信息时,通过将承载在链接信息上的文本更新至待识别行业的文本,能够丰富待识别行业的文本的内容,从而有利于进一步提高识别出与待识别行业的文本匹配的行业类别的准确性及可靠性。

实施例三

请参阅图3,图3是本发明实施例公开的一种基于文本的行业类别识别装置的结构示意图。其中,该基于文本的行业类别识别装置包括文本处理服务器、文本处理系统、文本处理平台及文本处理设备中的任意一种。如图3所示,该基于文本的行业类别识别装置可以包括:

提取模块301,用于对确定出的待识别行业的目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合。

第一确定模块302,用于确定中文文本词向量集合的长度和英文文本词向量集合的长度。

第二确定模块303,用于根据中文文本词向量集合的长度和英文文本词向量集合的长度,确定与目标文本匹配的行业类别。

可见,实施图3所描述的基于文本的行业类别识别装置能够通过分别提取待识别行业的文本中的中文文本词向量集合和英文文本词向量集合,再根据英文文本词向量集合的长度和中文文本词向量集合的长度,去确定与待识别行业的文本匹配的行业类别,能够提高识别出与文本匹配的行业类别的准确性,有利于提高对不同行业的文本(如广告文本)中蕴含的品牌和品类进行探索的准确性及可靠性,以及无需对英文文本进行翻译,直接使用英文行业识别模型对英文文本进行分析,能够提高英文文本的分析效率以及准确性。

在一个可选的实施例中,如图4所示,第二确定模块303,包括:

判断子模块3031,用于判断中文文本词向量集合的长度和英文文本词向量集合的长度是否均小于对应的确定出的长度阈值,得到判断结果。

匹配子模块3032,用于根据判断结果匹配与判断结果对应的行业识别模型。

分析子模块3033,用于根据判断结果对应的行业识别模型,分析目标文本,得到与目标文本匹配的行业类别。

可见,实施图4所描述的基于文本的行业类别识别装置能够通过将中文文本词向量集合的长度和英文文本词向量集合的长度与对应的长度阈值进行比较,能够准确地确定出匹配的行业类别识别模型对文本进行分析,提高了分析待识别行业的文本的准确性及可靠性,从而快速且能够提高识别出与文本匹配的行业类别的准确性。

在又一个可选的实施例中,如图4所示,匹配子模块3032根据判断结果匹配与判断结果对应的行业识别模型的方式具体为:

当判断结果用于表示中文文本词向量集合的长度小于中文文本词向量集合对应的长度阈值且英文文本词向量集合的长度大于等于英文文本词向量集合对应的长度阈值时,确定英文文本词向量集合对应的英文行业识别模型,作为与判断结果对应的行业识别模型;

当判断结果用于表示中文文本词向量集合的长度大于等于中文文本词向量集合对应的长度阈值且英文文本词向量集合的长度小于英文文本词向量集合对应的长度阈值时,确定中文文本词向量集合对应的中文行业识别模型,作为与判断结果对应的行业识别模型;

当判断结果用于表示中文文本词向量集合的长度大于等于中文文本词向量集合对应的长度阈值且英文文本词向量集合的长度大于等于英文文本词向量集合对应的长度阈值时,确定中文文本词向量集合对应的中文行业识别模型及英文文本词向量集合对应的英文行业识别模型,作为与判断结果对应的行业识别模型。

可见,实施图4所描述的基于文本的行业类别识别装置还能够通过将中文文本词向量集合的长度和英文文本词向量集合的长度与对应的长度阈值进行比较得到的结果,确定中文行业识别模型和/或英文行业识别模型,能够提高确定所需行业识别模型的准确性及可靠性,从而有利于进一步提高识别出与文本匹配的行业类别的准确性及可靠性。

在又一个可选的实施例中,如图4所示,分析子模块3033根据判断结果对应的行业识别模型,分析待识别行业的目标文本,得到与目标文本匹配的行业类别的方式具体为:

当与判断结果对应的行业识别模型为目标行业识别模型时,将目标文本词向量集合输入目标行业识别模型进行分析,并获取目标行业识别模型输出的行业分析结果,作为与目标文本匹配的行业类别;

其中,当目标行业识别模型为中文行业识别模型时,目标文本词向量集合为中文文本词向量集合;

当目标行业识别模型为英文行业识别模型时,目标文本词向量集合为英文文本词向量集合。

可见,实施图4所描述的基于文本的行业类别识别装置还能够通过将对应的词集合输入到对应的行业识别模型中进行分析,能够提高文本的分析准确性及可靠性,从而进一步提高与文本匹配的行业类别的识别准确性及可靠性。

在又一个可选的实施例中,如图4所示,分析子模块3033根据判断结果对应的行业识别模型,分析待识别行业的目标文本,得到与目标文本匹配的行业类别的方式具体为:

当与判断结果对应的行业识别模型为中文行业识别模型及英文行业识别模型时,分别将中文文本词向量集合输入中文行业识别模型进行分析与将英文文本词向量集合输入英文行业识别模型进行分析,得到中文行业识别模型输出的第一行业分析结果及英文行业识别模型输出的第二行业分析结果;

根据第一行业分析结果和第二行业分析结果,确定与目标文本匹配的行业类别,第一行业分析结果和第二行业分析结果均包括对应的行业标签。

该可选的实施例中,可选的,分析子模块3033根据第一行业分析结果和第二行业分析结果,确定与目标文本匹配的行业类别的方式具体为:

确定第一行业分析结果包括的行业标签和第二行业分析结果包括的行业标签之间的相似度;

判断相似度是否大于等于确定出的相似度阈值(如98%)时,当判断出相似度大于等于相似度阈值时,确定第一行业分析结果包括的行业标签和/或第二行业分析结果包括的行业标签,作为与目标文本匹配的行业类别。

可见,实施图4所描述的基于文本的行业类别识别装置还能够通过将中文行业识别模型输出的行业分析结果与英文行业识别模型输出的行业分析结果进行比较分析,并在分析出两者的行业标签的相似度较大时,将两者的行业标签确定为与文本匹配的行业类别,能够提高确定出与文本匹配的行业类别的准确性及可靠性。

在又一个可选的实施例中,第一行业分析结果和第二行业分析结果均还包括对应的行业标签的置信度;以及如图4所示,第一确定模块302,还用于当第二确定模块303判断出相似度小于相似度阈值时,确定中文行业识别模型对应的权重因子和英文行业识别模型对应的权重因子。

如图4所示,该装置还可以包括:

计算模块304,用于计算第一行业分析结果包括的行业标签的置信度与中文行业识别模型对应的权重因子,得到第一行业标签分值。

计算模块304,还用于计算第二行业分析结果包括的行业标签的置信度与英文行业识别模型对应的权重因子,得到第二行业标签分值。

比较模块305,用于比较第一行业标签分值与第二行业标签分值,得到行业标签分值比较结果。

第一确定模块302,还用于当行业标签分值比较结果用于表示第一行业标签分值大于第二行业标签分值时,确定第一行业分析结果包括的行业标签,为目标文本所属的行业。

第一确定模块302,还用于当行业标签分值比较结果用于表示第一行业标签分值小于第二行业标签分值时,确定第二行业分析结果包括的行业标签,为目标文本所属的行业。

可见,实施图4所描述的基于文本的行业类别识别装置还能够在判断出中文行业识别模型输出的行业分析结果与英文行业识别模型输出的行业分析结果两者的行业标签的相似度较小时,进一步通过计算行业标签的置信度与对应的行业识别模型的权重因子的行业标签分值,并将行业标签分值较大对应的行业标签确定为与文本匹配的行业类别,能够进一步提高确定出准确的与文本匹配的行业类别的概率。

在又一个可选的实施例中,如图4所示,该装置还可以包括:

预处理模块306,用于在提取模块301对确定出的待识别行业的目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合之前,在确定出待识别行业的目标文本之后,对目标文本执行预处理操作,得到预处理后的目标文本。

其中,提取模块301对确定出的待识别行业的目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合的方式具体为:

对预处理后的目标文本执行中英文信息提取操作,得到目标文本的中文文本词向量集合和目标文本的英文文本词向量集合;

其中,预处理操作包括删除不满足信息条件的信息的操作和/或词形变换操作。

可见,实施图4所描述的基于文本的行业类别识别装置还能够通过对待识别行业的文本执行预处理操作,能够将文本中不必要的信息处理掉,从而有利于进一步提高执行识别出与文本匹配的行业类别的相关操作的准确性及可靠性,进而进一步提高确定出精准的与文本匹配的行业类别的效率及可靠性。

实施例四

请参阅图5,图5是本发明实施例公开的又一种基于文本的行业类别识别装置的结构示意图。其中,该基于文本的行业类别识别装置包括文本处理服务器、文本处理系统、文本处理平台及文本处理设备中的任意一种。如图5所示,该装置可以包括:

存储有可执行程序代码的存储器501;

与存储器501耦合的处理器502;

进一步的,还可以包括与处理器502耦合的输入接口503和输出接口504;

其中,处理器502调用存储器501中存储的可执行程序代码,执行本发明实施例一或实施例二所公开的基于文本的行业类别识别方法中的步骤。

实施例五

本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或实施例二所公开的基于文本的行业类别识别方法中的步骤。

以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是:本发明实施例公开的一种基于文本的行业类别识别方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号