公开/公告号CN112347787A
专利类型发明专利
公开/公告日2021-02-09
原文格式PDF
申请/专利权人 平安科技(深圳)有限公司;
申请/专利号CN202011227233.7
申请日2020-11-06
分类号G06F40/30(20200101);G06F16/35(20190101);G06F16/33(20190101);G06K9/62(20060101);G06N3/02(20060101);
代理机构11015 北京英特普罗知识产权代理有限公司;
代理人程超
地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 09:52:39
技术领域
本发明涉及语音语义技术领域,特别涉及一种方面级别情感分类方法、装置、设备及可读存储介质。
背景技术
随着网络社交媒体的崛起,互联网上产生了大量的用户评论信息,这些用户评论信息中表达了各种各样的情感色彩和情感倾向性,通过对用户评论信息进行情感分析,可以了解大众舆论对于某一时事件或产品的看法。
情感分析是一个对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,为了充分的获取某文本中各个方面的情感倾向,提出方面级别的情感分析,将分析的粒度细化到方面的级别;现有技术中大多通过监督学习的方式训练神经网络模型,以获取用于方面级别情感分析的情感分类器,不可避免的,以监督学习的方式训练神经网络模型的过程中需要大量的被标记的训练样本,缺乏被标记的训练样本成为获取情感分类器的主要障碍。
因此,如何避免获取情感分类器无足够被标记的训练样本的障碍,如何利用预训练模型的强大特征表征能力,实现跨领域的方面级别情感分析,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种方面级别情感分类方法、装置、设备及可读存储介质,能够实现跨领域的方面级别情感分析。
根据本发明的一个方面,提供了一种方面级别情感分类方法,所述方法包括:
获取待分类文本,并将包含在所述待分类文本中的关键词转化为令牌,以形成令牌序列;其中,所述令牌序列包括T个令牌;
将所述令牌序列输入到预设的令牌处理模型中,以得到概率矩阵;其中,所述概率矩阵为T列、(T+1)行的矩阵,所述概率矩阵的每一列表征一种令牌,所述概率矩阵的第一行表征各个令牌属于方面术语的概率值、第二行至第(T+1)行表征每个令牌属于与对应方面术语相映射的情感令牌的概率值;
将所述属于方面术语的概率值大于预设阈值的令牌设置为目标令牌,并将与所述目标令牌对应的第二行至第(T+1)行的概率值形成情感令牌概率序列;
基于所述情感令牌概率序列,利用预设的Transformer模型和分类器,确定出与所述待分类文本对应的情感类型。
可选的,所述获取待分类文本,并将包含在所述待分类文本中的关键词转化为令牌,以形成令牌序列,具体包括:
对所述待分类文本进行分词处理,以得到包含在所述待分类文本中的T个关键词;
分别对每个关键词进行编码,以得到每个关键词的令牌;
将所有令牌组成所述令牌序列。
可选的,所述将所述令牌序列输入到预设的令牌处理模型中,以得到概率矩阵,具体包括:
将所述令牌序列输入到所述令牌处理模型中的BERT模型中,得到每个令牌对应的融合了前后令牌信息的特征表征,并将所有所述特征表征组成特征表征序列;
将所述特征表征序列输入到所述令牌处理模型中的全连接层中,并通过softmax函数对所述全连接层的输出进行归一化处理,以得到所述概率矩阵。
可选的,所述基于所述情感令牌概率序列,利用预设的Transformer模型和分类器,确定出与所述待分类文本对应的情感类型,具体包括:
将所述特征表征序列与所述情感令牌概率序列进行向量级别的元素相乘,以得到表征结果;
将所述表征结果依次输入所述Transformer模型和分类器中,以得到与所述待分类文本对应的情感类型。
可选的,所述方法还包括:
获取样本文本集;其中,所述样本文本集中的每个样本文本均标注有对应的方面术语和情感类型;
基于所述样本文本集对初始神经网络模型进行训练,以对所述初始神经网络模型中的各个参数进行修正,得到情感分类模型;其中,所述情感分类模型包括:令牌处理模型、Transformer模型和分类器。
为了实现上述目的,本发明还提供一种方面级别情感分类装置,所述装置包括:
获取模块,用于获取待分类文本,并将包含在所述待分类文本中的关键词转化为令牌,以形成令牌序列;其中,所述令牌序列包括T个令牌;
输入模块,用于将所述令牌序列输入到预设的令牌处理模型中,以得到概率矩阵;其中,所述概率矩阵为T列、(T+1)行的矩阵,所述概率矩阵的每一列表征一种令牌,所述概率矩阵的第一行表征各个令牌属于方面术语的概率值、第二行至第(T+1)行表征每个令牌属于与对应方面术语相映射的情感令牌的概率值;
处理模块,用于将所述属于方面术语的概率值大于预设阈值的令牌设置为目标令牌,并将与所述目标令牌对应的第二行至第(T+1)行的概率值形成情感令牌概率序列;
确定模块,基于所述情感令牌概率序列,利用预设的Transformer模型和分类器,确定出与所述待分类文本对应的情感类型。
可选的,所述获取模块,具体用于:
对所述待分类文本进行分词处理,以得到包含在所述待分类文本中的T个关键词;
分别对每个关键词进行编码,以得到每个关键词的令牌;
将所有令牌组成所述令牌序列。
可选的,所述输入模块,具体用于:
将所述令牌序列输入到所述令牌处理模型中的BERT模型中,得到每个令牌对应的融合了前后令牌信息的特征表征,并将所有所述特征表征组成特征表征序列;
将所述特征表征序列输入到所述令牌处理模型中的全连接层中,并通过softmax函数对所述全连接层的输出进行归一化处理,以得到所述概率矩阵。
为了实现上述目的,本发明还提供一种计算机设备,该计算机设备具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述介绍的方面级别情感分类方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述介绍的方面级别情感分类方法的步骤。
本发明提供的方面级别情感分类方法、装置、设备及可读存储介质,通过利用预训练模型强大的特征表征能力,提出了一种基于预训练模型的跨领域方面级别情感分析方法,且预训练模型的结构比较简单,能够广泛应用到其他相似任务中;本发明通过设置阈值,使得大于阈值的方面术语才能参与后续的方面级别情感分析的任务,从而有效减少了计算量,能够进一步提升模型的性能。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为实施例一提供的方面级别情感分类方法的一种可选的流程示意图;
图2为实施例一提供的情感分类模型的示意图;
图3为实施例三提供的方面级别情感分类装置的一种可选的组成结构示意图;
图4为实施例四提供的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种方面级别情感分类方法,如图1所示,该方法具体包括以下步骤:
步骤S101:获取待分类文本,并将包含在所述待分类文本中的关键词转化为令牌,以形成令牌序列;其中,所述令牌序列包括T个令牌。
具体的,步骤S101,包括:
步骤A1:对所述待分类文本进行分词处理,以得到包含在所述待分类文本中的T个关键词;
步骤A2:分别对每个关键词进行编码,以得到每个关键词的令牌;
步骤A3:将所有令牌组成所述令牌序列。
例如,获取用户输入的待分类文本:“这家餐馆的服务很好,并且饭菜也很好”;对所述待分类文本进行分词处理,以得到关键词:这家、餐馆、的、服务、很好、并且、饭菜、也、很好;利用One-Hot编码分别将每个关键词编码为对应的令牌,从而根据所有关键词的令牌形成令牌序列X={x
步骤S102:将所述令牌序列输入到预设的令牌处理模型中,以得到概率矩阵;其中,所述概率矩阵为T列、(T+1)行的矩阵,所述概率矩阵的每一列表征一种令牌,所述概率矩阵的第一行表征各个令牌属于方面术语的概率值、第二行至第(T+1)行表征每个令牌属于与对应方面术语相映射的情感令牌的概率值。
其中,所述令牌处理模型包括:BERT模型、全连接层和softmax函数。
具体的,步骤S102,包括:
步骤B1:将所述令牌序列输入到所述令牌处理模型中的BERT(BidirectionalEncoder Representation from Transformers)模型中,得到每个令牌对应的融合了前后令牌信息的特征表征,并将所有所述特征表征组成特征表征序列;
例如,将令牌序列X={x
步骤B2:将所述特征表征序列输入到所述令牌处理模型中的全连接层中,并通过softmax函数对所述全连接层的输出进行归一化处理,以得到所述概率矩阵;
例如,将上述特征表征序列H
步骤S103:将所述属于方面术语的概率值大于预设阈值的令牌设置为目标令牌,并将与所述目标令牌对应的第二行至第(T+1)行的概率值形成情感令牌概率序列。
在令牌序列中,筛选出属于方面术语的概率值大于预设阈值的目标令牌,若任一令牌的概率标记中显示其属于方面术语的概率大于预设阈值时,则证明该令牌为方面术语;例如,一个令牌序列为{这家,餐馆,的,服务,很好,并且,饭菜,也,很好},预设的概率阈值为0.5,而在当前令牌序列中,只有令牌“服务”和“饭菜”属于方面术语的概率大于预设概率阈值0.5,那么输出的目标令牌所对应的方面术语为“服务”和“饭菜”。
步骤S104:基于所述情感令牌概率序列,利用预设的Transformer模型和分类器,确定出与所述待分类文本对应的情感类型。
具体的,步骤S104,包括:
步骤C1:将所述特征表征序列与所述情感令牌概率序列进行向量级别的元素相乘,以得到表征结果;
步骤C2:将所述表征结果依次输入所述Transformer模型和分类器中,以得到与所述待分类文本对应的情感类型。
在从令牌序列中确定出目标令牌之后,根据该目标令牌的情感令牌概率序列去做情感分析任务。具体的,将融合了上下文的特征表征序列
进一步的,所述方法还包括:
步骤D1:获取样本文本集;其中,所述样本文本集中的每个样本文本均标注有对应的方面术语和情感类型;
步骤D2:基于所述样本文本集对初始神经网络模型进行训练,以对所述初始神经网络模型中的各个参数进行修正,得到情感分类模型;其中,所述情感分类模型包括:令牌处理模型、Transformer模型和分类器。
优选的,如图2所示,为情感分类模型的示意图,由图2可知,根据待分类文本形成的令牌序列X先输入到令牌处理模型中的BERT模型中,以得到融合了前后令牌信息的特征表征序列H
实施例二
本发明实施例提供了一种方面级别情感分类方法,该方法具体包括以下步骤:
步骤S1,获取样本文本集,并利用所述样本文本集对神经网络模型进行训练。
在本实施例中,神经网络模型由预训练词嵌入层和神经体系结构层组成;首先将样本文本拆分为若干令牌,即若干词语,并将若干令牌组成令牌序列X={x
进一步的,在BERT模块接收了令牌序列X后,输出一个融合了上下文的特征表征序列
进一步的,将特征表征序列H
进一步的,冻结神经网络模型的全部参数,完成用于方面级别情感分析的神经网络模型的微调,以得到令牌处理模型。
步骤S2,将所述令牌序列输入至所述令牌处理模型中,生成每个令牌对应的概率标记;
将令牌序列X={x
步骤S3,在所述令牌序列中筛选出目标令牌,对所述目标令牌进行情感分析,完成对所述令牌序列对应领域的Transformer模型和分类器的训练。
预先设定一个概率阈值,在令牌序列中,筛选出属于方面术语的概率大于该预设的概率阈值的目标令牌,若任一令牌的概率标记中显示其属于方面术语的概率大于预设阈值时,则证明该令牌为方面术语;例如,一个令牌序列为{这家,餐馆,的,服务,很好,并且,饭菜,也,很好},则其对应的方面术语令牌为“服务”和“饭菜”,自然本实施例中神经网络模型输出的该令牌对应的属于方面术语的概率大于预设概率阈值。
进一步的,在选择完目标令牌后,根据该目标令牌的概率标记中每个令牌x
进一步的,根据上述步骤,完成了针对该令牌序列对应领域的方面级别情感分析的情感分类模型的训练。
步骤S4,获取待分类文本,利用所述情感分类模型进行情感分类,筛选所述待分类文本对应的情感分类类别。
获取用户输入的待分类文本,并将该待分类文本拆分为由若干令牌构成的令牌序列X={x
进一步的,将上述令牌序列输入至由BERT模型构成的令牌处理模型中,输出一个融合了上下文的特征表征序列
进一步的,将上述特征表征序列H
进一步的,在令牌序列中,筛选出属于方面术语的概率大于该预设的概率阈值的目标令牌,若该令牌的概率标记中显示其属于方面术语的概率大于预设阈值时,则证明该令牌为方面术语;例如,一个令牌序列为{这家,餐馆,的,服务,很好,并且,饭菜,也,很好},预设的概率阈值为0.5,而在当前令牌序列中,只有令牌“服务”和“饭菜”属于方面术语的概率大于预设概率阈值0.5,那么输出的方面术语令牌为“服务”和“饭菜”。
进一步的,在选择完目标令牌后,根据该目标令牌的概率标记中令牌序列X中的每一个令牌x
实施例三
本发明实施例提供了一种方面级别情感分类装置,如图3所示,该装置具体包括以下组成部分:
获取模块301,用于获取待分类文本,并将包含在所述待分类文本中的关键词转化为令牌,以形成令牌序列;其中,所述令牌序列包括T个令牌;
输入模块302,用于将所述令牌序列输入到预设的令牌处理模型中,以得到概率矩阵;其中,所述概率矩阵为T列、(T+1)行的矩阵,所述概率矩阵的每一列表征一种令牌,所述概率矩阵的第一行表征各个令牌属于方面术语的概率值、第二行至第(T+1)行表征每个令牌属于与对应方面术语相映射的情感令牌的概率值;
处理模块303,用于将所述属于方面术语的概率值大于预设阈值的令牌设置为目标令牌,并将与所述目标令牌对应的第二行至第(T+1)行的概率值形成情感令牌概率序列;
确定模块304,用于基于所述情感令牌概率序列,利用预设的Transformer模型和分类器,确定出与所述待分类文本对应的情感类型。
具体的,获取模块301,用于:
对所述待分类文本进行分词处理,以得到包含在所述待分类文本中的T个关键词;
分别对每个关键词进行编码,以得到每个关键词的令牌;
将所有令牌组成所述令牌序列。
进一步的,输入模块302,用于:
将所述令牌序列输入到所述令牌处理模型中的BERT模型中,得到每个令牌对应的融合了前后令牌信息的特征表征,并将所有所述特征表征组成特征表征序列;
将所述特征表征序列输入到所述令牌处理模型中的全连接层中,并通过softmax函数对所述全连接层的输出进行归一化处理,以得到所述概率矩阵。
进一步的,确定模块304,用于:
将所述特征表征序列与所述情感令牌概率序列进行向量级别的元素相乘,以得到表征结果;
将所述表征结果依次输入所述Transformer模型和分类器中,以得到与所述待分类文本对应的情感类型。
更进一步的,所述装置还包括:
训练模块,用于
获取样本文本集;其中,所述样本文本集中的每个样本文本均标注有对应的方面术语和情感类型;
基于所述样本文本集对初始神经网络模型进行训练,以对所述初始神经网络模型中的各个参数进行修正,得到情感分类模型;其中,所述情感分类模型包括:令牌处理模型、Transformer模型和分类器。
实施例四
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图4所示,本实施例的计算机设备40至少包括但不限于:可通过系统总线相互通信连接的存储器401、处理器402。需要指出的是,图4仅示出了具有组件401-402的计算机设备40,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器401(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器401可以是计算机设备40的内部存储单元,例如该计算机设备40的硬盘或内存。在另一些实施例中,存储器401也可以是计算机设备40的外部存储设备,例如该计算机设备40上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器401还可以既包括计算机设备40的内部存储单元也包括其外部存储设备。在本实施例中,存储器401通常用于存储安装于计算机设备40的操作系统和各类应用软件。此外,存储器401还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器402在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器402通常用于控制计算机设备40的总体操作。
具体的,在本实施例中,处理器402用于执行处理器402中存储的方面级别情感分类方法的程序,所述方面级别情感分类方法的程序被执行时实现如下步骤:
获取待分类文本,并将包含在所述待分类文本中的关键词转化为令牌,以形成令牌序列;其中,所述令牌序列包括T个令牌;
将所述令牌序列输入到预设的令牌处理模型中,以得到概率矩阵;其中,所述概率矩阵为T列、(T+1)行的矩阵,所述概率矩阵的每一列表征一种令牌,所述概率矩阵的第一行表征各个令牌属于方面术语的概率值、第二行至第(T+1)行表征每个令牌属于与对应方面术语相映射的情感令牌的概率值;
将所述属于方面术语的概率值大于预设阈值的令牌设置为目标令牌,并将与所述目标令牌对应的第二行至第(T+1)行的概率值形成情感令牌概率序列;
基于所述情感令牌概率序列,利用预设的Transformer模型和分类器,确定出与所述待分类文本对应的情感类型。
上述方法步骤的具体实施例过程可参见第一实施例,本实施例在此不再重复赘述。
实施例五
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
获取待分类文本,并将包含在所述待分类文本中的关键词转化为令牌,以形成令牌序列;其中,所述令牌序列包括T个令牌;
将所述令牌序列输入到预设的令牌处理模型中,以得到概率矩阵;其中,所述概率矩阵为T列、(T+1)行的矩阵,所述概率矩阵的每一列表征一种令牌,所述概率矩阵的第一行表征各个令牌属于方面术语的概率值、第二行至第(T+1)行表征每个令牌属于与对应方面术语相映射的情感令牌的概率值;
将所述属于方面术语的概率值大于预设阈值的令牌设置为目标令牌,并将与所述目标令牌对应的第二行至第(T+1)行的概率值形成情感令牌概率序列;
基于所述情感令牌概率序列,利用预设的Transformer模型和分类器,确定出与所述待分类文本对应的情感类型。
上述方法步骤的具体实施例过程可参见第一实施例,本实施例在此不再重复赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
机译: 记录和/或回放设备,在具有一个或多个信息记录级别的信息存储介质中和/或从中进行数据记录和/或再现的方法,具有一个或多个记录信息的信息存储介质,记录和/或再现方法具有一个或多个级别的信息记录以及计算机可读平均值的光盘上和/或来自光盘的数据
机译: 用于调节用户情感,设备和可读存储介质的方法和装置
机译: 情感识别方法,装置,计算机设备和计算机可读存储介质