首页> 中国专利> 基于主体模型的网上评论情感分类方法

基于主体模型的网上评论情感分类方法

摘要

本发明涉及一种基于主体模型的网上评论情感分类方法。本发明首先提取网站的评论。其次使用中文分词包对评论进行分词,去除人称代词、助词、数字、字母以及标点符号。然后选定各个模型参数以及需要进行分类的情感数,并进行建立模型。最后将建立的模型应用于评论的情感分类,根据情感分布来判断每篇文档的情感值。本发明代替了人力来进行评论的情感分类,解放了双手,并且效率更高,更快。

著录项

  • 公开/公告号CN104199845A

    专利类型发明专利

  • 公开/公告日2014-12-10

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN201410389465.0

  • 申请日2014-08-08

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构33200 杭州求是专利事务所有限公司;

  • 代理人杜军

  • 地址 310018 浙江省杭州市下沙高教园区2号大街

  • 入库时间 2023-12-17 03:18:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-01

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 专利号:ZL2014103894650 变更事项:专利权人 变更前:杭州远传新业科技有限公司 变更后:杭州远传新业科技股份有限公司 变更事项:地址 变更前:310000 浙江省杭州市滨江区信诚路857号世茂中心23楼 变更后:311611 浙江省杭州市滨江区浦沿街道信诚路857号悦江商业中心23011室

    专利权人的姓名或者名称、地址的变更

  • 2019-11-01

    专利权的转移 IPC(主分类):G06F17/30 登记生效日:20191014 变更前: 变更后: 申请日:20140808

    专利申请权、专利权的转移

  • 2019-04-12

    专利实施许可合同备案的生效 IPC(主分类):G06F17/30 合同备案号:2019330000035 让与人:杭州电子科技大学 受让人:杭州远传新业科技有限公司 发明名称:基于主体模型的网上评论情感分类方法 申请公布日:20141210 授权公告日:20180529 许可种类:普通许可 备案日期:20190320 申请日:20140808

    专利实施许可合同备案的生效、变更及注销

  • 2018-05-29

    授权

    授权

  • 2015-01-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140808

    实质审查的生效

  • 2014-12-10

    公开

    公开

查看全部

说明书

技术领域

本发明涉及一种主题类评论情感自动分类方法,具体是一种基于视频网站的主题类评论情感自动分类方法。

背景技术

随着Web2.0技术的出现和发展,互联网上(包括门户网站、电子商务网站、社交网站、音/视频分享网站、论坛、博客、微博等)产生了海量的、由用户发表的对于诸如人物、事件、产品等目标实体的评论信息。与客观性文本不同的是,这些主观色彩浓厚的评论信息蕴含着大众舆论对上述目标实体的看法,对潜在用户、商家以及政府部门等具有十分重要的参考价值。比如当我们计划旅行或者准备购买某件商品时,通常会利用网络查看相关评论信息,并以此来辅助我们的最终决策。潜在用户可能会根据这些评论信息做出是否购买的决定,商家需要了解用户使用其产品的反馈意见或者其他商家的竞争情报,政府各职能部门需要全面掌握大众对其所辖区域的新闻事件的思想动态。然而,如果采用人工方式对这些海量信息进行收集和分析,显然是成本高昂、低效和困难的。利用计算机对非结构化的文本评论进行分类和提取的文本情感分析技术(TextSentiment Analysis)应运而生。

发明内容

本发明针对现有技术的不足,提供一种基于主题模型的面向网站评论的情感自动分类方法。

本发明具体包括以下步骤:

步骤(1)提取网站的评论,具体是:分析某门户网站以及某购物网站网页源代码,利用正则表达式获取评论栏,记录该主题属于哪一类别,并按照每类每条评论一个文本文件存储。

步骤(2)使用中文分词包对评论进行分词,具体是:选定中文分词包以及分词方法,选定要求是尽可能的保持原文的语义环境,这里使用的是最大粒度细分的方法。

步骤(3)去除人称代词、助词、数字、字母以及标点符号。

步骤(4)选定各个模型参数以及需要进行分类的情感数,具体是:

4-1、选定模型的超参数α,γ,将其设置为1。

4-2、设定模型参数T,即主题的数目。

4-3、设置另外一个超参数β,β设置为T/50。

4-4、设置情感数S。

步骤(5)建立模型,具体是:本模型在主题模型的基础上加入了情感因素的考量。按照自然语言的表达习惯,假设一句话只表达一个情感值,故对句子进行情感标签采样,建立文档-句子-情感关系。同样的,每句话也只表达一个主题,对句子进行主题采样,建立文档-句子-主题关系。

步骤(6)将步骤(5)中建立的模型应用于评论的情感分类,具体是:根据预处理的网上评论,也就是文档生成过程的最终结果—-主题情感词,逆向工程,求出在文档生成过程中发挥重要作用的三个概率分布变量,主题分布θ,情感分布П和主题-情感词分布Ψ,然后根据情感分布П来判断每篇文档的情感值。

本发明的有益效果:

第一,本发明代替了人力来进行评论的情感分类,解放了双手,并且效率更高,更快。

第二,本发明改进了主题模型使其在提取主题词的同时能提取情感词,在后期使用的时候,可以通过观察主题情感词来获取用户对某方面的舆情。

附图说明

图1为模型针对评论情感分类的流程图。

图2为模型的示意图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1所示,本发明具体包括以下步骤:

1)提取网站的评论;

(2)使用中文分词包对评论进行分词;

(3)去除人称代词(你,我,他),助词(的,了,呢)、数字、字母等无关停用词以及标点符号;

(4)选定各个模型参数以及需要进行分类的情感数。

(5)将数据导入模型,计算,分析输出结果。

所述的提取网站的评论,包括如下步骤:

A)分析某门户网站以及某购物网站网页源代码,利用正则表达式获取评论栏,记录该主题属于哪一类别,并按照每类每条评论一个文本文件存储;

所述的使用中文分词包对评论进行分词,包括如下步骤:

B)选定中文分词包以及分词方法,选定要求是尽可能的保持原文的语义环境,这里使用的是最大粒度细分的方法;

所述的去除人称代词(你,我,他),助词(的,了,呢)、数字、字母等无关停用词以及标点符号,包括如下步骤:

C)因为中文不像英文有天然的空格作为分隔符,所以要去除对语义环境影响不大的各种助词(的、了、呢之类)、数字、字母、无意义的符号以及相关的人称代词;

所述的选定各个模型参数以及需要进行分类的情感数,包括如下步骤:

D)首先选定模型的超参数α,α的选取没有特别的规则,一般是根据实验经验,这里将其设置为1;

E)接着要设定模型参数T,即主题的数目。所谓主题数,和所要分析的评论类别有关,比如笔记本电脑,涉及到的主题可能有内存,显示器,键盘,外壳,散热等话题,要根据类别分别设置;

F)然后是另外一个超参数β,β的设置和主题数T息息相关,一般设置为T/50;

G)再者设置超参数γ,γ同α类似,根据经验设为1;

H)最后是情感数S,这里要分类的情感只有两种,正面和负面,所以S为2;

所述的将数据导入模型,模型如图2所示:

I)本模型在主题模型的基础上加入了情感因素的考量。按照自然语言的表达习惯,假设一句话只表达一个情感值(转折句除外),故对句子进行情感标签采样,建立文档-句子-情感关系。同样的,每句话也只表达一个主题,对句子进行主题采样,建立文档-句子-主题关系。

J)下面步骤讲述的是本模型模拟文档(评论)生成的过程:

1.首先,根据先验狄利克雷分布Dirichlet(β)生成对应主题z和相应情感s的主题-情感词分布Ψzs

2.对每篇文档(评论):

i)根据先验狄利克雷分布Dirichlet(γ),生成该文档的情感分布Пd

ii)对于每个情感s,根据先验狄利克雷分布Dirichlet(α),生成文档的主题分布θds

iii)对文档(评论)中的每句话:

根据情感分布Пd选择一个情感s;

给定情感s后,根据主题-情感分布θds,选择一个主题;

根据所选的主题z和情感s,从主题-情感词分布Ψzs中,选择一个主题-情感词。

将模型应用于评论情感分类,计算,分析输出结果。包括如下步骤:

K)将上述模型应用于评论的情感分类,需要做的是根据已有的、预处理的网上评论,也就是文档生成过程的最终结果—-主题情感词,逆向工程,求出在文档生成过程中发挥重要作用的三个概率分布变量,主题分布θ,情感分布П和主题-情感词的分布Ψ,然后根据情感分布П来判断每篇文档的情感值。

L)使用Gibbs sampling算法来估计分布变量θ,Ψ,П,马卡洛夫链的每次转移中,第i个句子的情感标签和主题标签是根据以下的条件概率来抽取的:

>P(zi=t,si=j|S-i,Z-i,W)Count(s,t)-i+αCount(s)-i+Γ(Count(s,t)+β)Γ(Count(s,t)++mi)Πw=1VΓ(Count(s,t)+β+mi)Γ(Count(s,t)+β)Countg(d,s)+γCount(d)+>

其中Count(s,t)表示情感标签为s,主题标签为t的句子数,下标-i表示去除当前句子的计数;Count(d,s)表示文档d中情感标签为s的句子数;Count(d)为文档的总数量,mi则表示该句子单词数。那么三个参数θ、π、ψ的近似估计如下:

>θst=Count(s,t)+αCount(s)+πds=Count(s,d)+γCount(d)+ψwst=Count(w,s,t)+βCount(s,t)+>

其中Count(s)为情感标签为s的词的总数,Count(s,d)为文档d中情感标签为s的词的总数,Count(w,s,t)为情感标签为s,主题标签为t的词的总数。T为主题总数,S为情感值总数,V为文档的单词集大小。

M)将评论数据导入模型进行计算,获取模型输出的П分布,它所代表的是每篇文档(每条评论)属于对应S种情感的概率,根据公式

>Sd=argmaxs{πds|s[1,..,S]}>

(其中Sd表示文档d对应的情感,Пds表示文档d属于情感s的概率值,argmax表示在众多情感s中,选取概率值Пds最大者),选择概率最大的情感值,即为模型判断文档d所属的情感值。

下面结合实施例,对本发明实现评论的情感分类做进一步说明:

1、下面以某点评网站为例,获取网站关于某个类别的主题结构信息,根据首页URL页面源码,通过正则表达式可以获取评论信息,并将评论进行前期处理,去除停用词,以及标点符号。

2、然后根据图2和表1,设置模型的各个参数。

表1

参数含义参数含义α主题分布的超参数ψ词的分布β单词分布的超参数π文档的情感分布γ情感分布的超参数S情感类别数w文档中的词s情感值θ文档的主题分布z主题值T主题数M每篇文档的句子数D文档数N每篇文档的单词总数

3、运行模型,获取输出结果。

4、分析输出结果。根据表2(部分结果)中可以看到,结果一共有四列,对应值分别是文档序号,文档名,文档属于情感1(正面)的概率值,以及文档属于情感2(负面)的概率值。通过比较两种情感的概率大小就能轻易获得文档的情感倾向了。

表2

文档序号文档名情感1(正面)情感2(负面)doc_0doc10.8435110.156489doc_1doc20.0593870.940613doc_2doc30.2589690.741031doc_3doc40.3042700.695730doc_4doc50.8385420.161458doc_5doc60.0907470.909253doc_6doc70.3629530.637047

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号