法律状态公告日
法律状态信息
法律状态
2018-04-27
授权
授权
2015-08-12
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150313
实质审查的生效
2015-07-15
公开
公开
技术领域
本发明属于数据挖掘领域,涉及一种观点挖掘技术,具体的说是一种针对千万级规模新 闻评论的观点挖掘方法。
背景技术
随着网民规模的不断增大,社会化媒体也得到迅速地发展,以论坛、微博、微信为代表 逐渐渗透到全民生活和工作的每一个层面,对人们的行为模式、心理模式产生了极为深远的 影响。同时社会化媒体每天都会产生大量的短文本,含有大量的表达事件方面或用户观点的 信息。通过分析该信息,人们一方面可以了解某一事件或话题的信息扩散情况,另一方面通 过观察其他人对某一事件或话题的看法,了解到其观点偏好和行为特征,这对社会化媒体舆 情监控、社会化媒体营销等方面有着重要的作用。如何从大量的社会化媒体短文本中提取出 能表达事件方面或用户观点的关键词成为当前的研究重点。
新闻评论是社会各界人士对社会化主流媒体所发布的新闻的看法,这些评论既能反映人 们对某一新闻的观点,又能反应人们对某一新闻关注的方面。但是,由于新闻评论具有数量 大,长度短,用词口语化,汉语语言的多样性等特点,对新闻评论进行观点挖掘具有一定的 难度。
发明内容
本发明的目的是:在信息爆炸式增长的情况下,针对如何高效地从某一话题的大量新闻 评论文本中提取出事件方面或用户观点的问题,提出了一种针对千万级规模新闻评论的观点 挖掘方法。
该方法具体步骤如下:
步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新 闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;
步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评论数量 小于阈值K的新闻评论进入步骤三处理;
阈值K计算如下:
其中,max_count表示所有新闻评论的最大评论数量;
步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新闻评论 进行分词,并进行词性标注;
经过分词后,将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名词、形 容词和动词;
步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类后每类 新闻评论的类别标签;
步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论 进行关键词对提取;
步骤501、对每一类新闻评论进行词频统计,选取词频排名前M个词语作为候选的高频 词;
其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚 类处理后含有类别标签每一类新闻评论;M为整数。
步骤502、根据候选高频词在新闻评论中出现的位置,选取与候选高频词紧邻的前后词 分别构成前后两个词对;
步骤503、统计每一个词对在新闻评论中出现的次数,计算每一个词对的权重W:
W=Fg×Nc
Fg为核心词权重;Nc表示词对共现权重。
步骤504、根据权重对词对进行降序排序,选取前N个词对作为该类新闻评论中的关键 词对;其中,N为整数。
步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评 论,统计每一类新闻评论的比例和混杂度;
新闻评论的混杂度,针对聚类后的含有类别标签的各类新闻评论,统计各类新闻评论中 包含的新闻标题个数;
步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。
本发明的优点在于:
(1)、一种针对千万级规模新闻评论的观点挖掘方法,适用于千万级规模新闻评论的方 面分析。
(2)、一种针对千万级规模新闻评论的观点挖掘方法,具有高效性和易用性,在舆情监 控、观点分析和信息传播扩散等领域有重要的应用价值。
(3)、一种针对千万级规模新闻评论的观点挖掘方法,利用中文分词工具,考虑汉语语 言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁 棒性和易用性等优点。
附图说明
图1是为本发明一种针对千万级规模新闻评论的观点挖掘方法流程图。
图2为本发明关键词对提取的具体流程流程图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
一种针对千万级规模新闻评论的观点挖掘方法,基于数据挖掘、自然语言处理等技术, 利用中文分词、聚类等方法,对千万级规模的新闻评论进行分析,从中获取能表达事件方面 或用户观点的重要信息。
首先,根据某一事件或话题下新闻标题统计每一个标题下的评论数量,将评论数量超过 一定值的新闻评论按标题组成一类;再对剩下的新闻标题和评论内容进行中文分词,根据分 词的结果进行聚类;然后对每一类新闻评论提取该类的关键词对,并计算每一类新闻评论的 比例和混杂度;最后根据每一类的关键词对,从该类的新闻评论中提取出该类下能代表事件 方面或用户观点的文本。
具体实施步骤如下:
步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新 闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;
新闻标题能简明扼要地概括新闻的内容,根据新闻标题对新闻评论进行分类,每一个新 闻标题是一类,从而进一步根据新闻标题对新闻评论进行数量统计,统计每一类新闻标题下 的千万级规模新闻评论的数量。
比如,关于“APEC”话题下有41067条新闻评论,含有1056个不同的新闻标题,则分别 统计1056类标题下的新闻评论的数量。
步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评论数量 小于阈值K的新闻评论进入步骤三处理;
阈值K计算如下:
其中,max_count表示所有新闻评论中,新闻标题含有的最大评论数量。
步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新闻评论 进行分词,并进行词性标注;
对步骤二中评论数量小于阈值K的新闻评论以及对应的新闻标题进行分词和词性标注。 分词的目的是为了将新闻评论转化成一个个词语。根据汉语语言的特点,能反映事件方面或 用户观点的词语都是实词。因此,在分词的过程中需要对每一个词语进行词性标注对分词之 后的结果进行词性筛选和词频筛选两种处理。
词性筛选是指将分词结果中的名词、形容词、动词保留,将其他词性的词语去掉。对分 词进行词性筛选能提高新闻评论的分类精度。
词频筛选是指将分词结果中的低频词和高频词去掉。
低频词很可能是只在少数新闻评论中出现的,不具有代表性。
高频词有两种:一种是大部分新闻评论都出现的词语;另一类是错误分词以后产生的分 词碎片。
高频词在一定程度上反映了:新闻评论数据集中人们讨论的较多的方面和问题。
低频词和高频词对含有观点信息的提取没有多大的参考意义,去掉之后能提高处理数据 的效率。
评论数量小于阈值K的新闻评论经过分词后得到只含有名词、形容词和动词的评论文本;
步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类后每类 新闻评论的类别标签;
将步骤三分词得到的名词、形容词和动词作为新闻评论聚类的属性,构建特征矩阵,对 步骤二评论数量小于阈值K的各类新闻标题对应的新闻评论进行K-means聚类。
聚类类别的个数为5到20,优选10个。
K-means聚类算法,是数据点到原型的某种距离作为优化的目标函数,利用函数求极值 的方法得到迭代运算的调整规则。实际上是用距离函数来刻画样本点到聚类中心的聚类,根 据距离将样本点划分到对应的类别中。
优选距离函数是余弦相似度,余弦相似度是信息检索中常用的相似度的计算方式,假如 有两条新闻评论i和j,有n个词语作为聚类的特征属性,文本i表示成向量Di=(wi1,wi2,…, win),文本j表示成Dj=(wj1,wj2,…,wjn),余弦相似度Cos(Di,Dj)计算公式为:
其中,wik指第k个特征词在文本i中出现的次数,wjk指第k个特征词在文本j出现的次 数。
利用余弦相似度Cos(Di,Dj)计算公式,得到一个文本距离聚类中心的距离远近程度,根 据该距离远近程度将该文本归到最接近的聚类中心的类别中,得到类别标签。
步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论 进行关键词对提取;
本步骤是针对评论数量大于等于阈值K的各类新闻评论以及聚类后含有类别标签的各类 新闻评论进行关键词对的提取。
对关键词对的提取是在高频词的基础上进行的,具体步骤如下:
步骤501、对每一类新闻评论进行词频统计,选取词频排名前M个词语作为候选的高频 词;
本发明实施例中M取500。
其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚 类处理后含有类别标签每一类新闻评论。
步骤502、根据候选高频词在新闻评论中出现的位置,选取与候选高频词紧邻的前后词 分别构成前后两个词对;
选取与候选高频词紧邻的前一个词语,构成高频词和前词语的词对;同时选取与候选高 频词紧邻的后一个词语,构成高频词和后词语的词对;根据高频词和紧邻词构成了词网。
例如,文本中出现A、B、C三个词语,其中B表示高频词,基于高频词B所构建的词 对是“AB”和“BC”。
步骤503、统计每一个词对在新闻评论中出现的次数,计算每一个词对的权重W:
W=Fg×Nc
其中,词对的权重W即词网中的边的权重,Fg为核心词权重;指词对中高频词的权重, 高频词出现的次数越多,越能形成一条边,说明核心词的权重越高。核心词权重用高频词的 频率来表示。
Nc表示词对共现权重,指两个词同时紧挨着出现的权重,用两个词共现的次数来表示。
步骤504、根据权重对词对进行降序排序,选取前N个词对作为该类新闻评论中的关键 词对;
本发明实施例中N取30。
步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评 论,统计每一类新闻评论的比例和混杂度;
根据步骤二选出的评论数量大于等于阈值K的每一类新闻评论以及步骤四聚类之后得到 的含有类别标签每一类新闻评论,统计每一类新闻评论的数量,计算新闻评论的比例。
新闻评论的混杂度,针对步骤四聚类之后得到的含有类别标签各类新闻评论,表示各类 新闻评论中有多少种标题不同的新闻,更好地反映每一类新闻评论的特征。每一类新闻评论 的混杂度的指标用标准化之后的熵进行衡量;
根据熵的基本理论,计算每一类新闻评论的熵。由于每一类新闻评论含有的标题数量不 一样,对每一类新闻评论的熵Sn进行标准化:
其中,S表示每一类新闻评论中含有的标题数量。
步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。
步骤701、计算每一类新闻评论中的代表性文本;
根据步骤五提取出的关键词对,遍历每一类新闻评论,计算该类关键词对在每条文本中 出现的频数Fw,并乘以关键词对的权重W,将所有关键词对在该文本中出现的频数与权重的 乘积之和作为这条文本的权重Wtext。
Wtext=Fw×W
根据文本权重对文本进行降序排序,选取前J条文本作为该类新闻评论的代表性文本,J 依据用户需求而定;本发明中J取30。
步骤702、对代表性文本进行去重;
对新闻评论中选择的重复的代表性文本进行去重操作,以尽量多地展示该类别下权重比 较高的不同内容的代表性文本。
本发明从内容角度采用Levenshtein距离来实现代表性文本的去重。Levenshtein距离,又 称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。 Levenshtein距离的编辑操作包括将一个字符替换成另一个字符,插入一个字符和删除一个字 符。在对代表性文本按权重排序的同时,计算文本两两之间的Levenshtein距离,只保留 Levenshtein距离相近的一条文本,将其余文本去掉。
本发明鉴于中文短文本的稀疏性、实时性等特性,研究千万级规模新闻评论的观点挖掘 方法,通过结合新闻标题的作用和新闻评论的用词特征,对千万级规模的新闻评论进行聚类, 根据聚类结果,在聚类的基础上,考虑汉语语言的用法和搭配关系,提取每一类新闻评论的 关键词对,并根据关键词对来筛选能表达事件方面或用户观点的这一类新闻评论中的代表性 文本。
机译: 特定于交易策略过程对象的观点的抽象逻辑系统,计算机的中间腿。分离特定逻辑观点的逻辑观点的方法,应用程序编程接口的通用集。在vdeecdeo中提供和从一组输入数据中进行选择,以及。该系统执行针对单个交易事件的特定于一个或多个不同上下文的上下文交易过程准则的处理
机译: 考虑到传输,无线电波的产生非常短,特别是针对位置信息的观点选择特定于该位置信息的观点。
机译: 一种用于流数据的频繁并发事件组的单遍挖掘方法和一种用于流数据的频繁并发事件组的单遍挖掘方法