首页> 中国专利> 基于文本挖掘的互联网媒体用户属性分析方法

基于文本挖掘的互联网媒体用户属性分析方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于文本挖掘的互联网媒体用户属性分析方法，包括如下步骤：(1)文本挖掘：1.1：创建标签主语料库；1.2：创建特征语料库；1.3：语料库更新维护；(2)获取互联媒体网用户属性集合：2.1：抽取互联网媒体用户全量历史文章样本并清洗；2.2：对样本进行处理，得出噪音值；2.3：将噪音值与阈值a作比较，噪音值小于阈值a，则进行模型分类形成互联网媒体用户属性集合。通过本发明不仅能分析挖掘用户基本属性，识别用户属性的应用范围大大扩大，而且还可以分析互联网媒体用户的基本属性，能对互联网媒体用户的全方位属性提供支持，不仅具有广泛的商业应用价值，也为互联网媒体用户标签的挖掘算法和知识图谱的应用指明了研究方向。

著录项

公开/公告号CN104991968A

专利类型发明专利
公开/公告日2015-10-21

原文格式PDF
申请/专利权人成都云堆移动信息技术有限公司;
展开▼

申请/专利号CN201510444180.7
发明设计人王飞;张国鸿;张何君;
展开▼

申请日2015-07-24
分类号G06F17/30(20060101);G06F17/27(20060101);
代理机构11340 北京天奇智新知识产权代理有限公司;
代理人郭霞
地址 610041 四川省成都市高新区府城大道西段399号5栋1单元12层1-3号
入库时间 2023-12-18 11:23:54

法律信息

法律状态公告日

法律状态信息

法律状态
2018-04-20

授权

授权
2015-11-18

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150724

实质审查的生效
2015-10-21

公开

公开

说明书

技术领域

本发明涉及一种互联网媒体用户属性分析方法，尤其涉及一种基于文本挖掘的互联网媒体用户属性分析方法。

背景技术

目前，全世界互联网已经形成规模，互联网应用走向多元化，互联网越来越深刻地改变着人们的学习、工作以及生活方式。在网络数据分析中，能准确知道互联网用户的习惯、需求等属性是精确内容推广或者广告投放的重要前提。目前，在互联网中识别媒体用户属性的现有技术方案都是基于用户文章样本的，需要首先收集用户全量历史样本，整理样本用户的数据，整理样本库，对样本库进行标签语料库分类，比如，某个语料库代表“购物”、“时尚”、“服饰”等内容；然后再根据样本库和互联网用户的样本库进行匹配，来识别用户属性。比如：如果一个男性用户喜欢访问“军事”、“理财”内容的样本文章，那么所有访问“军事”，“理财”类样本的用户都是男性的概率较大。即，在互联网中识别用户属性的传统方法基于样本数据，通过机器学习，再配以数据模型进行训练，进行互联网用户属性的判断。

上述传统方法存在以下缺陷：都需要有一个已知的用户样本，然后通过用户样本的行为偏好进行机器学习，再分析未知用户的用户属性，所以只能分析样本用户属性中的已知属性，对未知的属性无法识别和挖掘，而且对已知属性进行分析也不够精确。

发明内容

本发明的目的就在于为了解决上述问题而提供一种能对互联网用户的属性进行全方位分析的基于文本挖掘的互联网媒体用户属性分析方法。

本发明通过以下技术方案来实现上述目的：

一种基于文本挖掘的互联网媒体用户属性分析方法，包括以下步骤：

(1)文本挖掘：

1.1：创建标签主语料库：

1.1.1：抽取文章样本，对样本进行清洗，清洗掉音频、视频、图片和残缺文章、乱码、非法字符；

1.1.2：根据标签类库人工分类；

1.1.3：对样本同时进行动态聚类和模糊聚类，设置簇参数；

1.1.4：依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理，得出噪音值M；

1.1.5：将噪音值M与阈值a作比较，如果噪音值M小于阈值a，则跳转至步骤1.1.6，如果噪音值M大于或等于阈值a，则跳转至步骤1.1.3；

1.1.6：再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理，得出噪音值N；

1.1.7：将噪音值N与阈值a作比较，如果噪音值N小于阈值a，则跳转至步骤1.1.8，如果噪音值N大于或等于阈值a，则进行修正标签类库后跳转至步骤1.1.6；

1.1.8：进行模型分类形成标签主语料库；

1.2：创建特征语料库：

1.2.1：对标签主语料库依次进行样本词频分析、语义分析；

1.2.2：进行高词频分类；

1.2.3：创建特征词与标签类库的映射模型，形成特征语料库；

1.3：语料库更新维护：

1.3.1：抽取全量已分类文章样本；

1.3.2：依次进行词频分析、语义分析、密度降噪处理和清洗噪音数据，样本分类，更新标签主语料库或者特征语料库；

1.3.3：搜集新增标签，抽取带新增标签文章样本，进入步骤1.1，清洗噪音数据，样本分类，更新标签主语料库；

(2)获取互联网媒体用户属性集合：

2.1：抽取互联网媒体用户全量历史文章样本，对样本进行清洗，清洗掉视频、音频和图片；

2.2：对样本进行动态聚类和模糊聚类同步处理，再依次进行词频分析、语义分析、类特征分析、修正类参数和密度降噪处理，得出噪音值A；

2.3：将噪音值A与阈值a作比较，如果噪音值A小于阈值a，则跳转至步骤2.4，如果噪音值A大于或等于阈值a，则跳转至步骤2.2；

2.4：再依次进行模型聚类、语义分析、类特征分析和密度降噪处理，得出噪音值B；

2.5：将噪音值B与阈值a作比较，如果噪音值B小于阈值a，则跳转至步骤2.6，如果噪音值B大于或等于阈值a，则进行修正类参数处理后跳转至步骤 2.4；

2.6：进行模型分类形成互联网媒体用户属性集合；

上述步骤中，阈值a根据业务需要进行调整，一般选择0.01；上述步骤中涉及下述词语的定义如下：

标签类库：由一类自定义标签形成的类库，每一个标签均指向同一类属性的事物，不同类标签之间有明显特征区别，遵循高聚类、低耦合的原则；

簇参数：用聚类算法进行聚类时，根据标签类库的标签种类数量及文章的相似度人为设定的一个组类数量，同组类的样本相似度较高，异组类的样本相似度较低，聚类时以此参数作为分组的依据，并通过人工监督的方式不断调整该参数，以达到与标签类库最佳匹配的目的；

语义分析：第一，人工分析：对样本进行聚类后，通过人工抽样的方式，对样本进行人工理解，判断样本之间的相似度的过程，同时作为簇参数的修改依据；第二，机器分析：对样本进行分类时，通过与语料库的匹配算法，对样本进行分类的过程，同时作为语料库修正的依据；

簇特征分析：通过语义分析，利用提取主特征的算法，对已聚类的簇进行特征提取和标识的过程；

修正簇参数：在构建语料库时，对样本进行第一次聚类后，通过人工监督学习的方式，利用簇特征分析，调整聚类的组类数量以达到与标签类库的最佳匹配，这个调整组类数量的过程即为修正簇参数；

密度降噪处理：在簇特征分析过程中，需要对数据进行噪音处理，将主特征散点分布图中距离较远的点去掉，以形成可反应主特征的类别集合，这个去除噪音点的过程，即为密度降噪处理；

类特征分析：经过第一次簇降噪，对降噪后的类别集合进行特征提取和标识的过程；

修正类参数：在构建语料库时，对样本进行第二次聚类后，通过人工监督学习的方式，利用类特征分析，调整聚类的组类数量以达到与标签类库的最佳匹配，这个调整组类数量的过程即为修正簇参数；

修正标签类库：在第二次聚类的过程中，由于已经进行过一次降噪处理，样本分类模型已初步满足高聚类、低耦合的原则，再基于此模型进行第二次降噪处理后，基本可以达到业务要求，此时的分类模型已经确定，需要通过调整标签类库来达到与分类的最佳匹配，此调整过程即为修正标签类库；

基于模型分类：经过两次降噪处理后，形成一个基于样本的分类模型，作为冷启动的修正算法，再对需要分类的样本基于该模型进行分类的过程；

动态聚类：按照限定类别去发现符合类别的样本词汇；

模糊聚类：按照样本词汇语义模糊归属类别；

模型聚类：先假设一个类别，再去发现符合类别的样本词汇，将给定类别和样本词汇达到最佳拟合。

作为优选，所述步骤1.1.4中，M值算法如下：

考虑给定对象集D，对象o的k-距离记为disk k(o)，是o与另一个对象p∈ D之间的距离dist(o,p)，使得：

至少有K个对象o’∈D，使得disk(o,o’)≤dist(o,p)，

至少有K-1个对象o’∈D，使得disk(o,o’)≤dist(o,p)，

记：

Nk(o)＝{o’|o’∈D,dist(o,o’)≤distk(o)}，

对于两个对象o，o’，如果dist(o,o’)>distk(o)，则从o’到o的可达距离是 dist(o,o’)，否则是distk(o)，

即：

reachdist k(o←o’)＝max{distk(o),dist(o,o’)}，

对象o的局部可达密度为：

$l r d >k(o)=\frac{| | N k (o) | |}{Σ_{o^{'} \in N k (o)} r e a c h d i s t k (o \leftarrow o^{'})},$

则定义o的局部离群点因子为：

$L O F >k(o)\frac{Σ_{o^{'} \in N k (o)} \frac{l r d >k(o)}{l r d >k(o)}}{| | N k (o) | |},$

若LOF k(o)远小于1，则对象o为离群点，LOF k(o)即为M值。

本发明的有益效果在于：

通过本发明可形成每个互联网媒体用户的浏览样本文章属性，分析出喜好类别的权重，从而识别、分析和挖掘用户的用户属性，不仅能分析挖掘用户基本属性，识别用户属性的应用范围大大扩大，而且还可以分析整个互联网媒体用户的基本属性，并且标签语料库库涵盖了各个行业，可以很有针对性地分析用户的属性，也可以分析用户的偏好，能对互联网媒体用户的全方位属性提供支持；本发明不仅具有广泛的商业应用价值，同时也为互联网媒体用户标签的挖掘算法和知识图谱的应用指明了研究方向。

具体实施方式

下面结合实施例对本发明作进一步说明：

实施例：

本发明所述基于文本挖掘的互联网媒体用户属性分析方法，包括以下步骤：