公开/公告号CN104991968A
专利类型发明专利
公开/公告日2015-10-21
原文格式PDF
申请/专利权人 成都云堆移动信息技术有限公司;
申请/专利号CN201510444180.7
申请日2015-07-24
分类号G06F17/30(20060101);G06F17/27(20060101);
代理机构11340 北京天奇智新知识产权代理有限公司;
代理人郭霞
地址 610041 四川省成都市高新区府城大道西段399号5栋1单元12层1-3号
入库时间 2023-12-18 11:23:54
法律状态公告日
法律状态信息
法律状态
2018-04-20
授权
授权
2015-11-18
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150724
实质审查的生效
2015-10-21
公开
公开
技术领域
本发明涉及一种互联网媒体用户属性分析方法,尤其涉及一种基于文本挖 掘的互联网媒体用户属性分析方法。
背景技术
目前,全世界互联网已经形成规模,互联网应用走向多元化,互联网越来 越深刻地改变着人们的学习、工作以及生活方式。在网络数据分析中,能准确 知道互联网用户的习惯、需求等属性是精确内容推广或者广告投放的重要前提。 目前,在互联网中识别媒体用户属性的现有技术方案都是基于用户文章样本的, 需要首先收集用户全量历史样本,整理样本用户的数据,整理样本库,对样本 库进行标签语料库分类,比如,某个语料库代表“购物”、“时尚”、“服饰”等 内容;然后再根据样本库和互联网用户的样本库进行匹配,来识别用户属性。 比如:如果一个男性用户喜欢访问“军事”、“理财”内容的样本文章,那么所 有访问“军事”,“理财”类样本的用户都是男性的概率较大。即,在互联网中 识别用户属性的传统方法基于样本数据,通过机器学习,再配以数据模型进行 训练,进行互联网用户属性的判断。
上述传统方法存在以下缺陷:都需要有一个已知的用户样本,然后通过用 户样本的行为偏好进行机器学习,再分析未知用户的用户属性,所以只能分析 样本用户属性中的已知属性,对未知的属性无法识别和挖掘,而且对已知属性 进行分析也不够精确。
发明内容
本发明的目的就在于为了解决上述问题而提供一种能对互联网用户的属性 进行全方位分析的基于文本挖掘的互联网媒体用户属性分析方法。
本发明通过以下技术方案来实现上述目的:
一种基于文本挖掘的互联网媒体用户属性分析方法,包括以下步骤:
(1)文本挖掘:
1.1:创建标签主语料库:
1.1.1:抽取文章样本,对样本进行清洗,清洗掉音频、视频、图片和残缺 文章、乱码、非法字符;
1.1.2:根据标签类库人工分类;
1.1.3:对样本同时进行动态聚类和模糊聚类,设置簇参数;
1.1.4:依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理,得 出噪音值M;
1.1.5:将噪音值M与阈值a作比较,如果噪音值M小于阈值a,则跳转至 步骤1.1.6,如果噪音值M大于或等于阈值a,则跳转至步骤1.1.3;
1.1.6:再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度 降噪处理,得出噪音值N;
1.1.7:将噪音值N与阈值a作比较,如果噪音值N小于阈值a,则跳转至 步骤1.1.8,如果噪音值N大于或等于阈值a,则进行修正标签类库后跳转至步 骤1.1.6;
1.1.8:进行模型分类形成标签主语料库;
1.2:创建特征语料库:
1.2.1:对标签主语料库依次进行样本词频分析、语义分析;
1.2.2:进行高词频分类;
1.2.3:创建特征词与标签类库的映射模型,形成特征语料库;
1.3:语料库更新维护:
1.3.1:抽取全量已分类文章样本;
1.3.2:依次进行词频分析、语义分析、密度降噪处理和清洗噪音数据,样 本分类,更新标签主语料库或者特征语料库;
1.3.3:搜集新增标签,抽取带新增标签文章样本,进入步骤1.1,清洗噪音 数据,样本分类,更新标签主语料库;
(2)获取互联网媒体用户属性集合:
2.1:抽取互联网媒体用户全量历史文章样本,对样本进行清洗,清洗掉视 频、音频和图片;
2.2:对样本进行动态聚类和模糊聚类同步处理,再依次进行词频分析、语 义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;
2.3:将噪音值A与阈值a作比较,如果噪音值A小于阈值a,则跳转至步 骤2.4,如果噪音值A大于或等于阈值a,则跳转至步骤2.2;
2.4:再依次进行模型聚类、语义分析、类特征分析和密度降噪处理,得出 噪音值B;
2.5:将噪音值B与阈值a作比较,如果噪音值B小于阈值a,则跳转至步 骤2.6,如果噪音值B大于或等于阈值a,则进行修正类参数处理后跳转至步骤 2.4;
2.6:进行模型分类形成互联网媒体用户属性集合;
上述步骤中,阈值a根据业务需要进行调整,一般选择0.01;上述步骤中 涉及下述词语的定义如下:
标签类库:由一类自定义标签形成的类库,每一个标签均指向同一类属性 的事物,不同类标签之间有明显特征区别,遵循高聚类、低耦合的原则;
簇参数:用聚类算法进行聚类时,根据标签类库的标签种类数量及文章的 相似度人为设定的一个组类数量,同组类的样本相似度较高,异组类的样本相 似度较低,聚类时以此参数作为分组的依据,并通过人工监督的方式不断调整 该参数,以达到与标签类库最佳匹配的目的;
语义分析:第一,人工分析:对样本进行聚类后,通过人工抽样的方式, 对样本进行人工理解,判断样本之间的相似度的过程,同时作为簇参数的修改 依据;第二,机器分析:对样本进行分类时,通过与语料库的匹配算法,对样 本进行分类的过程,同时作为语料库修正的依据;
簇特征分析:通过语义分析,利用提取主特征的算法,对已聚类的簇进行 特征提取和标识的过程;
修正簇参数:在构建语料库时,对样本进行第一次聚类后,通过人工监督 学习的方式,利用簇特征分析,调整聚类的组类数量以达到与标签类库的最佳 匹配,这个调整组类数量的过程即为修正簇参数;
密度降噪处理:在簇特征分析过程中,需要对数据进行噪音处理,将主特 征散点分布图中距离较远的点去掉,以形成可反应主特征的类别集合,这个去 除噪音点的过程,即为密度降噪处理;
类特征分析:经过第一次簇降噪,对降噪后的类别集合进行特征提取和标 识的过程;
修正类参数:在构建语料库时,对样本进行第二次聚类后,通过人工监督 学习的方式,利用类特征分析,调整聚类的组类数量以达到与标签类库的最佳 匹配,这个调整组类数量的过程即为修正簇参数;
修正标签类库:在第二次聚类的过程中,由于已经进行过一次降噪处理, 样本分类模型已初步满足高聚类、低耦合的原则,再基于此模型进行第二次降 噪处理后,基本可以达到业务要求,此时的分类模型已经确定,需要通过调整 标签类库来达到与分类的最佳匹配,此调整过程即为修正标签类库;
基于模型分类:经过两次降噪处理后,形成一个基于样本的分类模型,作 为冷启动的修正算法,再对需要分类的样本基于该模型进行分类的过程;
动态聚类:按照限定类别去发现符合类别的样本词汇;
模糊聚类:按照样本词汇语义模糊归属类别;
模型聚类:先假设一个类别,再去发现符合类别的样本词汇,将给定类别 和样本词汇达到最佳拟合。
作为优选,所述步骤1.1.4中,M值算法如下:
考虑给定对象集D,对象o的k-距离记为disk k(o),是o与另一个对象p∈ D之间的距离dist(o,p),使得:
至少有K个对象o’∈D,使得disk(o,o’)≤dist(o,p),
至少有K-1个对象o’∈D,使得disk(o,o’)≤dist(o,p),
记:
Nk(o)={o’|o’∈D,dist(o,o’)≤distk(o)},
对于两个对象o,o’,如果dist(o,o’)>distk(o),则从o’到o的可达距离是 dist(o,o’),否则是distk(o),
即:
reachdist k(o←o’)=max{distk(o),dist(o,o’)},
对象o的局部可达密度为:
则定义o的局部离群点因子为:
若LOF k(o)远小于1,则对象o为离群点,LOF k(o)即为M值。
本发明的有益效果在于:
通过本发明可形成每个互联网媒体用户的浏览样本文章属性,分析出喜好 类别的权重,从而识别、分析和挖掘用户的用户属性,不仅能分析挖掘用户基 本属性,识别用户属性的应用范围大大扩大,而且还可以分析整个互联网媒体 用户的基本属性,并且标签语料库库涵盖了各个行业,可以很有针对性地分析 用户的属性,也可以分析用户的偏好,能对互联网媒体用户的全方位属性提供 支持;本发明不仅具有广泛的商业应用价值,同时也为互联网媒体用户标签的 挖掘算法和知识图谱的应用指明了研究方向。
具体实施方式
下面结合实施例对本发明作进一步说明:
实施例:
本发明所述基于文本挖掘的互联网媒体用户属性分析方法,包括以下步骤:
(1)文本挖掘:
1.1:创建标签主语料库:
1.1.1:抽取文章样本,对样本进行清洗,清洗掉音频、视频、图片和残缺 文章、乱码、非法字符;
1.1.2:根据标签类库人工分类;
1.1.3:对样本同时进行动态聚类和模糊聚类,设置簇参数;
1.1.4:依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理,得 出噪音值M;
1.1.5:将噪音值M与阈值a作比较,如果噪音值M小于阈值a,则跳转至 步骤1.1.6,如果噪音值M大于或等于阈值a,则跳转至步骤1.1.3;
1.1.6:再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度 降噪处理,得出噪音值N;
1.1.7:将噪音值N与阈值a作比较,如果噪音值N小于阈值a,则跳转至 步骤1.1.8,如果噪音值N大于或等于阈值a,则进行修正标签类库后跳转至步 骤1.1.6;
1.1.8:进行模型分类形成标签主语料库;
1.2:创建特征语料库:
1.2.1:对标签主语料库依次进行样本词频分析、语义分析;
1.2.2:进行高词频分类;
1.2.3:创建特征词与标签类库的映射模型,形成特征语料库;
1.3:语料库更新维护:
1.3.1:抽取全量已分类文章样本;
1.3.2:依次进行词频分析、语义分析、密度降噪处理和清洗噪音数据,样 本分类,更新标签主语料库或者特征语料库;
1.3.3:搜集新增标签,抽取带新增标签文章样本,进入步骤1.1,清洗噪音 数据,样本分类,更新标签主语料库;
(2)获取互联网媒体用户属性集合:
2.1:抽取互联网媒体用户全量历史文章样本,对样本进行清洗,清洗掉视 频、音频和图片;
2.2:对样本进行动态聚类和模糊聚类同步处理,再依次进行词频分析、语 义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;
2.3:将噪音值A与阈值a作比较,如果噪音值A小于阈值a,则跳转至步 骤2.4,如果噪音值A大于或等于阈值a,则跳转至步骤2.2;
2.4:再依次进行模型聚类、语义分析、类特征分析和密度降噪处理,得出 噪音值B;
2.5:将噪音值B与阈值a作比较,如果噪音值B小于阈值a,则跳转至步 骤2.6,如果噪音值B大于或等于阈值a,则进行修正类参数处理后跳转至步骤 2.4;
2.6:进行模型分类形成互联网媒体用户属性集合;
上述步骤中,阈值a根据业务需要进行调整,一般选择0.01;上述步骤中 涉及下述词语的定义如下:
标签类库:由一类自定义标签形成的类库,每一个标签均指向同一类属性 的事物,不同类标签之间有明显特征区别,遵循高聚类、低耦合的原则;
簇参数:用聚类算法进行聚类时,根据标签类库的标签种类数量及文章的 相似度人为设定的一个组类数量,同组类的样本相似度较高,异组类的样本相 似度较低,聚类时以此参数作为分组的依据,并通过人工监督的方式不断调整 该参数,以达到与标签类库最佳匹配的目的;
语义分析:第一,人工分析:对样本进行聚类后,通过人工抽样的方式, 对样本进行人工理解,判断样本之间的相似度的过程,同时作为簇参数的修改 依据;第二,机器分析:对样本进行分类时,通过与语料库的匹配算法,对样 本进行分类的过程,同时作为语料库修正的依据;
簇特征分析:通过语义分析,利用提取主特征的算法,对已聚类的簇进行 特征提取和标识的过程;
修正簇参数:在构建语料库时,对样本进行第一次聚类后,通过人工监督 学习的方式,利用簇特征分析,调整聚类的组类数量以达到与标签类库的最佳 匹配,这个调整组类数量的过程即为修正簇参数;
密度降噪处理:在簇特征分析过程中,需要对数据进行噪音处理,将主特 征散点分布图中距离较远的点去掉,以形成可反应主特征的类别集合,这个去 除噪音点的过程,即为密度降噪处理;
类特征分析:经过第一次簇降噪,对降噪后的类别集合进行特征提取和标 识的过程;
修正类参数:在构建语料库时,对样本进行第二次聚类后,通过人工监督 学习的方式,利用类特征分析,调整聚类的组类数量以达到与标签类库的最佳 匹配,这个调整组类数量的过程即为修正簇参数;
修正标签类库:在第二次聚类的过程中,由于已经进行过一次降噪处理, 样本分类模型已初步满足高聚类、低耦合的原则,再基于此模型进行第二次降 噪处理后,基本可以达到业务要求,此时的分类模型已经确定,需要通过调整 标签类库来达到与分类的最佳匹配,此调整过程即为修正标签类库;
基于模型分类:经过两次降噪处理后,形成一个基于样本的分类模型,作 为冷启动的修正算法,再对需要分类的样本基于该模型进行分类的过程;
动态聚类:按照限定类别去发现符合类别的样本词汇;
模糊聚类:按照样本词汇语义模糊归属类别;
模型聚类:先假设一个类别,再去发现符合类别的样本词汇,将给定类别 和样本词汇达到最佳拟合;
所述步骤1.1.4中,M值算法如下:
考虑给定对象集D,对象o的k-距离记为disk k(o),是o与另一个对象p∈ D之间的距离dist(o,p),使得:
至少有K个对象o’∈D,使得disk(o,o’)≤dist(o,p),
至少有K-1个对象o’∈D,使得disk(o,o’)≤dist(o,p),
记:
Nk(o)={o’|o’∈D,dist(o,o’)≤distk(o)},
对于两个对象o,o’,如果dist(o,o’)>distk(o),则从o’到o的可达距离是 dist(o,o’),否则是distk(o),
即:
reachdist k(o←o’)=max{distk(o),dist(o,o’)},
对象o的局部可达密度为:
则定义o的局部离群点因子为:
若LOF k(o)远小于1,则对象o为离群点,LOF k(o)即为M值。
相比传统的互联网媒体用户属性分析方法,上述方法具有如下特点:
1、建立带标签的语料库,同时语料库带有多重功能,包括主语料库和特征 语料库,以及在创建语料库时的多次迭代和噪音值修正,通过多次迭代和噪音 值修正,可以在已有模型的基础上,不断修正语料库的精准度;同时在聚类后 再根据模型进行噪音处理,可以更加精准的贴合模型,以满足业务的需要;
2、标签主语料库和特征语料库的多级分类,对样本的分类更加准确清晰;
3、语料库的全行业覆盖;
4、获取用户属性集合时的多次迭代聚类,修正噪音值参数,带语义分析和 类特征分析的分类模式,通过人工监督和机器学习相结合的方式,达到精准画 像的目的。
本发明所举实施例对本发明的目的、技术方案和优点进行了进一步详细说 明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用 以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同 替换、改进等,均应包含在本发明的保护范围之内。
机译: 基于文本挖掘的互联网媒体用户属性分析方法
机译: 基于文本挖掘的网络媒体用户属性分析方法
机译: 基于文本挖掘的网络媒体用户属性分析方法