首页> 中国专利> 人口属性标签预测方法、系统、计算机设备和存储介质

人口属性标签预测方法、系统、计算机设备和存储介质

摘要

本发明涉及一种人口属性标签预测方法、系统、计算机设备和存储介质。其中,该方法包括:数据特征获取步骤,根据一基本数据获得先验统计特征,一集成模型接收并根据一数据处理源处理基本数据获取的基本数据特征输出基本特征;人口属性标签预测步骤,一逻辑回归模型接收融合后的基础特征和先验统计特征,并据此输出对应的人口属性标签。本发明通过统计先验统计特征,与基本特征多层次融合输入进模型预测,有效解决了高纬度稀疏的广告数据的预测问题,提升模型的预测效果,提高了人口属性标签预测的准确率。

著录项

  • 公开/公告号CN113052635A

    专利类型发明专利

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 北京明略昭辉科技有限公司;

    申请/专利号CN202110342146.4

  • 发明设计人 赵立超;潘峰;

    申请日2021-03-30

  • 分类号G06Q30/02(20120101);G06N20/00(20190101);

  • 代理机构37256 青岛清泰联信知识产权代理有限公司;

  • 代理人李红岩

  • 地址 100089 北京市海淀区北三环西路25号27号楼二层2020室

  • 入库时间 2023-06-19 11:39:06

说明书

技术领域

本申请涉及数据处理技术领域,特别是涉及人口属性标签预测方法、系统、计算机设备和存储介质。

背景技术

人口属性标签(性别、年龄、教育程度等)是用于各推荐系统、广告投放和智能营销等领域的重要输入特征,通过对用户产生的互联网数据及行为,分析用户属性,预测用户的属性标签。然而如何从大量不规则的用户行为数据采用什么方法分析人口属性标签是较为困难的。

现有技术主要使用单一的预测模型在基本的数据特征层面训练及预测,例如常用的一些传统机器学习SVM、决策树等在用户行为产生数据直接提取出来的特征层面预测。

但是,传统的单一机器学习模型没有深层次的挖掘数据信息,尤其广告数据存在的数据稀疏维度高,简单的算法模型不能充分挖掘数据知识。同时,对于基本的数据特征,没有深一步挖掘种子数据集,直接输入进模型进行训练,数据和特征决定模型预测的上限。上述原因导致现有技术仅使用得到的基本特征及单一的预测模型的预测结果可能会存在一定的偏差,当要预测的标签比较复杂且类别较多,预测效果的局限性会进一步放大。

目前针对人口属性标签领域中预测准确性差的问题,尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种人口属性标签预测方法和系统,以至少解决相关技术中月准确性差的问题。

第一方面,本申请实施例提供了一种人口属性标签预测方法,包括以下步骤:

数据特征获取步骤,根据一基本数据获得先验统计特征,一集成模型接收并根据一数据处理源处理所述基本数据获取的基本数据特征输出基本特征;

人口属性标签预测步骤,一逻辑回归模型接收融合后的基本特征和所述先验统计特征,并据此输出对应的人口属性标签。

在其中一些实施例中,所述集成模型具体设置为Lightgbm模型,数据特征获取步骤具体包括:

基本特征获取步骤,将预先打好标签的基本数据特征输入至Lightgbm模型,并建立直方图以获得基本特征;

先验统计特征获得步骤,依据基本数据的数据属性特征统计不同维度下基本数据的对应人口属性标签的平均分布概率,并以此作为先验统计特征。

本申请实施例采用了将Lightgbm模型和LR(逻辑回归)模型结合,可以将Lightgbm模型和LR模型的优点结合,有效解决了高纬度稀疏的广告数据的对应人口属性标签的预测问题,提高了标签预测的准确性。

基于采集的基础数据使用Lightgbm模型经过处理获得基础特征和先验统计特征,其中使用Lightgbm模型处理基本特征,可以发掘有区分度的特征及特征组合,减少特征工程中的人力成本,对先验统计特征进行统计,与基础特征多层次融合输入至LR模型,可以提升模型的预测结果。

在其中一些实施例中,先验统计特征获得步骤具体包括:

标签向量化步骤,依据数据属性特征使用one-hot编码对待预测的人口属性标签进行标签向量化;

平均分布概率获取步骤,根据标签向量化的结果获得基本数据在不同维度对应人口属性标签的平均分布概率。

在其中一些实施例中,人口属性标签预测步骤具体包括:

将基本特征和先验统计特征通过向量拼接拟合至一sigmoid函数,并得到人口属性标签。

第二方面,本申请实施例提供了一种人口属性标签预测系统,应用第一方面的人口属性标签预测方法,包括:

数据特征获取模块,根据一基本数据获得先验统计特征,一集成模型接收并根据一数据处理源处理所述基本数据获取的基本数据特征输出基本特征;

人口属性标签预测模块,一逻辑回归模型接收融合后的基本特征和所述先验统计特征,并据此输出对应的人口属性标签。

在其中一些实施例中,所述集成模型具体设置为Lightgbm模型,数据特征获取模块具体包括:

基本特征获取单元,将基本数据特征输入至Lightgbm模型,并建立直方图以获得基本特征;

先验统计特征获得单元,依据基本数据的数据属性特征统计不同维度下基本数据的对应人口属性标签的平均分布概率,并以此作为先验统计特征。

在其中一些实施例中,先验统计特征获得单元具体包括:

标签向量化子单元,依据数据属性特征使用one-hot编码对待预测的人口属性标签进行标签向量化;

平均分布概率获取子单元,根据标签向量化的结果获得基本数据在不同维度对应人口属性标签的平均分布概率。

在其中一些实施例中,人口属性标签预测模块具体包括:

将基本特征和先验统计特征通过向量拼接拟合至一sigmoid函数,并得到人口属性标签。

第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述第一方面的人口属性标签预测方法。

第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面的人口属性标签预测方法。

本申请实施例提出了一种人口属性标签预测的方法、系统、计算机设备和存储介质,本发明可以应用于云服务与数据能力领域,还可以应用于数据工程领域,本发明通过统计先验统计特征,与基本特征多层次融合输入进模型预测,有效解决了高纬度稀疏的广告数据的预测问题,提升模型的预测效果,提高了人口属性标签预测的准确率

本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的人口属性标签预测方法的流程图;

图2是根据本申请实施例的数据特征获取步骤的流程图;

图3是根据本申请实施例的先验统计特征获得步骤的流程图;

图4是根据本申请实施例的另一种人口属性标签预测方法的流程图;

图5为本申请优选实施例中先验统计特征步骤的流程图;

图6是根据本申请实施例的人口属性标签预测系统的结构框图;

图7为根据本申请实施例的计算机设备的硬件结构示意图。

附图说明:

数据特征获取模块1;人口属性标签预测模块2;

基本特征获取单元11;先验统计特征获得单元12;

标签向量化子单元121;平均分布概率获取子单元122;

处理器81;存储器82;通信接口83;总线80。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。

除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。

下面对本申请实施例中的Lightgbm模型和逻辑回归模型进行简要说明。

其中,Lightgbm模型是个快速的,分布式的,高性能的基于决策树算法的梯度提升框架。可用于排序,分类,回归以及很多其他的机器学习任务中。其为了解决这种在大样本高纬度数据的环境下耗时的问题,Lightgbm使用了如下两种解决办法:一是GOSS(Gradient-based One-Side Sampling,基于梯度的单边采样),不是使用所用的样本点来计算梯度,而是对样本进行采样来计算梯度;二是EFB(Exclusive Feature Bundling,互斥特征捆绑),这里不是使用所有的特征来进行扫描获得最佳的切分点,而是将某些特征进行捆绑在一起来降低特征的维度,是寻找最佳切分点的消耗减少。这样大大的降低的处理样本的时间复杂度,但在精度上,通过大量的实验证明,在某些数据集上使用Lightgbm并不损失精度,甚至有时还会提升精度。

逻辑回归(logistic regression)模型就是一个线性分类的模型。与线性回归不同的是:LR模型将线性方程输出的很大范围的数压缩到了[0,1]区间上;换言之:LR模型就是一个被logistic方程归一化后的线性回归。

当前,人口属性标签预测的现有技术是结合机器学习、深度学习等技术,训练相关模型预测人口属性标签,预测模型通过对输入数据特征信息的学习不断调整优化。因此如何设计开发具体的预测模型以及采用什么用户数据特征,如何统计用户数据特征信息来训练模型是直接影响人口属性标签预测的关键一步,在某种程度上直接决定用户标签预测结果的好坏。

一般来说,现有技术通常采用单一的机器学习模型预测人口属性标签,常用的一些传统机器学习SVM、决策树等在用户行为产生数据直接提取出来的特征层面预测。模型的输入特征为用户点击广告数据的一些基本特征,例如品牌、行业等。具体步骤如下:

(1)对于用户行为数据的收集与整理,对数据清洗和处理,并获取基本的种子数据集;

(2)提取数据特征用于模型训练,提取数据的基本特征,包括广告商品、行业、品牌、设备等特征信息;

(3)选择构建单一的机器学习分类模型;

(4)将特征提取完之后的训练数据集输入进模型,训练模型,优化模型参数;

(5)用训练好的模型预测未知标签的用户数据,预测用户属性标签。

上述现有技术存在以下技术问题,首先传统的单一机器学习模型没有深层次的挖掘数据信息,尤其广告数据存在的数据稀疏维度高,简单的算法模型不能充分挖掘数据知识。同时对于基本的数据特征,没有深一步挖掘种子数据集,直接将基本的数据特征输入至模型进行训练。由于数据和特征决定模型预测的上限,现有技术仅使用得到的基本特征及单一的预测模型,导致人口属性标签预测问题可能会存在一定的偏差,当要预测的标签比较复杂且类别较多,预测效果的局限性会进一步放大。

因此,本实施例提供了一种人口属性标签预测方法。图1是根据本申请实施例的人口属性标签预测方法的流程图,如图1所示,该流程包括如下步骤:

数据特征获取步骤S1,根据一基本数据获得先验统计特征,一集成模型接收并根据一数据处理源处理基本数据获取的基本数据特征输出基本特征;

人口属性标签预测步骤S2,一逻辑回归模型接收融合后的基本特征和所述先验统计特征,并据此输出对应的人口属性标签。

需要说明的是,上述基本数据可以包括(1)广告信息数据:广告点位、品牌、商品、行业;(2)近三个月APP安装数据:app类别(大类、小类等);(3)媒体平台:媒体类别ID;(4)设备数据:设备机型。

本申请实施例采用了将Lightgbm模型和LR(逻辑回归)模型结合,可以将Lightgbm模型和LR模型的优点结合,有效解决了高纬度稀疏的广告数据的对应人口属性标签的预测问题,提高了标签预测的准确性。具体而言,本专利提出了Lightgbm+LR的模型结构,Lightgbm可以深度挖掘有效的特征组合得到高阶信息,提高整体效率,再经过LR模型快速预测,有效地提高了预测的准确性和效率。

此外本申请实施例提出的人口属性标签预测方法引入多层次模型融合,基于Lightgbm+LR模型结构,将高维稀疏的基本数据特征输入进Lightgbm模型学习处理,将计算Lightgbm模型得出的特征向量与先验统计特征融合输入进LR模型预测。本发明可以深度挖掘高维度且稀疏的数据,提升模型预测标签的准确率,多模型融合及多层次特征也可以减少对人工经验的依赖。

图2是根据本申请实施例的数据特征获取步骤的流程图,如图2所示,在其中一些实施例中,上述集成模型具体设置为Lightgbm模型,数据特征获取步骤S1具体包括:

基本特征获取步骤S11,将预先打好标签的基本数据特征输入至Lightgbm模型,并建立直方图以获得基本特征;

对基本数据预先打好标签,有助于数据的深度挖掘,进一步提高人口属性标签预测的准确性。

由于Lightgbm的直方图特征选择方法及支持类特征等,对于处理广告数据特征更加高效。经过这步可以使用Lightgbm训练产生的转化为叶子结点的特征作为LR输入的特征向量的一部分。

先验统计特征获得步骤S12,依据基本数据的数据属性特征统计不同维度下基本数据的对应人口属性标签的平均分布概率,并以此作为先验统计特征。

需要说明的是,上述先验统计特征与基本数据相对应,可以设置为:(1)广告先验统计特征:品牌、商品、行业(2)APP数据先验统计特征:app类别(3)媒体平台先验统计特征:媒体类别,但不发明并不以此为限。

上述先验统计特征具体为对于用户点击行业、商品、品牌,以及访问媒体平台和app类别的特征的标签属性的分布统计。

通过上述步骤,基于采集的基础数据使用Lightgbm模型经过处理获得基础特征和先验统计特征,其中使用Lightgbm模型处理基本特征,可以发掘有区分度的特征及特征组合,减少特征工程中的人力成本,对先验统计特征进行统计,与基础特征多层次融合输入至LR模型,可以提升模型的预测结果。

Lightgbm特征处理过程由于自身的树模型算法天然具有特征筛选的功能,其通过熵、信息增益、基尼指数等方法,可在每次分裂时选取最优的分裂节点。因此,当Lightgbm模型训练完毕后,从树的根节点到叶子节点都是筛选出来的局部最优特征。

Lightgbm作为一个boosting的基于决策树的算法实现,可以更加快速且分布式的处理特征组合。一般来说,广告类数据的高纬度且缺省率较高,数据特征多为高度离散化的类别特征,因此对于传统的GBDT算法,计算效果和性能不理想,数据量较大的情况模型训练速度较慢。因此本发明中采用Lightgbm模型处理数据特征运算效果精确,运算速度增快,

图3是根据本申请实施例的先验统计特征获得步骤的流程图,如图3所示,在其中一些实施例中,先验统计特征获得步骤S12具体包括:

标签向量化步骤S121,依据数据属性特征使用one-hot编码对待预测的人口属性标签进行标签向量化;

平均分布概率获取步骤S122,根据标签向量化的结果获得基本数据在不同维度对应人口属性标签的平均分布概率。

在其中一些实施例中,人口属性标签预测步骤S2具体包括:

将基本特征和先验统计特征通过向量拼接拟合至一sigmoid函数,并得到人口属性标签。

基于LR模型为线性模型,易并行化,预测速度较快,且由于Lightgbm挖掘特征信息及特征组合输入进LR模型,也弥补了LR模型学习能力不足的问题,可以进一步提高预测的准确性。

通过将Lightgbm模型的特征筛选功能筛选一些局部最优的特征组合,然后将组合特征输入到LR算法,有效提升LR算法的拟合能力。

本申请实施例提出一种基于多模型融合及多层次特征融合的人口属性标签预测方法,主要体现在两方面基于Lightgbm+逻辑回归(LR)多模型融合算法,和将基本特征及先验统计特征分层次融合进算法模型。可用于的人口属性的互联网广告行为数据存在数据特征维度较大,具体特征值的类别较多且过于稀疏的特点。LR模型为简单的线性模型对于这类的数据学习能力较差,而传统的GBDT方法对于此类高维稀疏数据学习成本比较大,而Lightgbm模型在内存消耗和训练速度方面上的提升,以及支持类别特征、缺省值处理、分布式处理等功能,更加适用于处理高维稀疏数据。

本实施例还提供了一种人口属性标签预测方法。图4是根据本申请实施例的另一种人口属性标签预测方法的流程图,如图4所示,该流程包括如下步骤:

S401,Lightgbm模型部分。将处理好的基本数据特征信息输入进Lightgbm模型中得到相关特征向量。

S402,先验统计特征部分。S401步骤的同时,统计好先验统计特征,上述先验统计特征主要统计基本数据信息里的广告信息数据、APP信息数据、媒体平台的四个维度的特征数据的相应标签的平均分布。

S402的具体的实现步骤为:首先对要预测的属性标签向量化,one-hot编码向量化标签。例如,男女标签共两类,则将性别标签编码为长度为2,比如[0,1]代表男,[1,0]代表女,其他标签也一样。然后分别统计已知数据中在广告信息数据、APP信息数据、媒体平台不同标签上的平均分布,作为先验统计信息。

S403,LR标签预测部分。将相关特征向量和先验统计特征融合输入进LR模型来预测人口属性标签,

LR模型预测人口属性标签具体步骤为:将数据拟合到一个logit函数(或者叫做logistic函数)中,从而能够完成对事件发生的概率进行预测本发明使用人口属性标签预测方法预测人口属性标签。

需要说明的是,sigmoid和logit之间互为反函数。

对于用户行为关联的广告、app、媒体将上述统计好的先验统计特征作为新的特征与Lightgbm训练产生的转化为叶子结点的特征融合作为新的特征信息输入到LR模型,这样做可以有效地提高预测准确性。

需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,例如S401和S402可以不同时进行,采取分步进行的方式,且不分先后顺序。

下面是本申请优选实施例的说明先验统计特征步骤。以广告数据和性别标签举例,例如用户点击的一条广告包括广告主、品牌、商品、行业等数据属性特征,图5为本申请优选实施例中先验统计特征步骤的流程图,如图5所示。

S501,平均概率分布获取步骤。首先在打好标签的基本数据集中依照广告数据的属性特征(例如广告的品牌为华为)聚合统计得到每个广告属性特征的标签概率分布,具体的计算方式为:按照每个属性特征聚合求平均,上述属性特征可以包括广告主、品牌、商品、行业,得到一个平均好的向量化标签,即,平均概率分布。

S502,性别平均概率分布获取步骤。把得到的每个属性特征聚合在一起为该条广告的对应性别平均概率分布,因此计算出了每条广告的受众人群的性别的概率分布。

再同样方法计算每条广告的受众人群其他标签的概率分布。同理APP、设备、媒体也一样,第一步就得到了每个广告、app、媒体的关于不同标签的概率分布。

随后将一些先验统计特征融合进逻辑回归模型,例如用户点击广告的性别年龄分布等,先验统计特征可以体现出来的用户年龄和性别的信息和规律更加明显和直接,因此直接输入进LR统计模型。LR预测将分层次特征通过向量融合拼接一起,将基本特征和先验统计特征融合输入进LR模型预测。

本实施例还提供了一种人口属性标签预测系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本申请实施例的人口属性标签预测系统的结构框图,如图6所示,该系统包括:

数据特征获取模块1,根据一基本数据获得先验统计特征,一集成模型接收并根据一数据处理源处理基本数据获取的基本数据特征输出基本特征;

人口属性标签预测模块2,一逻辑回归模型接收融合后的基本特征和所述先验统计特征,并据此输出对应的人口属性标签。

需要说明的是,上述基本数据可以包括(1)广告信息数据:广告点位、品牌、商品、行业;(2)近三个月APP安装数据:app类别(大类、小类等);(3)媒体平台:媒体类别ID;(4)设备数据:设备机型。

本申请实施例采用了将Lightgbm模型和LR(逻辑回归)模型结合,可以将Lightgbm模型和LR模型的优点结合,有效解决了高纬度稀疏的广告数据的对应人口属性标签的预测问题,提高了标签预测的准确性。

具体来说,本申请实施例提出了人口属性标签预测系统提出了Lightgbm+LR的模型结构,Lightgbm模型可以深度挖掘有效的特征组合得到高阶信息,提高整体效率,再经过LR模型快速预测。此外,本专利引入多层次模型融合,基于Lightgbm+LR模型结构,将高维稀疏的基本数据特征输入进Lightgbm模型学习处理,将计算Lightgbm模型得出的特征向量与先验统计特征融合输入进LR模型预测,故此,该发明可以深度挖掘高维度且稀疏的数据,提升模型预测标签的准确率,多模型融合及多层次特征也可以减少对人工经验的依赖。

在其中一些实施例中,集成模型具体设置为Lightgbm模型,数据特征获取模块1具体包括:

基本特征获取单元11,将基本数据特征输入至Lightgbm模型,并建立直方图以获得基本特征;

先验统计特征获得单元12,依据基本数据的数据属性特征统计不同维度下基本数据的对应人口属性标签的平均分布概率,并以此作为先验统计特征。

上述先验统计特征具体为对于用户点击行业、商品、品牌,以及访问媒体平台和app类别的特征的标签属性的分布统计。

需要说明的是,上述先验统计特征与基本数据相对应,可以具体设置为:(1)广告先验统计特征:品牌、商品、行业(2)APP数据先验统计特征:app类别(3)媒体平台先验统计特征:媒体类别。

基于采集的基础数据使用Lightgbm模型经过处理获得基础特征和先验统计特征,其中使用Lightgbm模型处理基本特征,可以发掘有区分度的特征及特征组合,减少特征工程中的人力成本,对先验统计特征进行统计,与基础特征多层次融合输入至LR模型,可以提升模型的预测结果。

在其中一些实施例中,先验统计特征获得单元12具体包括:

标签向量化子单元121,依据数据属性特征使用one-hot编码对待预测的人口属性标签进行标签向量化;

平均分布概率获取子单元122,根据标签向量化的结果获得基本数据在不同维度对应人口属性标签的平均分布概率。

在其中一些实施例中,人口属性标签预测模块2具体包括:

将基本特征和先验统计特征通过向量拼接拟合至一sigmoid函数,并得到人口属性标签。

需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外,结合图1描述的本申请实施例人口属性标签预测方法可以由计算机设备来实现。图7为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种人口属性标签预测方法。

在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图7所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(Infini Band)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。

该计算机设备可以已打好标签的基本数据输入至Lightgbm模型得到基本特征和先验统计特征,将两种特征进行融合后执行本申请实施例的人口属性标签预测步骤,从而实现结合图1描述的人口属性标签预测方法。

另外,结合上述实施例中的人口属性标签预测方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种人口属性标签预测方法。

本申请实施例提出的人口人口属性标签预测方法使用效果更好的Lightgbm作为特征工程挖掘特征信息,同时统计先验特征,将不同层次的特征融合输入进LR模型预测,特征信息分层次的融合进整体的融合模型,实现了一种基于多模型融合及多层次特征融合的人口属性标签预测方法。该方法对于分类目标规律越明显的放在预测层加入逻辑回归模型,比如用户点击记录的年龄性别平均分布这些就可以直接反应用户年龄性别信息的,直接融合输入进LR预测模型,而对于基本的数据特征输入进Lightgbm深一步挖掘特征信息,提高整体方法准确率和效率,对于高维度稀疏的广告数据减少特征工程的人工成本。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号