首页> 中国专利> 一种基于计算广告背景下的相似人群拓展方法以及装置

一种基于计算广告背景下的相似人群拓展方法以及装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供了一种基于计算广告背景下的相似人群拓展方法以及装置，该方法包括：获取正样本、负样本；根据预设负样本采样条件对负样本进行分层采样处理，得到采样后的负样本；分别对广告前端监测数据以及第三方标签数据进行特征处理，并分别构建模型，对应得到第一模型以及第二模型；在第一模型以及第二模型中，分别调整正样本的权重参数，对应得到第三模型以及第四模型；对第三模型以及第四模型进行融合打分，得到人群打分信息；选出人群打分信息中的模糊打分区域；对模糊打分区域进一步构建模型进行过滤筛选，得到第一相似人群；根据预设规则标签以及广告前端监测数据对第一相似人群进行筛选过滤，得到相似人群。

著录项

公开/公告号CN112907295A

专利类型发明专利
公开/公告日2021-06-04

原文格式PDF
申请/专利权人恩亿科(北京)数据科技有限公司;
展开▼

申请/专利号CN202110295616.6
发明设计人吴园园;段少毅;
展开▼

申请日2021-03-19
分类号G06Q30/02(20120101);G06Q10/06(20120101);G06F16/9536(20190101);G06N20/00(20190101);
代理机构51239 成都众恒智合专利代理事务所(普通合伙);
代理人刘华平
地址 100089 北京市海淀区西小口路66号东升科技园·北领地D-1楼1层136A(东升地区)
入库时间 2023-06-19 11:14:36

说明书

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于计算广告背景下的相似人群拓展方法以及装置。

背景技术

在互联网商业应用中，许多广告主在“搜寻潜客”时，都会遇到如难以识别高潜人群、难于平衡成本与规模等问题，在这一背景下则产生了Lookalike(相似人群拓展)人群定向技术，该技术可以利用广告主第一方数据，基于少量的种子用户，通过大数据分析和机器学习拓展出和种子相似的用户人群，而这些拓展出的相似人群最终也很有可能成为广告主的目标客户，从而提升广告效果。

Lookalike技术主流方法：方法一，显示定位，广告主根据标签进行人群选择。这种方法简单，直观，广告主通过用户画像标签，筛选性别、年龄、偏好等标签，从而直接筛选目标人群。但是该方法需要广告主大量人工参与试错，且该方法具有一定的局限性，人工打出的标签不能完全概括目标人群的所有属性，比如不一定男性就不关心护肤品等。显示定位的方法期长、成本高，而且很难通用。

方法二，隐式定位，通过机器学习的方法，对种子用户进行建模。隐式定位的方法几乎不需要广告主参与，只需要广告主提供目标人群(即种子用户)的特征，通过机器学习的方法，根据种子数据自动发现相似人群，有效规避了自定义标签面临的问题。

Lookalike技术难点，难点一：高潜力用户难寻、精准与规模之间难取平衡点是广告主所面临的两个主要难题，核心在于对大规模潜在用户的有效触及。效果和规模之间达成“帕累托最优”(最理想状态)显得相对棘手，具体为，广告主想要尽量触达潜在的目标客户，则会需要对大规模潜在用户都进行触达，人群的聚焦性也必然逐步降低，致使非目标人群的比例也随着流量的增加而增加，增加广告成本，但是如果广告主缩小触达规模，则会导致一部分目标人群未被触达，影响广告效果。

难点二：降低种子用户的敏感性：种子用户是拓展的前提和基础，种子用户的质量往往也是lookalike效果好坏的关键。但广告主很难提供数据量足够大且足够宽泛的种子包。这个时候就需要考虑如何在少量种子包且种子不一定能覆盖全局特征的情况下，进行有效的数据预处理和模型学习。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于计算广告背景下的相似人群拓展方法以及装置。

本发明解决上述技术问题的技术方案如下：一种基于计算广告背景下的相似人群拓展方法，其包括：

获取由种子人群组成的正样本、由非种子人群组成的负样本、预设负样本采样条件、广告前端监测数据、第三方标签数据以及预设规则标签；

根据所述预设负样本采样条件对所述负样本进行分层采样处理，得到采样后的负样本；

分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理，并分别构建模型，对应得到第一模型以及第二模型；

在第一模型以及第二模型中，分别调整正样本的权重参数，对应得到第三模型以及第四模型；

对所述第三模型以及第四模型进行融合打分，得到人群打分信息；

选出所述人群打分信息中的模糊打分区域；

对所述模糊打分区域进一步构建模型进行过滤筛选，得到第一相似人群；

根据预设规则标签以及所述广告前端监测数据对所述第一相似人群进行筛选过滤，得到相似人群。

进一步地，所述分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理，并分别构建模型，对应得到第一模型以及第二模型的步骤，包括：

对所述广告前端监测数据进行数值化编码处理，得到数值化编码的广告前端监测数据；

对所述数值化编码的广告前端监测数据进行数值分箱处理，得到客户关系管理类特征；

对所述客户关系管理类特征构建模型，得到第一模型。

对所述第三方标签数据进行词嵌入处理，得到嵌入式第三方标签数据；

对所述嵌入式第三方标签数据构建模型，得到第二模型。

进一步地，所述选出所述人群打分信息中的模糊打分区域的步骤，包括：

将所述人群打分信息中分值为0.5至0.7之间的区域设置为模糊打分区域。

进一步地，所述分别调整正样本的权重参数为分别按照时间衰减系数分配以及调整正样本的权重。

本发明的有益效果是：通过机器学习及规则包过滤的方法，从而保证尽可能触达目标人群的基础上，缩小触达人群规模，提高目标人群筛选的精准性。

此外，本发明还提供了一种基于计算广告背景下的相似人群拓展装置，其包括：

获取设备，用于获取由种子人群组成的正样本、由非种子人群组成的负样本、预设负样本采样条件、广告前端监测数据、第三方标签数据以及预设规则标签；

处理设备，用于根据所述预设负样本采样条件对所述负样本进行分层采样处理，得到采样后的负样本；

所述处理设备，还用于分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理，并分别构建模型，对应得到第一模型以及第二模型；

所述处理设备，还用于在第一模型以及第二模型中，分别调整正样本的权重参数，对应得到第三模型以及第四模型；

所述处理设备，还用于对所述第三模型以及第四模型进行融合打分，得到人群打分信息；

所述处理设备，还用于选出所述人群打分信息中的模糊打分区域；

所述处理设备，还用于对所述模糊打分区域进一步构建模型进行过滤筛选，得到第一相似人群；

所述处理设备，还用于根据预设规则标签以及所述广告前端监测数据对所述第一相似人群进行筛选过滤，得到相似人群。

进一步地，所述处理设备，还用于对所述广告前端监测数据进行数值化编码处理，得到数值化编码的广告前端监测数据；

所述处理设备，还用于对所述数值化编码的广告前端监测数据进行数值分箱处理，得到客户关系管理类特征；

所述处理设备，还用于对所述客户关系管理类特征构建模型，得到第一模型。

进一步地，所述处理设备，还用于对所述第三方标签数据进行词嵌入处理，得到嵌入式第三方标签数据；

所述处理设备，还用于对所述嵌入式第三方标签数据构建模型，得到第二模型。

进一步地，所述处理设备，还用于将所述人群打分信息中分值为0.5至0.7之间的区域设置为模糊打分区域。

进一步地，所述分别调整正样本的权重参数为分别按照时间衰减系数分配以及调整正样本的权重。

本发明的有益效果是：通过机器学习及规则包过滤的方法，从而保证尽可能触达目标人群的基础上，缩小触达人群规模，提高目标人群筛选的精准性。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明实施例提供的基于计算广告背景下的相似人群拓展方法的示意性流程图之一。

图2为本发明实施例提供的基于计算广告背景下的相似人群拓展方法的示意性流程图之二。

图3为本发明实施例提供的基于计算广告背景下的相似人群拓展装置的示意性结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1和图2所示，本发明实施例提供了一种基于计算广告背景下的相似人群拓展方法，其包括：

S1、获取由种子人群组成的正样本、由非种子人群组成的负样本、预设负样本采样条件、广告前端监测数据、第三方标签数据以及预设规则标签；

S2、根据所述预设负样本采样条件对所述负样本进行分层采样处理，得到采样后的负样本；

S3、分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理，并分别构建模型，对应得到第一模型以及第二模型；

S4、在第一模型以及第二模型中，分别调整正样本的权重参数，对应得到第三模型以及第四模型；

S5、对所述第三模型以及第四模型进行融合打分，得到人群打分信息；

S6、选出所述人群打分信息中的模糊打分区域；

S7、对所述模糊打分区域进一步构建模型进行过滤筛选，得到第一相似人群；

S8、根据预设规则标签以及所述广告前端监测数据对所述第一相似人群进行筛选过滤，得到相似人群。

Lookalike，即相似人群扩展，是基于种子用户，通过一定的算法评估模型，找到更多拥有潜在关联性的相似人群的技术。

种子人群，即目标人群。

logistics regression(逻辑回归)，即一种有监督的统计学习方法，主要用于对样本进行分类。

GBDT(Gradient Boosting Decision Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。

本发明实施例使用规则标签进行统一过滤，具体为：步骤11，选取正负样本，对负样本进行采样；步骤12，分别对广告前端监测数据和一三方标签数据进行特征处理，构建模型；步骤13，调整正样本的权重参数，按时间衰减系数分配权重；步骤14，模型融合打分；步骤15，针对模糊打分区域进一步构建模型进行过滤筛选；步骤16，使用规则标签进行统一过滤，并筛选出近几个月活跃人群，最终圈出高潜人群。

其中，1、正样本选取种子人群，负样本分层采样，比如在拓展留资用户的场景中，负样本可以从到站未留资，未到站的样本中进行分层采样，然后采用pu-learning(positive-unlabeled learning，只有正样本的半监督的二分类器)思想多次训练模型去除负样本中的高分样本，筛选出最终的负样本，并且由于大部分的目标人群都包含于近期活跃的人群中，所以对正负样本都取近期活跃的人群。

2、由于前端广告监测的数据维度较高难以采取树模型，所以分别对前端广告监测数据进行数值化编码，数值分箱，构建RFM(Recency-Frequency-Monetary，客户关系管理)类特征，特征拉平后使用logistics regression(逻辑回归)方法构建模型，对一三方标签数据使用word2vec(独热编码)方法进行word embedding(词嵌入)，然后再使用GBDT(Gradient Boosting Decision Tree，梯度提升树)方法构建模型。

3、由于近期的用户行为对于挖掘高潜人群(相似人群)的价值更大，所以在模型中按时间衰减系数分配正样本的权重，近期的正样本的权重大于早期的正样本的权重。

4、使用stacking(商品堆码)方法对LR模型(Logistic Regression，逻辑回归)和GBDT(Gradient Boosting Decision Tree，梯度提升树)模型进行模型融合，最终输出泉灵人群打分。

5、对人群打分进行分组评级，发现模型将大规模人群都分为高潜人群，且很大量级集中在分值为0.5-0.7之间，将其定义为模糊打分区域，针对该部分样本进一步构建模型进行过滤筛选。

6、最后使用常用的规则标签并结合近几个月广告前端监测数据监测到的活跃人群，针对全体高潜人群进行统一筛选过滤，最终圈出高潜人群。

本发明的主要改进点在于：1、对负样本进行分层采样，并采取pu-learning(positive-unlabeled learning，只有正样本的半监督的二分类器)的方法过滤可能是正样本的负样本，且采取近期活跃。2、分别对广告前端监测数据和一三方标签数据进行特征处理，并分别采用LR(Logistic Regression，逻辑回归)，GBDT(Gradient BoostingDecision Tree，梯度提升树)方法构建模型，最后使用stacking方法进行模型融合打分。3、在模型中按时间衰减系数分配正样本的权重。4、对第一层模型圈出的高潜人群的低分人群进一步构建模型进行过滤筛选。5、为缩小广告触达的人群规模，结合规则标签和近几个月活跃人群，对模型圈出的高潜用户进行最终过滤。

对所述广告前端监测数据进行数值化编码处理，得到数值化编码的广告前端监测数据；

对所述数值化编码的广告前端监测数据进行数值分箱处理，得到客户关系管理类特征；

对所述客户关系管理类特征构建模型，得到第一模型。

对所述第三方标签数据进行词嵌入处理，得到嵌入式第三方标签数据；

对所述嵌入式第三方标签数据构建模型，得到第二模型。

进一步地，所述选出所述人群打分信息中的模糊打分区域的步骤，包括：

将所述人群打分信息中分值为0.5至0.7之间的区域设置为模糊打分区域。

进一步地，所述分别调整正样本的权重参数为分别按照时间衰减系数分配以及调整正样本的权重。

本发明的有益效果是：通过机器学习及规则包过滤的方法，从而保证尽可能触达目标人群的基础上，缩小触达人群规模，提高目标人群筛选的精准性。

如图3所示，此外，本发明还提供了一种基于计算广告背景下的相似人群拓展装置，其包括：

处理设备，用于根据所述预设负样本采样条件对所述负样本进行分层采样处理，得到采样后的负样本；

所述处理设备，还用于分别对所述广告前端监测数据以及所述第三方标签数据进行特征处理，并分别构建模型，对应得到第一模型以及第二模型；

所述处理设备，还用于在第一模型以及第二模型中，分别调整正样本的权重参数，对应得到第三模型以及第四模型；

所述处理设备，还用于对所述第三模型以及第四模型进行融合打分，得到人群打分信息；

所述处理设备，还用于选出所述人群打分信息中的模糊打分区域；

所述处理设备，还用于对所述模糊打分区域进一步构建模型进行过滤筛选，得到第一相似人群；

所述处理设备，还用于根据预设规则标签以及所述广告前端监测数据对所述第一相似人群进行筛选过滤，得到相似人群。

进一步地，所述处理设备，还用于对所述广告前端监测数据进行数值化编码处理，得到数值化编码的广告前端监测数据；

所述处理设备，还用于对所述数值化编码的广告前端监测数据进行数值分箱处理，得到客户关系管理类特征；

所述处理设备，还用于对所述客户关系管理类特征构建模型，得到第一模型。

进一步地，所述处理设备，还用于对所述第三方标签数据进行词嵌入处理，得到嵌入式第三方标签数据；

所述处理设备，还用于对所述嵌入式第三方标签数据构建模型，得到第二模型。

进一步地，所述处理设备，还用于将所述人群打分信息中分值为0.5至0.7之间的区域设置为模糊打分区域。

进一步地，所述分别调整正样本的权重参数为分别按照时间衰减系数分配以及调整正样本的权重。

本发明的有益效果是：通过机器学习及规则包过滤的方法，从而保证尽可能触达目标人群的基础上，缩小触达人群规模，提高目标人群筛选的精准性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于计算广告背景下的相似人群拓展方法以及装置 [P] . 中国专利： CN112907295A . 2021-06-04
2. 一种基于计算机视觉的复杂背景下伪装人体目标检测方法 [P] . 中国专利： CN110544259A . 2019-12-06
3. A SIMILARITY-COMPUTATION APPARATUS, A SIDE EFFECT DETERMINING APPARATUS AND A SYSTEM FOR CALCULATING SIMILARITIES BETWEEN DRUGS AND USING THE SIMILARITIES TO EXTRAPOLATE SIDE EFFECTS [P] . 欧洲知识产权局专利： EP3089060A1 . 2016-11-02

机译：一种相似性计算装置，一种副作用确定装置以及一种计算药物之间相似性并使用相似性进行外推效应的系统
4. METHOD FOR AUTOMATIC ITERATIVE CLUSTERISATION OF ELECTRONIC DOCUMENTS ACCORDING TO SEMANTIC SIMILARITY, METHOD FOR SEARCH IN PLURALITY OF DOCUMENTS CLUSTERED ACCORDING TO SEMANTIC SIMILARITY AND COMPUTER-READABLE MEDIA [P] . 俄罗斯专利： RU2556425C1 . 2015-07-10

机译：一种基于语义相似度的电子文档自动迭代聚类的方法，一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
5. Similarity calculation device for calculating a correlation-based similarity of image recognition apparatus, a similarity calculation method, the recognition method, the verification program and a recording medium recording it [P] . 日本专利： JP4468756B2 . 2010-05-26

机译：用于计算图像识别装置的基于相关度的相似度的相似度计算装置，相似度计算方法，识别方法，验证程序以及记录该相似度的记录介质