首页> 中国专利> 一种通用人群拓展方法、装置及存储介质

一种通用人群拓展方法、装置及存储介质

摘要

本发明公开了一种通用人群拓展方法、装置及存储介质,其中方法包括:输入业务场景需要的样本口径,根据预设的标签生成条件得到标签窄表,根据所述标签窄表将所述样本口径转换成宽表数据,所述宽表数据包括训练宽表和预测宽表;对所述宽表数据进行特征处理得到样本数据,将所述样本数据存储在分区表中;采用所述分区表中的训练样本构建二分类模型,将所述预测样本输入至所述二分类模型中进行训练,得到拓展用户。本发明实施例根据预设的标签生成条件得到标签窄表,通过生成标签窄表的方式构建模型以及进行模型训练,能够覆盖使得用户和业务场景广泛,即使在种子用户很少的情形也能对用户进行分类,从而能够有效提高人群拓展的效率。

著录项

  • 公开/公告号CN114936318A

    专利类型发明专利

  • 公开/公告日2022-08-23

    原文格式PDF

  • 申请/专利权人 广发证券股份有限公司;

    申请/专利号CN202210529992.1

  • 申请日2022-05-16

  • 分类号G06F16/9535(2019.01);G06F16/9536(2019.01);G06K9/62(2022.01);G06Q40/00(2012.01);

  • 代理机构广州三环专利商标代理有限公司 44202;

  • 代理人郭浩辉

  • 地址 510663 广东省广州市黄埔区中新广州知识城腾飞一街2号618室

  • 入库时间 2023-06-19 16:28:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-09

    实质审查的生效 IPC(主分类):G06F16/9535 专利申请号:2022105299921 申请日:20220516

    实质审查的生效

说明书

技术领域

本发明涉及人群拓展技术领域,尤其是涉及一种通用人群拓展方法、装置及存储介质。

背景技术

目前,随着互联网金融的发展,金融行业增值服务业务品种的增加以及各种功能的不断扩展,同时随着证券投资群体的不断扩大,用户在互联网金融里的操作行为也随之增加,用户行为标签因此不断的更新增加,这就为我们在特定场景寻找更多目标人群提供了可行性。在很多应用场景里我们都需要通过少量种子用户之前的行为标签去选出与种子用户相似的拓展人群,以便扩大产品的覆盖范围。现有的通用人群拓展方法通常为采用分类方法实现通用人群拓展,但是现有的人群拓展方法难以解决冷启动时种子用户很少的情形,且仅筛选出部分相关性较高的标签入模,难以对其他标签数据的用户进行分类,导致人群拓展的效率较低。

发明内容

本发明提供了一种通用人群拓展方法、装置及存储介质,以解决现有的通用人群拓展方法难以解决冷启动时种子用户很少的情形,且仅筛选出部分相关性较高的标签入模,难以对其他标签数据的用户进行分类,导致人群拓展的效率较低。

本发明的一个实施例提供了一种通用人群拓展方法,包括:

输入业务场景需要的样本口径,根据预设的标签生成条件得到标签窄表,根据所述标签窄表将所述样本口径转换成宽表数据,所述宽表数据包括训练宽表和预测宽表;

对所述宽表数据进行特征处理得到样本数据,将所述样本数据存储在分区表中;

采用所述分区表中的训练样本构建二分类模型,将所述预测样本输入至所述二分类模型中进行训练,得到拓展用户。

进一步的,所述样本口径包括正样本口径、负样本口径和预测样本口径,根据所述标签窄表将所述样本口径转换成宽表数据,所述宽表数据包括训练宽表和预测宽表,包括:

分别根据所述正样本口径和所述负样本口径得到正样本数据框和负样本数据框,将所述正样本数据框和所述负样本数据框进行合并得到正负样本表;

以观测日期为基础得到标签筛选日,对所述标签筛选日去重后存储时间列表中,将所述时间列表与预设的预选标签作为标签表的筛选条件,得到标签窄表;

分别将所述正负样本表和所述预测样本口径与所述标签窄表进行关联得到训练样本窄表和预测样本窄表;

将所述训练样本窄表转换成训练宽表,将所述预测样本窄表转换成预测宽表。

进一步的,所述对所述宽表数据进行特征处理得到样本数据,将所述样本数据存储在分区表中,包括:

对所述训练宽表进行编码得到编码数值模板;

采用编码工具将所述宽表的column_value数据转化成findex,并将选用的标签列合并成一列特征列,分别得到训练样本和预测样本。

进一步的,所述采用所述分区表中的训练样本构建二分类模型,将所述预测样本输入至所述二分类模型中进行训练,得到拓展用户,包括:

将所述样本数据的数据类型转换成双精度类型,并导入随机森林分类器构建二分类模型;

将所述预测样本输入至所述二分类模型中进行训练,得到每个用户的概率评分,选择符合预设评分标准的用户作为拓展用户。

进一步的,所述导入随机森林分类器构建二分类模型,包括:

采用随机森林算法的CART决策树选择用于构建二分类模型的特征。

本发明的一个实施例提供了一种通用人群拓展装置,包括:

数据预处理模块,用于输入业务场景需要的样本口径,根据预设的标签生成条件得到标签窄表,根据所述标签窄表将所述样本口径转换成宽表数据,所述宽表数据包括训练宽表和预测宽表;

特征处理模块,用于对所述宽表数据进行特征处理得到样本数据,将所述样本数据存储在分区表中;

模型训练模块,用于采用所述分区表中的训练样本构建二分类模型,将所述预测样本输入至所述二分类模型中进行训练,得到拓展用户。

进一步的,所述样本口径包括正样本口径、负样本口径和预测样本口径,所述数据预处理模块,用于:

分别根据所述正样本口径和所述负样本口径得到正样本数据框和负样本数据框,将所述正样本数据框和所述负样本数据框进行合并得到正负样本表;

以观测日期为基础得到标签筛选日,对所述标签筛选日去重后存储时间列表中,将所述时间列表与预设的预选标签作为标签表的筛选条件,得到标签窄表;

分别将所述正负样本表和所述预测样本口径与所述标签窄表进行关联得到训练样本窄表和预测样本窄表;

将所述训练样本窄表转换成训练宽表,将所述预测样本窄表转换成预测宽表。

进一步的,所述特征处理模块,用于:

对所述训练宽表进行编码得到编码数值模板;

采用编码工具将所述宽表的column_value数据转化成findex,并将选用的标签列合并成一列特征列,分别得到训练样本和预测样本。

进一步的,所述模型训练模块,用于:

将所述样本数据的数据类型转换成双精度类型,并导入随机森林分类器构建二分类模型;

将所述预测样本输入至所述二分类模型中进行训练,得到每个用户的概率评分,选择符合预设评分标准的用户作为拓展用户。

本发明的一个实施例提供了一种可读存储介质,其上存储有计算机程序,所述嵌入式程序被处理器执行时实现如上述的通用人群拓展方法。

本发明实施例根据预设的标签生成条件得到标签窄表,并根据标签窄表得到宽表的样本数据进行模型的构建以及模型训练,通过生成标签窄表的方式能够使得覆盖用户和业务场景更广泛,即使在种子用户很少的情形也能对用户进行分类,得到准确拓展人群,从而能够有效提高人群拓展的效率。

进一步的,本发明实施例能够自动将用户画像系统中的宽表数据进行自动编码得到样本数据,通过搭建基于机器学习的通用人群拓展模型,能够有效提高人群拓展的效率以及减低人工时间成本。

附图说明

图1是本发明实施例提供的一种通用人群拓展方法的流程示意图;

图2是本发明实施例提供的一种通用人群拓展方法的另一流程示意图;

图3是本发明实施例提供的一种通用人群拓展方法的又一流程示意图;

图4是本发明实施例提供的一种训练宽表生成的流程示意图;

图5是本发明实施例提供的一种特征处理流程示意图;

图6是本发明实施例提供的一种通用人群拓装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。

在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。

请参阅图1,本发明的一个实施例提供了一种通用人群拓展方法,包括:

S1、输入业务场景需要的样本口径,根据预设的标签生成条件得到标签窄表,根据标签窄表将样本口径转换成宽表数据,宽表数据包括训练宽表和预测宽表;

在本发明实施例中,样本口径包括正负样本口径和预测样本口径,其中,征服样本口径用于得到训练宽表,预测样本口径用于得到预测宽表。

S2、对宽表数据进行特征处理得到样本数据,将样本数据存储在分区表中;

S3、采用分区表中的训练样本构建二分类模型,将预测样本输入至二分类模型中进行训练,得到拓展用户。

本发明实施例根据预设的标签生成条件得到标签窄表,并根据标签窄表得到宽表的样本数据进行模型的构建以及模型训练,通过生成标签窄表的方式能够使得覆盖用户和业务场景更广泛,即使在种子用户很少的情形也能对用户进行分类,得到准确拓展人群,从而能够有效提高人群拓展的效率。

进一步的,本发明实施例能够自动将用户画像系统中的宽表数据进行自动编码得到样本数据,通过搭建基于机器学习的通用人群拓展模型,能够有效提高人群拓展的效率以及减低人工时间成本。

请参阅图2,为本发明实施例提供了一种通用人群拓展方法的另一流程示意图。请参阅图3,为本发明实施例提供了一种通用人群拓展方法的又一流程示意图。

在一个实施例中,样本口径包括正样本口径、负样本口径和预测样本口径,根据标签窄表将样本口径转换成宽表数据,宽表数据包括训练宽表和预测宽表,包括:

分别根据正样本口径和负样本口径得到正样本数据框和负样本数据框,将正样本数据框和负样本数据框进行合并得到正负样本表;

在本发明实施例中,数据框即为dataframe,将两个dataframe合并得到正负样本表。

以观测日期为基础得到标签筛选日,对标签筛选日去重后存储时间列表中,将时间列表与预设的预选标签作为标签表的筛选条件,得到标签窄表;

本发明实施例新增一列以观测日期为基础的标签筛选日,对新增列做去重处理后存储在时间列表中,将时间列表与预选标签作为标签表额筛选条件以得到标签窄表。

请参阅图4,为本发明实施例提供了一种训练宽表生成的流程示意图。

分别将正负样本表和预测样本口径与标签窄表进行关联得到训练样本窄表和预测样本窄表;

将训练样本窄表转换成训练宽表,将预测样本窄表转换成预测宽表。

本发明实施例通过spark中的pivot算子将窄表数据转成宽表数据,并将宽表数据存入hive数据库中。

在一个实施例中,对宽表数据进行特征处理得到样本数据,将样本数据存储在分区表中,包括:

对训练宽表进行编码得到编码数值模板;

在本发明实施例中,将训练宽表输入至encoder工具中进行编码,得到一个编码数值模版,该编码数值模板中的column有frame(标签列)、fv(column_value)、findex(编码后的column_value)、version(表名)四个参数。

采用编码工具将宽表的column_value数据转化成findex,并将选用的标签列合并成一列特征列,分别得到训练样本和预测样本。

在本发明实施例中,将训练宽表/预测宽表丢到encoding工具中,encoding工具根据encoder的编码数值将宽表中的column_value数据转化成findex(编码后的column_value),并将选用的标签列合并成为一列特征列以及剔除掉无用的column,最后存入到一个按表名分区的表中。

请参阅图5,为本发明实施例提供的一种特征处理流程示意图。

在一个实施例中,采用分区表中的训练样本构建二分类模型,将预测样本输入至二分类模型中进行训练,得到拓展用户,包括:

将样本数据的数据类型转换成双精度类型,并导入随机森林分类器构建二分类模型;

在本发明实施例中,在构建二分类模型之前,将样本数据类型转换成双精度类型(DoubleType),并将特征列转化成向量类型,接着导入sparkmilb随机森林分类器pipeline构建模型。

由于模型选用的特征数量较大,在参数选择中无法根据训练集各项评估指标选择其中的一组参数,本发明实施例通过对预测样本的平均auc比较,选用5组参数,分别为:(maxDepth=2,numTrees=60,maxBins=500)、(maxDepth=2,numTrees=60,maxBins=1000)、(maxDepth=2,numTrees=50,maxBins=500)、(maxDepth=2,numTrees=40,maxBins=500)、(maxDepth=2,numTrees=100,maxBins=500),这5组参数的效果依次递减,结合不同场景进行对参数进行修改。

将预测样本输入至二分类模型中进行训练,得到每个用户的概率评分,选择符合预设评分标准的用户作为拓展用户。

本发明实施例将预测样本丢到模型训练,得到每个用户的概率评分,进而得到需要拓展的用户。

在一个实施例中,导入随机森林分类器构建二分类模型,包括:

采用随机森林算法的CART决策树选择用于构建二分类模型的特征。

在本发明实施例中,CART决策树采用基尼系数的方式选择构建二分类模型的特征,基尼系数的选择标准就是在每个子节点达到最高的纯度,即落在子节点中的所有观察都属于同一个分类,此时得到的基尼系数最小,不确定度最小,从而能够提高模型构建的准确性。

需要说明的是,由于CART树是二叉树,CART树基尼系数表示为:Gini(p)=2p(1-p),在遍历每个特征的每个分割点时,当使用特征A=a,将D划分为两部分,即D1(满足A=a的样本集合),D2(不满足A=a的样本集合)。则节点的基尼指数可以表示为:Gini(D,A)=|D1|\|D|*Gini(D1)+|D2|\|D|*Gini(D2)。每棵CART决策树通过不断遍历这棵树的特征子集的所有可能的分割点,寻找Gini系数最小的特征的分割点,将数据集分成两个子集,直至满足停止条件为止。

实施本发明实施例,具有以下有益效果:

本发明实施例根据预设的标签生成条件得到标签窄表,并根据标签窄表得到宽表的样本数据进行模型的构建以及模型训练,通过生成标签窄表的方式能够使得覆盖用户和业务场景更广泛,即使在种子用户很少的情形也能对用户进行分类,得到准确拓展人群,从而能够有效提高人群拓展的效率。

进一步的,本发明实施例能够自动将用户画像系统中的宽表数据进行自动编码得到样本数据,通过搭建基于机器学习的通用人群拓展模型,能够有效提高人群拓展的效率以及减低人工时间成本。

请参阅图6,基于与上述实施例相同的技术构思,本发明的一个实施例提供了一种通用人群拓展装置,包括:

数据预处理模块10,用于输入业务场景需要的样本口径,根据预设的标签生成条件得到标签窄表,根据标签窄表将样本口径转换成宽表数据,宽表数据包括训练宽表和预测宽表;

特征处理模块20,用于对宽表数据进行特征处理得到样本数据,将样本数据存储在分区表中;

模型训练模块30,用于采用分区表中的训练样本构建二分类模型,将预测样本输入至二分类模型中进行训练,得到拓展用户。

在一个实施例中,样本口径包括正样本口径、负样本口径和预测样本口径,数据预处理模块,用于:

分别根据正样本口径和负样本口径得到正样本数据框和负样本数据框,将正样本数据框和负样本数据框进行合并得到正负样本表;

以观测日期为基础得到标签筛选日,对标签筛选日去重后存储时间列表中,将时间列表与预设的预选标签作为标签表的筛选条件,得到标签窄表;

分别将正负样本表和预测样本口径与标签窄表进行关联得到训练样本窄表和预测样本窄表;

将训练样本窄表转换成训练宽表,将预测样本窄表转换成预测宽表。

在一个实施例中,特征处理模块20,用于:

对训练宽表进行编码得到编码数值模板;

采用编码工具将宽表的column_value数据转化成findex,并将选用的标签列合并成一列特征列,分别得到训练样本和预测样本。

在一个实施例中,模型训练模块30,用于:

将样本数据的数据类型转换成双精度类型,并导入随机森林分类器构建二分类模型;

将预测样本输入至二分类模型中进行训练,得到每个用户的概率评分,选择符合预设评分标准的用户作为拓展用户。

在一个实施例中,导入随机森林分类器构建二分类模型,包括:

采用随机森林算法的CART决策树选择用于构建二分类模型的特征。

本发明的一个实施例提供了一种可读存储介质,其上存储有计算机程序,嵌入式程序被处理器执行时实现如上述的通用人群拓展方法。

以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号