法律状态公告日
法律状态信息
法律状态
2020-06-19
授权
授权
2019-06-14
实质审查的生效 IPC(主分类):H04L12/24 申请日:20190104
实质审查的生效
2019-05-21
公开
公开
技术领域
本发明涉及数据挖掘的技术领域,尤其是指一种大规模移动客户流量消费智能预测方法。
背景技术
随着4G移动通信技术的普及、移动互联网的蓬勃发展,用户的生活方式逐渐发生了变化。电信运营商的营销重点逐渐从传统语音业务转向流量业务。精准地预测用户未来的流量消费情况,可以使运营商更加有效地推销流量业务,刺激用户的消费,提高流量营收。
传统的流量预测方法仅通过回归方法来预测用户的流量消费值,容易受到数据中噪声的干扰,精确度和鲁棒性不足。本发明利用离散化后流量消费字段具有的数值类别二象性,构建分类预测器与回归预测器联合的预测模型,在海量的移动用户属性特征和消费行为数据上挖掘出移动用户流量消费的隐含规律,从而预测移动用户未来的流量消费情况,然后对其定制化地推销流量套餐,达到精准营销、提高流量营收的目的。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种大规模移动客户流量消费智能预测方法,将分类预测器与回归预测器联合起来,在大规模移动用户数据上进行双阶段的训练,使所得到的联合流量预测模型具有更高的准确度和鲁棒性,从而为移动业务推广提供更精准有效的营销思路。
为实现上述目的,本发明所提供的技术方案为:一种大规模移动客户流量消费智能预测方法,包括以下步骤:
1)收集移动用户属性特征和消费行为数据,可视化,并进行预处理;
2)构造分类预测器与回归预测器,进行训练,得到两个不同尺度的预测模型;
3)联合分类预测器与回归预测器为可训练的线性组合,进行第二阶段训练,得到联合预测模型;
4)使用联合预测模型,根据移动用户的属性特征和消费行为预测该用户下个月的流量消费值。
在步骤1)中,在进行预处理前,进行百万级数据可视化,以快速识别数据特性和检索异常值,可视化方法包括以下步骤:
1.1)对移动用户所有特征字段进行哈希分桶区间化操作;
1.2)取任意两个特征字段,一个为X轴,另一个为Y轴,在笛卡尔坐标系上绘制数据点;
1.3)特征值相同的数据点不会互相覆盖,而是以逐点紧密排列的形式被绘制。
在步骤1)中,预处理操作包括从数据中提取出用户流量消费字段作为标签后,对其进行分桶区间化处理,以形成流量消费字段的数值类别二象性,适应于分类预测器与回归预测器的联合预测。
在步骤2)中,所述分类预测器为神经网络DNN分类预测器,其构造及训练过程如下:
2.1.1)构造输入层、输出层、隐藏层神经单元;输入层、输出层各一层,输入层的单元数与数据维度对应,输出层单元数与类别数对应;隐藏层为任意若干层;
2.1.2)神经网络从输入层到隐藏层,再到输出层,逐层推进,计算每层的神经单元,公式如下:
式中,a为神经单元激活值,z为神经单元激活函数的输入,g为激活函数,l为神经网络层的序号,k为第l+1层的神经单元序号,sl为第l层的神经单元数,Θ(l)为第l层的参数矩阵;
2.1.3)以交叉熵为代价函数,进行神经网络的训练,代价函数如下:
代价函数为两项之和;第一项中,m为样本总数,K为输出层神经单元总数,i为样本序号,k为神经单元序号,
2.1.4)训练过程的优化器使用adam自适应优化器,训练完成后保存当前模型。
在步骤2)中,所述回归预测器为决策树回归预测器,其构造及训练过程如下:
2.2.1)构造一棵根据基尼系数选择特征的CART回归树,该树每次对某个特征的值进行二分形成二叉树;
2.2.2)对树添加约束条件,限制最大深度、树中间节点的分叉最小样本个数,以及每个叶子节点的最小样本个数;
2.2.3)以均方误差为代价函数评估树模型,并保存误差最小的模型;均方误差计算公式如下:
式中,MSE为均方误差,m为样本总数,y(i)为第i个样本的真实值,x(i)为第i个样本的特征向量,hθ(x(i))为第i个样本的预测值。
在步骤3)中,对学习到的分类预测器与回归预测器进行线性组合,并再次进行训练,得到联合预测模型,具体过程如下:
3.1)取神经网络分类预测器最后一层的激活值,依次为分桶后的流量大小区间类别值对应的置信度;
3.2)取决策树回归预测器的流量大小预测值;
3.3)分类预测器的各类别值与对应的置信度进行逐元素相乘,并进行局部线性组合,然后在影响因子的作用下,分类预测器与回归预测器进行全局线性组合,具体公式如下:
式中,hθ(x)表示联合预测模型的假设函数,Vector_classes为流量大小区间类别值向量,Vector_confidence为流量大小区间类别值对应的置信度向量,wT为分类预测器局部线性组合的权重向量,
3.4)对影响因子和分类预测器的权重向量同时进行训练,以均方误差为代价函数,使用adam自适应优化器,训练完成后保存当前模型。
在步骤4)中,使用联合预测模型预测移动用户下个月的流量消费情况,比起单独使用分类预测器或回归预测器要更具精确度和鲁棒性,具体过程如下:
4.1)对新的移动用户数据进行预处理操作,预处理操作包括从数据中提取出用户流量消费字段作为标签后,对其进行分桶区间化处理,以形成流量消费字段的数值类别二象性,适应于分类预测器与回归预测器的联合预测;
4.2)把预处理后的数据作为输入,运行联合预测模型;
4.3)模型输出预测值。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明把回归预测器与分类预测器联合在一起,应用于同一标签的预测中,比单一模型具有更高的精确度和鲁棒性。
2、本发明在回归预测器与分类预测器的联合中通过双阶段训练,提高了模型效果和稳定性。
3、本发明实现了百万级数据点的二维可视化,对观察数据特性、检索异常值、解释模型等方面有很大的帮助。
4、本发明对电信运营商进行流量业务营销有指导作用,可以为移动用户提供定制化流量套餐推荐,进而提高运营商的流量营收以及用户的使用体验。
附图说明
图1为本发明方法逻辑流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的大规模移动客户流量消费智能预测方法,包括以下步骤:
1)收集移动用户属性特征和消费行为数据,进行可视化,并进行预处理操作;
1.1)可视化过程如下:
1.1.1)对移动用户所有特征字段进行哈希分桶区间化操作;
1.1.2)取任意两个特征字段,一个为X轴,另一个为Y轴,在笛卡尔坐标系上绘制数据点;
1.1.3)特征值相同的数据点不会互相覆盖,而是以逐点紧密排列的形式被绘制。
1.2)结合可视化结果,进行预处理操作,过程如下:
1.2.1)删除存在异常值的字段,减少数据集中存在的噪声;
1.2.2)删除NaN值占比99%以上的字段;
1.2.3)对具有高基数的特征字段进行统计,根据字段值的出现频次进行分箱,把原本的高基数的特征分布映射到一个低基数的新特征分布中,并尽可能保留原分布中的高频部分;
1.2.4)对类型为时间的字段,根据字段值的浮动变化范围选择方差适中的时间尺度,转化为时间偏移量,并进行标准化处理;
1.2.5)对类别字段进行one-hot编码;
1.2.6)对存在缺失值的字段进行均值填补;
1.2.7)提取流量消费字段,进行分桶区间化处理。
2)构造分类预测器与回归预测器,进行训练,得到两个不同尺度的预测模型;
2.1)神经网络分类预测器构造、训练、保存过程如下:
2.1.1)构造输入层、输出层、隐藏层神经单元。输入层、输出层各一层,输入层的单元数与数据维度对应,输出层单元数与类别数对应。隐藏层为两层,单元数分别为32个、64个。
2.1.2)神经网络从输入层到隐藏层,再到输出层,逐层推进,计算每层的神经单元。公式如下:
式中,a为神经单元激活值,z为神经单元激活函数的输入,g为激活函数,l为神经网络层的序号,k为第l+1层的神经单元序号,sl为第l层的神经单元数,Θ(l)为第l层的参数矩阵。
2.1.3)以交叉熵为代价函数,进行神经网络的训练。代价函数如下:
代价函数为两项之和。第一项中,m为样本总数,K为输出层神经单元总数,i为样本序号,k为神经单元序号,
2.1.4)训练过程的优化器使用adam自适应优化器,初始学习率设置为0.0001。训练的batch大小和最大迭代次数分别为200、200。
2.1.5)在每次训练过程中,数据逐一批次从输入层输入网络,经过隐藏层变换,在输出层得到预测结果,预测值与真实值对比,根据代价函数计算训练损失及梯度,更新网络参数。当训练损失经过连续两次迭代后改善不足0.0001或网络训练完200次,训练过程中止。训练完成后,保存当前模型。
2.2)决策树回归预测器构造、训练、保存过程如下:
2.2.1)构造一棵根据基尼系数选择特征的CART回归树,该树每次对某个特征的值进行二分形成二叉树。
2.2.2)对树添加约束条件,最大深度为10,树的中间节点至少应有1000个样本方可进行分叉,同时每个叶子节点也至少应有50个样本。
2.2.3)以均方误差为代价函数评估树模型,并保存误差最小的模型。均方误差计算公式如下:
式中,MSE为均方误差,m为样本总数,y(i)为第i个样本的真实值,x(i)为第i个样本的特征向量,hθ(x(i))为第i个样本的预测值。
3)联合分类预测器与回归预测器为可训练的线性组合,进行第二阶段训练,得到联合预测模型,具体过程如下:
3.1)取神经网络分类预测器最后一层的激活值,依次为分桶后的流量大小区间类别值对应的置信度。
3.2)取决策树回归预测器的流量大小预测值。
3.3)分类预测器的各类别值与对应的置信度进行逐元素相乘,并进行局部线性组合。然后在影响因子的作用下,分裂预测器与回归预测器进行全局线性组合。具体公式如下:
式中,hθ(x)表示联合预测模型的假设函数,Vector_classes为流量大小区间类别值向量,Vector_confidence为流量大小区间类别值对应的置信度向量,wT为分类预测器局部线性组合的权重向量,为回归预测器的实值输出结果,α和β分别为分类预测器和回归预测器的影响因子。
3.4)对影响因子和分类预测器的权重向量同时进行训练,以均方误差为代价函数,使用adam自适应优化器,训练完成后保存当前模型。
4)使用联合预测模型,根据移动用户的属性特征和消费行为预测该用户下个月的流量消费值,具体过程如下:
4.1)对新的移动用户数据进行与步骤1.2)中相同的预处理操作;
4.2)把预处理后的数据作为输入,运行联合预测模型
4.3)模型输出预测值。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
机译: 用于注册移动电话服务消费的系统,包括电话(语音流量:minutagem)和互联网访问(数据流量:quilobitagem // megabitagem),以及文本消息(SMS)和muiltim u00eddia(MMS)的交换,和路线的方向智能。 S到资费更便宜的电话
机译: 使用智能电话来调解负载的系统和方法,能够使消费者获得有关负载产品的信息,而这正是消费者所需要的一种缓解条件
机译: 使用智能卡消费管理的预付费系统可以关闭,打开,测量和记录管道中的水头流量。