首页> 中国专利> 一种基于随机森林的离婚判决方法和系统

一种基于随机森林的离婚判决方法和系统

摘要

本发明公开了一种基于随机森林的离婚判决方法和系统,所述基于随机森林的离婚判决包括数据处理模块、变量筛选模块、模型训练模块和判决预测模块,获取多个粗筛选变量,并对所述粗筛选变量进行数据整合和缺失值填充;接着,利用逐步回归对所述粗筛选变量进行初步拟合,并根据每个所述粗筛选变量的量级程度,得到多个最终变量;然后,利用随机森林的方法分批次对多个所述最终变量进行训练,然后利用调整参数后的所述随机森林模型进行预测估计,提高模型预测准确度。

著录项

  • 公开/公告号CN112634091A

    专利类型发明专利

  • 公开/公告日2021-04-09

    原文格式PDF

  • 申请/专利权人 四川大学;

    申请/专利号CN202011512345.7

  • 发明设计人 郭兵;朱劲松;罗亚;潘建新;

    申请日2020-12-19

  • 分类号G06Q50/18(20120101);G06K9/62(20060101);

  • 代理机构11531 北京汇捷知识产权代理事务所(普通合伙);

  • 代理人李宏伟

  • 地址 610065 四川省成都市一环路南一段24号

  • 入库时间 2023-06-19 10:32:14

说明书

技术领域

本发明涉及机器学习技术领域,尤其涉及一种基于随机森林的离婚判决方法和系统。

背景技术

从本质上来讲,这是一个在离婚纠纷案件中,以原被告基本信息情况为自变量,裁判结果为因变量的二值分类问题。解决这类分类问题的传统方法莫过于决策树模型。通常决策树模型建立的目的是为了将目标变量以一定标准区分,也就是寻求最纯净的划分,这通常涉及两方面内容:一是决策树的建立,二是决策树的减枝。前者主要通过信息熵,基尼系数等方法确定最优的父节点和子节点(变量重要程度的选择次序)和对于每个变量的最优分裂点;而后者主要为了防止分类节点不断的重复所造成的决策树分支过多而导致的过拟合现象(主要分为预剪枝和后剪枝)。

总体而言,传统决策树模型存在以下几个问题:即使引入剪枝的方法,决策树模型也很容易形成过拟合,从而导致模型的泛化能力很弱;并且还容易受到异常值的影响;当处理非均衡的数据时,结果会有明显的失真,从而导致预测准确率低下。

发明内容

本发明提供了一种基于随机森林的离婚判决方法和系统,提高模型预测准确率。

为实现上述目的,第一方面,本发明提供了一种基于随机森林的离婚判决方法,包括以下步骤:

数据的预处理:主要包括缺失值的填充和变量粗筛选;

利用三种方法进行缺失值的整合:一是相关性变量之间相互填充,二是将所有变量缺失率高于60%的变量舍去,三是借助XGboost的方法通过机器学习自动习得缺失值分类方向;

变量选择:利用逐步回归的方法进行最终变量筛选;

将粗筛选后变量逐个引入模型,每引入一个变量后进行一次显著性检验(F检验),发生显著变化,则将变量引入,否则忽略,直至对所有变量进行考虑;

将变量贡献度从大到小排列,获得贡献度最高的几个变量。

模型建立:基于决策树模型演化出的多层次随机森林模型;

利用T(可调参数)个决策树模型整合为一个随机森林模型;

对于每一个决策树模型,利用样本抽样决定模型拟合数据,利用列抽样决定模型拟合变量;

基于计算出的信息增益和基尼指数,按照设定的分裂法,得到相应得分裂顺序和分裂阈值点;

其中,基于计算出的信息增益和基尼指数,按照设定的分裂法,得到对应的分裂顺序和分裂阈值点之前,所述方法还包括:

将对应分类下的样本率与以2为底所述样本率的对数进行乘积,对所有的样本进行求和,求负值后得到第一分裂熵值;

对所有的所述样本率进行求和,得到第二分裂熵值,并与所述第一分裂熵值求差后,得到信息增益。

其中,基于计算出的信息增益和基尼指数,按照设定的分裂法,得到对应的分裂顺序和分裂阈值点之前,所述方法还包括:

利用1减去对所有的样本率的平方求和后的求和值,得到第一基尼系数;

将所述第一基尼系数与对应的所述样本率进行乘积,利用1减去对所有乘积求和后的数值后,得到第二基尼系数;

利用所述第一基尼系数减去所述第二基尼系数,得到对应的所述基尼指数。

根据所述分裂顺序和所述分裂阈值点,得到对应的决策树模型;

重复T次上述模型的建立,得到T个不同的决策树模型。

利用T个不同的决策树模型所预测得结果,通过“投票”的机制得出最终随机森林模型的预测结果。

由于一次随机森林模型的拟合并不能完全解释少量数据的自相矛盾,于是剥离出这类自相矛盾的数据,利用逐步回归重新筛选变量;

再次利用随机森林(或者XGboost模型)对这部分少量数据进行第二次拟合。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于随机森林的离婚判决方法的步骤示意图。

图2是本发明提供的一种基于随机森林的离婚判决系统的结构示意图。

1-数据处理模块、2-数据训练模块、3-数据筛选模块、4-判决预测模块。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

请参阅图1,本发明提供一种基于随机森林的离婚判决方法,包括以下步骤:

S101、数据整合和缺失值填充。

具体的,基于经验分析,初步筛选出与原被告双方身份、关系有关的主要第一变量,并剔除例如财产、子女等不重要信息;同时剔除缺失率高于60%的有关变量。

然后,整理初步筛选后数据,对有部分相关的变量进行数据整合和缺失值填充。例如:计算持续时间:由“交往开始时间”“和结束时间”可以推算出“其交往时间”,从而作为新的变量;“同居的时间”是否大于0可以作为填充“是否同居”这个二值变量缺失部分的依据。

S102、利用逐步回归的方法对于粗筛选后变量进行贡献度排序,并挑选出贡献给程度高的最终变量用于进一步模型拟合。

具体来说,是利用逐步回归(Stepwise Regression)的方法逐渐减少变量,最终得到了7个二值变量作为最后的选择。

其中,逐步回归是指:首先引入一个粗筛选变量,先查看这个所述粗筛选变量是否使模型发生显著性变化(F检验),若发生显著变化,则再对所有逐个最终变量进行t检验,当由于新引入变量而导致其中一个不再显著时,则剔除该变量,反复如此,直到既无新引入变量也无再剔除变量。

S103、利用随机森林模型对所述高贡献度的变量进行拟合。随机森林模型的主要原理为:综合一系列由不同样本、不同变量训练出的决策树模型结果,通过“投票”得出最终的结果。其最为核心的思想是将bootstrap aggregating与决策树相融合。

具体来说:

首先设定随机森林所包含的决策树个数T,再对每个决策树分别进行拟合。

对于每个决策树:

考虑两个随机,即样本和变量的随机:利用bootstrap(有放回的随机取样)从整个样本量M中取m个样本,接着无放回的随机从所有D个变量中选取d个变量。接着每组选定的m个样本和d个变量进行决策树模型拟合。基于计算出的信息增益和基尼指数,按照设定的分裂法,得到对应的分裂顺序和分裂阈值点,最常见的,判断纯净程度的标准有:

信息最大增益(分裂前后熵值之差):

g(D,A)=H(D)-H(D|A)

对于总样本集合D,分类数为K的分法的第一分裂熵值为:

其中,C

而分裂前的第二分裂熵值为:

最小基尼指数:(分裂前后基尼系数之差):

G(D,A)=Gini(D)-Gini(D|A)

其中,分裂前的第一基尼系数为:

分裂后的第二基尼系数为:

按照设定的分裂法,即通过选取信息增益和基尼指数下降速率大于阈值(下降最快)的路径形成变量分裂顺序的选择和分裂阈值的确定,从而形成一个独立的决策树模型(注意在随机森林中的决策树模型一般不需要剪枝,其过拟合的问题已经可以由两个随机保证)。而单一决策树停止分裂的条件一般可以考虑以下几种:决策树达到一定深度;决策树叶节点数量到达一定值;熵或者基尼指数的值小于一定的系数阈值。

最后T个独立的决策树模型可以预测出T个模型结果,可以一起结合“投票”机制(少数服从多数,加权多数等)将所有树的结果和信息进行综合分析得出最终的结果。

简而言之,整个步骤可以概括为:

---循环T次(训练T个决策树)

---将决策树分裂直到条件满足

---确定变量分裂顺序

---找到最佳分裂点

---综合T个决策树“投票”出最终结果。

总的来说,利用所述随机森林模型对多个所述二值变量进行训练,并利用调整参数后的所述随机森林模型进行预测估计。具体的,根据最终确定的7个二值变量用随机森林进行模型训练,同时根据训练出来模型在测试集上预测的准确率进行调参(包括决策树个数,判断纯净度标准,最大深度等)。最后利用参数确定的模型对最终训练集和测试集进行预测估计,并计算其准确率。

S104、最后,剥离少量自相矛盾的数据,再次利用逐步回归筛选变量,并通过随机森林进行第二次拟合预测。

请参阅图2,本发明提供一种基于随机森林的离婚判决方法,所述的一种基于随机森林的离婚判决方法应用于一种基于随机森林的离婚判决系统,其特征在于,

所述基于随机森林的离婚判决包括数据处理模块1、数据处理模块2、变量筛选模块3、模型训练和4、判决预测模块,依次连接;

所述数据处理模块1,用于获取多个粗筛选变量,并对所述第一变量进行数据整合和缺失值填充;

所述变量筛选模块2,利用逐步回归对所述粗筛选变量进行初步拟合,并根据每个所述粗筛选变量的量级程度,得到多个贡献度高的最终筛选变量;

所述模型训练模块3,利用随机森林的方法针对不同数据样本进行分批次的模型训练。

所述判决预测模块4,利用所述随机森林模型对多个所述最终变量训练后的模型进行参数调整,并再准确度最优情况下进行模型预测。

在本实施方式中,关于一种基于随机森林的离婚判决系统的具体限定可以参见上文中对于一种基于随机森林的离婚判决方法的限定,在此不再赘述。上述一种基于随机森林的离婚判决系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

本发明的有益效果为:

1、随机森林利用了bootstrap aggregating的思想,一方面在bootstrap时可以变相给数据降维,从而利于处理高维数据,同时模型还拥有并行化的能力,可以同时训练多个决策树(由参数中的n_jobs这项参数控制),使得训练时间大幅缩减。

2、随机森林中提供了更好的防止过拟合的方法。不像决策树模型中利用剪枝达到防止过拟合,在随机森林中,通过每个决策树中变量和样本的双随机使模型更加泛化,也有效防止了过拟合的问题(从数学上来看其在训练集和测试集上的残差是一致收敛的)。

3、随机森林同时可以减轻异常值对结果的影响。这主要是可以由T次bootstrap保证,即对于每一棵树的样本随机选择都有可能避开异常值,从而当结合T个决策树做出最终判断时,相比于异常值总是存在的方法,随机森林便会更Robust。通过结合“投票”机制(少数服从多数,加权多数等)将所有树的结果和信息进行综合,可以有效减轻异常值对模型结果的影响,进而提高准确性。同时每次bootstrap的不完全随机抽样也可以有效的减少异常值对于预测结果的影响。

4、随机森林可以通过设置每个分类的权重从而更好处理非均衡数据。

本发明的一种基于随机森林的离婚判决方法和系统,所述基于随机森林的离婚判决包括数据处理模块1、数据训练模块2、数据筛选模块3和判决预测模块4。以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号