首页> 中国专利> 基于垂直分布隐私数据保护的logistic回归分析系统

基于垂直分布隐私数据保护的logistic回归分析系统

摘要

本发明提供一种基于垂直分布隐私数据保护的logistic回归分析系统,包括:隐私数据处理模块、数据挖掘学习模块和分析应用模块,其中:隐私数据处理模块利用线性核函数得到各个垂直分布机构的隐私数据的核训练集,数据挖掘学习模块首先对各个局部核训练集累加得到总体核训练集,然后对总体核训练集进行logistic回归学习,所得的全局模型向量最后在分析应用模块中被用于判断分析。本发明提供数据共享挖掘的同时还保证了垂直分布式的原始隐私数据的安全性,求解全局模型向量的特殊方法也提升了学习求解的效率,本发明采用服务器-客户的辐射分布式结构具备良好的实用性和扩展性。

著录项

  • 公开/公告号CN105069286A

    专利类型发明专利

  • 公开/公告日2015-11-18

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN201510443551.X

  • 发明设计人 熊红凯;蒋晓谦;李勇;

    申请日2015-07-24

  • 分类号G06F19/00;

  • 代理机构上海汉声知识产权代理有限公司;

  • 代理人徐红银

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-12-18 12:16:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-02-22

    授权

    授权

  • 2015-12-16

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20150724

    实质审查的生效

  • 2015-11-18

    公开

    公开

说明书

技术领域

本发明涉及一种隐私保护的分布式数据挖掘方案,具体是一种基于垂直分布隐私 数据保护的logistic回归分析系统

背景技术

大数据时代的来临对实验科学产生了重大影响。当前,生物医药领域里科学研 究的一个重要发展趋势就是数据驱动,即通过对海量数据的研究来探索其中的规律, 可以直接提出假设或得出可靠的结论。开源与数据共享已经成为生物学研究重要的 驱动力量。但是,大数据隐私问题是不容回避的现实挑战。随着人们对隐私问题特 别是基因组隐私(genomicprivacy)问题的关注,研究人员对一些重要信息的访问 可能会受到限制,例如个人基因组数据。因此如何在保证患者数据共享的同时保证 患者的原始数据没有泄漏是急需解决的问题。例如,当医疗机构A想要对某种特定 的疾病建立一个预测模型,基于此,A需要来自保险公司B的数据。同时,保险公司 B可以通过计算A所持有的电子医疗数据(譬如一些临床的实验测试结果)以提供给 顾客更好的服务来获利。但是医疗机构A不能把自己的原始数据发给B,B只能把自 己的数据保存在自己的服务器中,因此也不能共享其原始数据给A。在这种情况下, 机构A和B可以通过联合数据分析框架来获得各自需要的信息。也就是说,A和B都 保持自己的原始数据在本地但是同时他们允许共享各自局部进行分析后的结果。当机 构A和机构B的数据是共同病人的不同类型协变量数据时,我们说这种数据是垂直 分布式的。

Logistic回归分析是一种常用的机器学习方法,主要用于寻找危险因素、预测 和判别。对于垂直分布式的数据,建立一种精确又实用的Logistic回归模型是非常 困难的。基于经过对现有技术的文献检索发现,Slavkovic等人在2007年的《IEEE InternationalConferenceonDataMiningWorkshops》(IEEEICDMWorkshops) 会议上发表的“‘Secure’logisticregressionofhorizontallyand verticallypartitioneddistributeddatabases”一文中提出了一种方法,它通过 一种加密的多机构计算协议(如安全加法和安全矩阵乘积)来累加不同分布机构的信 息(如Hessian矩阵中的非对角子块矩阵),但是这种协议会带来非常大的计算开销, 而且当机构数量比较大时不具有良好的适应性。Nardi等人在2012年的《Journal ofPrivacyandConfidentiality》期刊上发表的“Achievingbothvalidand securelogisticregressionanalysisonaggregateddatafromdifferent privatesources”一文中针对垂直分布式的logistic回归分析提出了一种泛化的模 型。这种模型近似logistic回归而且计算复杂度很高,通信代价很大,因此不具备 实用性。这些不足促使申请人针对垂直分布式的隐私数据,找到一种高效实用的数据 分析方法。

发明内容

本发明针对现有技术的不足,提供了一种基于垂直分布隐私数据保护的logistic 回归分析系统,可以提供数据共享挖掘的同时还保证了垂直分布式的原始隐私数据的 安全性。

本发明是通过以下技术方案实现的:

本发明所述的基于垂直分布隐私数据保护的logistic回归分析系统,包括:隐 私数据处理模块、数据挖掘学习模块和分析应用模块,其中:

所述隐私数据处理模块对垂直分布在各局部的原始隐私数据,利用线性核函数生 成对应的核训练集,并将这些局部的核训练集输出到数据挖掘学习模块的输入端;

所述数据挖掘学习模块首先累加各个局部核训练集,得到总体核训练集,然后对 总体核训练集进行logistic回归分析得到全局模型向量,并将该全局模型向量输出到 分析应用模块的输入端;

所述分析应用模块接收所述数据挖掘学习模块输出的全局模型向量,对待分析的 隐私数据进行判断分析。

优选地,所述的隐私数据处理模块中垂直分布式隐私数据,是指存储在不同机构 中的相同样本的不同类型的协变量数据。

优选地,所述的数据挖掘学习模块,解决logistic回归的对偶问题,通过该对偶 问题的解,即全局模型向量,可计算得到logistic回归主问题的解。

优选地,所述的隐私数据处理模块,通过计算和发送其局部隐私数据的线性核矩 阵来实现原始数据的加密和共享。由于点积的结果为单值,而一个病人的数据是由许 多协变量所组成,因此只要数据集中有足够多的协变量特征,由所得的单值反求出这 些隐私数据是不可能的,即进行了加密保护。

优选地,所述的隐私数据处理模块,通过牛顿-拉弗森方法(Newton- Raphsonmethod)求解logistic回归的对偶问题。

优选地,所述的分析应用模块,通过发送全局模型向量到各个机构,并汇总各机 构反馈的局部分析参数,对待分析隐私数据进行判断预测。

本发明中采用的基于垂直分布隐私数据保护的logistic回归分析技术为垂直分 布隐私数据的数据挖掘分析提供了进行logistic回归分析的解决方案。本发明隐私 数据处理模块所使用的线性核函数可以对各个不同分布机构的原始数据进行加密保护 不泄漏,计算快速。总体核训练集等于各部分核训练集的累加的性质,与logistic回 归对偶问题相契合,从而实现安全的联合数据分析。

与现有技术相比,本发明具有如下的有益效果:

本发明提供数据共享挖掘的同时,还保证了垂直分布式的原始隐私数据的安全性, 求解全局模型向量的方法也提升了学习求解的效率。本发明采用服务器-客户模式的辐 射式结构,其中隐私数据、隐私数据处理模块位于各个客户端,数据挖掘学习模块和 分析应用模块位于服务器云端,具备良好的安全性、实用性和扩展性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、 目的和优点将会变得更明显:

图1为本发明系统一实施例的结构框图;

图2为垂直分布式隐私数据的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术 人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普 通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些 都属于本发明的保护范围。

如图1所示,本发明一实施例的结构框图,包括:隐私数据处理模块、数据挖掘 学习模块和分析应用模块,其中:隐私数据处理模块对各局部隐私数据,利用线性核 函数生成对应的核训练集,并将这些局部的核训练集输出到数据挖掘学习模块的输入 端;数据挖掘学习模块首先累加各个局部核训练集,得到总体核训练集,然后对总体 核训练集进行学习得到全局模型向量,并将该全局模型向量输出到分析应用模块的输 入端;分析应用模块接收所述数据挖掘学习模块输出的全局模型向量,对待分析的隐 私数据进行判断分析。

本实施例中,所述的隐私数据处理模块中垂直分布式隐私数据分为两部分情况的 样例如图2所示。对于k个机构所组成的垂直分布式隐私数据X=[X1|X2|…|Xk|∈ Rm×n,每个机构持有自己的数据其中m表示样本(比如 病人)的个数,ni表示第i个机构的样本特征(协变量)的数量,假设 所有机构已知共同的二值响应向量Y∈Rm×1,并且数据集是已对齐的(即病人1的数 据位于所有的机构中第一行,以此类推)。隐私数据处理模块使用线性核函数 Ki=XiXi′对第i个机构的隐私数据进行加密,由于点积的结果为单值,而一个病人 的数据是由许多协变量所组成,因此只要数据集中有足够的协变量特征,由所得的单 值反求出这些隐私数据是不可能的,即进行了加密保护。

本实施例中,所述的数据挖掘学习模块首先累加各个机构发送过来的核训练集得 到总体核训练集然后计算logistic回归的对偶问题:

minα>J(α)=12λΣi=1mΣj=1mαiαjyiyjK(i,j)-Σi=1mL(αi)---(1)

其中L(αi)=-βilog(αi)-(1-αi)log(1-αi),K(i,j)为总体核训练集K的第i行第j 列元素,主问题解β∈Rn×1与对偶问题解α∈Rm×1的关系为λ为正规化参数,αi、αj分别是指解向量α的第i,j个系数值,yi、yj分别是指二值响 应向量Y第i,j个系数值,xi是指第i个样本数据。

目标方程J的一阶导数为:

J(α)=dJ(α)i=λ-1yiΣj=1mαjyjK(i,j)+logαi1-αi---(2)

汉森(Hessian)矩阵H为:

H(α)=λ-1diag(Y)Kdiag(Y)+diag(1α(1-α))---(3)

对偶问题(1)的全局最优解是通过牛顿-拉弗森方法迭代求解:

α(s+1)=α(s)-J(α(s))H(α(s))---(4)

其中α(s+1)是α(s)新的估计向量,s为迭代次数,J(s))和H(α(s))分别是第s次迭代的目 标方程J的一阶导数和汉森矩阵。

本实施例中,所述的分析应用模块在得到全局模型向量α*后,对垂直分布在这k个 机构中的待分析隐私数据样本Z=[Z1,…,Zk]∈R1×n进行判断分析。首先分析应用模块 发送α*到各个机构,各个机构i通过计算各自的局部分析参数Fi=λ-1α*YZiZi,i= 1,…,k,并发送给分析应用模块,其中λ为正规化参数同上述(1),(2),(3)式,Zi为垂直 分布在第i个机构中的待分析隐私数据。分析应用模块通过累计计算最后 计算作为分析预测的结果,其中exp(·)为指数函数。

实施效果

本实施例中关键参数的设置为:实验所用数据来源于乳腺癌数据集GSE3494,该数 据集总共包含了236位病人的基因特征表达数据和临床数据,其中基因特征表达数据 来自两个机构,各包含15个协变量特征,分别可表示为X1∈R236×15,X2∈R236×15, 临床数据X3∈R236×10来自第三个机构包含10个协变量特征。三个机构共享二值响 应向量Y∈R236×1,其中yi=1(-1)表示死亡(生存),i=1,…,236.。我们采用10倍 交叉验证,取9份用于训练学习,取1份用于测试。取λ=2,epsilon=10-8,经过12 次迭代收敛后得到最优解,本实施例系统的曲线下面积(AUC)值为0.940±0.013,H- Lc-检验p值为0.709,表现出很好的分类性能和拟合优度。经验证,本实施例得到 的解向量α*所对应的主问题的解β*与标准的logistic回归在全部获取原始数据训练得 到的β的平均平方误差约为10-7,表明两者基本没有差别。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上 述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改, 这并不影响本发明的实质内容。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号