首页> 中国专利> 一种基于随机响应差分隐私技术的教师共识聚集学习方法

一种基于随机响应差分隐私技术的教师共识聚集学习方法

摘要

本发明公开了一种基于随机响应差分隐私技术的教师共识聚集学习方法,包括步骤:将查询输入到教师模型中,得到所述教师模型对应的输出标签;其中,所述教师模型有多个,各教师模型互不相同;对所述输出标签进行随机扰动,得到扰乱标签;根据所述扰乱标签,确定所述查询对应的估计标签;其中,所述估计标签至少有2个;基于所述查询和所述估计标签所组成的数据集以及生成对抗网络生成的数据集训练学生模型,得到已训练的学生模型。由于在将学生模型进行迁移时,通过查询和估计标签,无法得到敏感数据集中的敏感数据,从而达到提高迁移学习中的私密性的问题。

著录项

  • 公开/公告号CN112885468A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 深圳大学;

    申请/专利号CN202110106371.8

  • 发明设计人 李坚强;王佳;陈杰;何诗情;

    申请日2021-01-26

  • 分类号G16H50/30(20180101);G16H50/70(20180101);G06F21/62(20130101);G06N20/00(20190101);

  • 代理机构44268 深圳市君胜知识产权代理事务所(普通合伙);

  • 代理人徐凯凯;谢松

  • 地址 518060 广东省深圳市南山区南海大道3688号

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明涉及风险预测技术领域,尤其涉及的是一种基于随机响应差分隐私技术的教师共识聚集学习方法。

背景技术

数据驱动的学习模型与计算和分析方法的发展进行了有建设性的结合,充分发挥了海量医疗和健康数据的全部威力,从而带来了关于医疗保健,临床决策支持以及疾病风险预测等方面的新见解。通常,这些算法严重依赖大量标记良好的医学数据来构建分类器或预测模型,以进行有效的二次使用,所以训练数据的质量和数量显然对训练结果有很大影响。但是,由于某些疾病的发病率较低或医学观察周期较长,因此并不总是可以使用这些疾病的合格数据集,同时,可能存在一些相关的慢性疾病,这些疾病的数据量较大,可以为目标推断提供有用的信息。

迁移学习是一种可以实现上述目标的技术,它探讨了将从一个领域学到的先验知识用于另一个领域的可能性。根据要迁移的内容,可以将这些方法大致分为几类,包括实例迁移,特征迁移和参数迁移。不可避免地,在迁移过程中,目标域需要源域的样本数据或模型信息来进行模型改进,但是,并非总是允许直接迁移此类敏感信息,特别是对于要迁移的源数据由不同的外部医疗机构拥有的情况。最近的工作证明了机器学习算法遭受恶意隐私攻击,传统的数据模型训练不是单向过程,模型倒置和隶属推断都可以用作黑盒攻击(攻击者仅具有对模型的查询访问权限)或白盒攻击(攻击者可以完全访问模型的结构和参数)。生成序列学习模型可能无意间记住了训练数据,这使得对手有可能提取深度学习参与者的敏感信息。因此,现有技术中,将任何源域信息共享给想要使用它来改善其本地目标学习性能的外部医学机构时,存在隐私问题。

因此,现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于随机响应差分隐私技术的教师共识聚集学习方法,旨在解决现有技术中迁移学习的私密性低的问题。

本发明解决技术问题所采用的技术方案如下:

一种基于随机响应差分隐私技术的教师共识聚集学习方法,其中,包括步骤:

将查询输入到教师模型中,得到所述教师模型对应的输出标签;其中,所述教师模型有多个,各教师模型互不相同;

对所述输出标签进行随机扰动,得到扰乱标签;

根据所述扰乱标签,确定所述查询对应的估计标签;其中,所述估计标签至少有2个;

基于所述查询和所述估计标签所组成的数据集以及生成对抗网络生成的数据集训练学生模型,得到已训练的学生模型。

所述的基于随机响应差分隐私技术的教师共识聚集学习方法,其中,每个所述教师模型均采用所述教师模型对应的敏感数据子集训练得到,所述敏感数据子集根据敏感数据集划分形成。

所述的基于随机响应差分隐私技术的教师共识聚集学习方法,其中,所述根据所述扰乱标签,确定所述查询对应的估计标签,包括:

根据所述扰乱标签,确定所述扰乱标签的标签计数;

根据所述标签计数,确定各标签计数的无偏估计量;

根据所述无偏估计量确定所述查询对应的所述估计标签。

所述的基于随机响应差分隐私技术的教师共识聚集学习方法,其中,所述各标签计数的无偏估计量为:

其中,j表示标签序号,x表示一个查询,

所述的基于随机响应差分隐私技术的教师共识聚集学习方法,其中,所述设计矩阵为:

p={p

u,v∈(1,2,...,t)

其中,p

所述的基于随机响应差分隐私技术的教师共识聚集学习方法,其中,所述估计标签为:

其中,

一种脑卒中风险预测模型建立方法,其中,包括步骤:

在源域中采用如上述任意一项所述的基于随机响应差分隐私技术的教师共识聚集学习方法,得到已训练的学生模型;

将所述已训练的学生模型迁移至目标域中训练,得到脑卒中风险预测模型。

所述的脑卒中风险预测模型建立方法,其中,所述将所述已训练的学生模型迁移至目标域中训练,得到脑卒中风险预测模型,包括:

针对特征空间中的每个特征,根据源域相关系数向量和目标域相关系数向量,确定该特征对应的相似度;

根据所述源域相关系数向量和所述相似度,确定该特征对应的相似权重;

根据各特征各自分别对应的相似权重,确定目标特征;

将所述已训练的学生模型作为预训练模型,基于所述目标特征训练所述预训练模型,得到脑卒中风险预测模型。

所述的脑卒中风险预测模型建立方法,其中,所述相似度为:

ω

其中,

所述的脑卒中风险预测模型建立方法,其中,所述相似权重为:

其中,Δ

有益效果:由于在将学生模型进行迁移时,通过查询和估计标签,无法得到敏感数据集中的敏感数据,从而达到提高迁移学习中的私密性的问题。

附图说明

图1是本发明中基于随机响应差分隐私技术的教师共识聚集学习方法的第一流程图。

图2是本发明中脑卒中风险预测模型建立方法的第一流程图。

图3是本发明中在不同的扰动概率和教师数下预测高血压的准确率图。

图4是本发明中不同扰动概率和教师数下的标签反转次数图。

图5是本发明中RRML和PATE-G的测试精度对比。

图6是本发明中RRML和PATE-G的标签反转数对比。

图7是本发明中RRML与基于PATE-G的迁移学习实现的准确性对比。

图8是本发明中基于随机响应差分隐私技术的教师共识聚集学习方法的第二流程图。

图9是本发明中脑卒中风险预测模型建立方法的第二流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

差分隐私是一种广泛采用的严格数学概念,它可以为数据释放机制衡量隐私损失预算。基于差分隐私进行了隐私保护机器学习方法设计,Papernot等人提出了一种普遍适用的差分隐私机器学习算法,即PATE算法,该算法可确保训练数据免受模型反转和成员推断攻击的安全,但是,PATE将拉普拉斯噪声直接添加到投票结果中,这不可避免地导致较低的预测准确性。尽管通过应用新的噪声聚集机制或新的训练方法,在PATE基础架构下提供更好的隐私-实用性权衡,但这些算法都假定存在可信赖的模型训练人员(比如科研人员),并不总是成立。实际上,数据所有者和模型训练人员通常属于不同的机构,即训练工作是由第三方在非本地进行的,因为医疗机构通常使用有限的计算和分析资源进行配置,并且仅具有处理少量数据的能力。也就是说,仍然存在隐私问题。

请同时参阅图1-图9,本发明提供了一种基于随机响应差分隐私技术的教师共识聚集学习方法的一些实施例。本实施例中基于随机响应差分隐私技术的教师共识聚集学习方法是基于随机响应机制的本地差分私有机器学习算法(RRML)。

如图1和图8所示,本发明实施例的基于随机响应差分隐私技术的教师共识聚集学习方法,包括以下步骤:

步骤S100、将查询输入到教师模型中,得到所述教师模型对应的输出标签;其中,所述教师模型有多个,各教师模型互不相同。

具体地,教师模型有多个,也就是说,教师模型至少有2个,各教师模型互不相同,那么各教师模型对应的输出标签,也不完全一样。

举例说明,本实施例中教师模型有n个,分别为:Teacher 1、Teacher 2、...、Teacher i、...、Teachern,其中,i∈(1,2,...,n)。将查询x输入到各教师模型中,得到各教师模型对应的输出标签,那么可以得到n个输出标签,分别为f

具体地,每个所述教师模型均采用所述教师模型对应的敏感数据子集训练得到,所述敏感数据子集根据敏感数据集划分形成。敏感数据集是指涉及用户信息而需要保护的数据集,以医院为例,敏感数据集中的敏感数据包括:用户的年龄、性别、职业以及病情等信息。具体地到疾病的类型,可以是高血压、脑卒中等,那么敏感数据还包括:高血压的血压值等数据。

由于各教师模型训练时所基于的敏感数据子集各不相同,因此得到的教师模型也是各不相同。在训练教师模型时,先将敏感数据集划分成n个敏感数据子集,然后分别基于各敏感数据子集,训练得到各教师模型。

举例说明,将敏感数据集(Sensitive Data)划分成n份,各敏感数据子集分别为:Data 1、Data 2、...、Data i、...、Datan,基于各敏感数据子集训练得到各教师模型。由于各敏感数据子集不完全相同,训练得到的各教师模型的参数也不相同。需要说明的是,这里敏感数据子集的数量和教师模型的数量是相同的。

步骤S200、对所述输出标签进行随机扰动,得到扰乱标签。

具体地,对输出标签进行随机扰动,扰乱标签,可能与扰乱之前的输出标签一样,也有可能与扰乱之前的输出标签不一样。

举例说明,对输出标签f

例如,f

步骤S300、根据所述扰乱标签,确定所述查询对应的估计标签;其中,所述估计标签至少有2个。

具体地,根据扰乱标签,确定查询对应的估计标签,估计标签至少有2个,也就是说,根据查询得到的估计标签不是唯一的,那么对于这种经过随机扰动之后得到的不唯一的估计标签,即使通过查询和估计标签,也无法得到敏感数据子集中的敏感数据,从而确保了数据的私密性。

具体地,通过对扰乱标签进行计数和校正得到估计标签。具体地,步骤S300、根据所述扰乱标签,确定所述查询对应的估计标签,包括:

步骤S310、根据所述扰乱标签,确定所述扰乱标签的标签计数。

具体地,输出标签的标签计数与扰乱标签的标签计数是不相同的,本实施例中,如无特别注明,标签计数是指扰乱标签的标签计数。

举例说明,共有t个标签,分别为1,2,、...、v、...、u、...、t。在输出标签中第v个标签计数为:

n

在扰乱标签中第u个标签计数为:

n′

由于输出标签经过随机扰动后,输出标签与扰乱标签不完全相同,则对于同一个标签j,输出标签的标签计数n

步骤S320、根据所述标签计数,确定各标签计数的无偏估计量。

具体地,根据扰乱标签的标签计数,确定各标签计数的无偏估计量,也就是说,通过对标签计数进行校正得到各标签计数的无偏估计量。再通过无偏估计量确定查询对应的估计标签。

第i个教师模型输出的输出标签f

定义λ=(λ

λ=pπ

其中,p={p

在数据收集场景中,与标准拉普拉斯机制相比,随机响应技术可提供更好的统计效用,尤其是在隐私预算非常有限的情况下。为了使对角元素的总和最大化,随机响应的设计矩阵p={p

u,v∈(1,2,...,t)

其中,p

因此,有π=p

具体地,每个标签都对应有一个

由于输出标签需要经过扰乱才能确保私密性,而经过扰乱得到的扰乱标签与输出标签差异较大,因此,需要对扰乱标签进行校正,得到估计标签,使得估计标签与输出标签之间的差异较小,从而可以将估计标签与查询作为数据集使用。

步骤S330、根据所述无偏估计量确定所述估计标签。

具体地,根据无偏估计量确定估计标签,将无偏估计量取最大值时的标签作为估计标签。具体地,所述估计标签为:

其中,

步骤S400、基于所述查询和所述估计标签所组成的数据集以及生成对抗网络生成的数据集训练学生模型,得到已训练的学生模型。

具体地,由查询和估计标签所组成的数据集结合GAN(即生成对抗网络)生成的数据集一起训练学生模型。在将学生模型进行迁移时,通过查询和估计标签,无法得到敏感数据集中的敏感数据,从而达到提高迁移学习中的私密性的问题。

为了建立有力的隐私保护,要限制教师模型的查询数目,因为针对每一次查询,我们都要添加新的扰动,从而产生新的隐私预算。因此将生成对抗网络(GANs)应用于半监督学习,与所有半监督学习方法一样,加入半监督机制的RRML框架假定学生模型可以访问部分未标记的数据。这种假设不会极大地限制方法的适用性:即使在学习敏感数据时,也经常存在不重叠,未标记的数据集,半监督方法可以从中提取先验分布。例如,存在用于文本和图像以及医学数据的公共数据集。

具体地,由于基于所述查询和所述估计标签所组成的数据集以及生成对抗网络生成的数据集训练学生模型,可以提高迁移学习的准确性,本实施例中方法的准确性要高于普遍适用的差分隐私机器学习方法。

对RRML的隐私分析。

在进行隐私分析之前,要先了解两个概念:差分隐私和时刻会计(momentaccountant)。

①差分隐私

对于随机算法A:D→R,给定任意兄弟数据库d,d′∈D(|dΔd′|≤1)和任意输出子集

Pr[A(d)∈S]≤e

其中ε和δ是两个非负实值,Pr[·]表示概率,D表示输入数据,R表示输出数据。

②时刻会计

对于一个输出o∈R,在o上的隐私损失被定义为:

隐私损失随机变量C(A,aux,d,d′)被定义为c(A(d);A,aux,d,d′),其中aux表示额外输入。采用时刻会计计算隐私损失,对于任意常数λ,例如,可以采用λ=8。时刻会计的定义如下:

其中

T

T

计算被扰动的数据中正确地将查询x的值重建为v的概率。

矩阵p={p

为了使对角元素的总和最大化,随机响应的设计矩阵p={p

根据贝叶斯定理,则有:

引入时刻会计进行多条查询的隐私组合。

为了获得RRML的整体隐私损失,需要计算

T

最后总隐私预算ε

本发明还提供了一种脑卒中风险预测模型建立方法的较佳实施例:

迁移学习从相关领域或任务的辅助数据中提取到的有用知识,以提高目标任务的性能。其中,域(domain)被定义为:

RRMTL的基本架构如图2所示,首先在源域(高血压数据)中使用RRML结构训练学生模型。与PATE-G类似,还采用了生成对抗网络(GAN)来生成人工高血压样本以优化性能,这是因为对教师模型的查询减少,隐私损失也会减少。然后将学生模型权重作为预训练模型迁移到目标域(脑卒中数据)的风险预测任务中以提高精度。RRMTL基础结构可以在源域中获取有价值的知识的同时不会侵犯源域中的私有数据,这主要是通过以下两个方面来实现的:

(1)由于RRML提供了严格的差分隐私保护,即使整个学生模型都可以访问,攻击者也无法获得源域中单个训练样本的任何敏感信息;

(2)RRMTL的本地差分隐私保护功能可确保攻击者无法确定源域训练集中是否存在某个训练点。

如图2和图9所示,本发明实施例所述一种脑卒中风险预测模型建立方法,包括以下步骤:

步骤A100、在源域中采用如上述任意一实施例所述的基于随机响应差分隐私技术的教师共识聚集学习方法,得到已训练的学生模型。

具体地,根据脑卒中风险预测模型确定源域,通常根据疾病类型进行选择,选择与脑卒中类似的疾病,例如,高血压,老年痴呆。需要说明是,源域通常具有足够数量的高维数据。本实施例中,采用高血压数据作为源域数据。

步骤A200、将所述已训练的学生模型迁移至目标域中训练,得到脑卒中风险预测模型。

具体地,如上所述,源域通常具有足够数量的高维数据。但是,在这些数据中可能存在一些不相关的特征数据,这类特征可能会增加域之间的距离并导致迁移精度下降。关于域适应性已经进行了许多工作,例如,使用域相似性和域复杂度选择实例子集,再如使用贝叶斯优化来选择数据。本实施例中使用特征权重的相似性来找到一组优化的特征,以避免负向转移,从而获得更好的迁移性能。采用特征优化算法(FOA)分别计算了源域和目标域中每个特征的权重,然后选择相似度更大的特征进行迁移。

步骤A200、将所述已训练的学生模型迁移至目标域中训练,得到脑卒中风险预测模型包括:

步骤A210、针对特征空间中的每个特征,根据源域相关系数向量和目标域相关系数向量,确定该特征对应的相似度。

具体地,假设特征空间X

所述相似度为:

ω

其中,

步骤A220、根据所述源域相关系数向量和所述相似度,确定该特征对应的相似权重。

具体地,针对每一个特征,根据该特征对应的源域相关系数向量和相似度,确定该特征对应的相似权重。

所述相似权重为:

其中,Δ

步骤A230、根据各特征各自分别对应的相似权重,确定目标特征。

具体地,Δ

步骤A240、将所述已训练的学生模型作为预训练模型,基于所述目标特征训练所述预训练模型,得到脑卒中风险预测模型。

具体地,将已训练的学生模型作为预训练模型,也就是说,保留已训练的学生模型在源域中训练得到的权重,基于目标特征训练预训练模型,得到脑卒中风险预测模型。

为了验证所提出的RRML方案和基于RRMTL的中风风险预测方法,在实际场景中进行了实验。实验中使用的数据是从位于同一城市的一家医院和一家医疗机构的EHR数据库中收集的。医院从2012年到2015年记录的20,000例高血压数据用作源域数据。对于医疗机构而言,鉴于2012年至2015年记录的2,000起中风事件数据,目标任务包括预测2016年至2018年的脑卒中事件风险。实验主要包括以下四个部分。

(1)RRML算法对高血压数据的测试准确性。图3展示了在不同教师模型和扰动概率下所提出的RRML方案的测试精度。3条线分别表示n=5、50、100时的总体准确性趋势。从图中可以看出,随着干扰概率的增加,高血压预测的准确性逐渐降低。通常,与将n设置为太小(n=5)或太大的值(n=100)的情况相比,当教师模型的数量设置为n=50时,模型会获得更好的结果。图4给出了教师投票结果中的失败次数(或反转次数)

(2)RRML和PATE-G的性能对比。PATE-G方案利用拉普拉斯噪声来干扰教师模型的投票结果,而RRML则采用随机响应技术作为干扰机制。为了评估该方案的有效性,在该实验中比较了所提出的RRML和PATE-G方案的测试准确性(图5)以及标签反转数(图6)。如图5所示,在隐私预算∈

(3)FOA的效果。表1显示了基于RRMTL的中风风险预测模型的性能。没有FOA,直接从高血压域直接转移,脑卒中风险预测模型的准确性甚至会从73.2%降至72.3%,发生负迁移。而通过应用FOA到迁移学习,该模型在(73.2%至80.5%),精确率(69.5%至75%),召回率(80.4%至84.2)等方面均获得了明显的性能改进。

表1为FOA在迁移学习中的应用

F值是F-measure的简写,是指精确率与召回率的加权平均值,AUC是Area Underroc Curve的缩写,是ROC(接收者操作特征曲线)与坐标轴围成的面积值。

(4)基于RRMTL的脑卒中风险预测模型的性能。为了评估所提出的基于RRMTL的脑卒中风险预测模型的性能,已进行了广泛的实验。将源域数据(即20,000个高血压样本)划分为多个独立的块,以方便提出的RRML方案获得多个教师模型。对于学生模型的训练,使用800个查询来获取相应的隐私标签。将这些数据与GAN生成的人工样本相结合,以半监督的方式训练学生模型。然后将用于预测高血压的学生模型的权重迁移到目标域。如表2所示,在RRTML的隐私保护架构下,脑卒中风险预测模型的性能评估参数均获得了不同程度的提高。在本实验中,所有基于RRMTL的脑卒中风险预测实施的总隐私预算设置为ε

表2为基于RRMTL的脑卒中风险预测模型(带有FOA)的性能

本发明有益效果有如下3个:

1、提出了一种基于随机扰动差分隐私的聚集教师集成(RRML)的分类方法。与直接使用噪声统计结果来训练学生模型的标准拉普拉斯噪声机制相比,随机响应利用最大似然估计来逼近真实的聚合教师标签。从形式上和经验上都证明,RRML在应用于私有数据分类问题时会获得更好的效用,尤其是在隐私预算较小的情况下。

2、提出了一种本地差分私有数据融合和知识转移基础设施RRTML。与其他输出扰动机制(例如PATE及其变体)相比,无需假设模型训练者可信即可保证本地差分隐私。因此,它更适合在高度关注隐私的协作学习方案中采用。

3、在RRMTL基础结构下实现了利用迁移学习的脑卒中风险预测模型。首先训练高血压预测模型,然后将其迁移以改善脑卒中预测模型的性能。使用了一个真实的数据集对其进行了测试,该数据集包含2012-2017年间在三家当地医院记录的2426起中风事件。实验结果表明,该方案将脑卒中预测精度从73%提高到81%,并且隐私保证ε≤1.5。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号