首页> 中国专利> 基于主成分分析和函数机制的差分隐私线性回归方法及系统

基于主成分分析和函数机制的差分隐私线性回归方法及系统

摘要

本发明属于隐私保护的机器学习技术领域,特别涉及一种基于主成分分析和函数机制的差分隐私线性回归方法及系统,对训练数据集进行切分,依据训练属性值构建特征矩阵及标签向量,向特征矩阵的协方差矩阵中注入噪声扰动,并基于主成分分析将特征矩阵投影到主成分空间,依据投影矩阵来获取降维数据集;利用降维数据集进行模型训练,在模型训练的线性回归目标函数中添加噪声扰动,对扰动后的目标函数进行最优化求解来获取模型训练的最优模型参数。本发明在降低差分隐私线性回归全局敏感度的同时,能够提高训练优化后模型的适用性。并进一步通过仿真实验表明,本案方案所训练的线性回归模型能够在有效避免隐私泄露的同时,具有良好的可用性。

著录项

  • 公开/公告号CN114969829A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利号CN202210760895.3

  • 申请日2022-06-30

  • 分类号G06F21/62(2013.01);G06K9/62(2022.01);G06N20/00(2019.01);

  • 代理机构郑州大通专利商标代理有限公司 41111;

  • 代理人周艳巧

  • 地址 450000 河南省郑州市高新区科学大道62号

  • 入库时间 2023-06-19 16:34:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F21/62 专利申请号:2022107608953 申请日:20220630

    实质审查的生效

说明书

技术领域

本发明属于隐私保护的机器学习技术领域,特别涉及一种基于主成分分析和函数机制的差分隐私线性回归方法及系统。

背景技术

随着大数据和机器学习技术的快速发展,隐私保护等安全问题愈发受到重视,如何在有效保护个体隐私数据的前提下,设计、训练和部署机器学习模型是一个亟待解决的问题。差分隐私作为一种建立在坚实数学理论基础之上、可量化的隐私保护技术,被证明能够有效保护个体的隐私数据,为机器学习中的隐私问题提供了有效的解决方案。

差分隐私通过添加随机噪声的方式,确保攻击者无法从输出结果中推测出个体的敏感信息。目前基于差分隐私的回归分析算法主要有三种:输入扰动、输出扰动和目标扰动。输入扰动是指在模型开始训练前,向训练数据集添加扰动,使用扰动后的数据训练回归分析模型;输出扰动是指直接扰动回归任务的最优模型参数或者在模型预测阶段对回归模型的预测结果添加扰动;目标扰动是指对回归任务的目标函数或目标函数的展开多项式系数进行一定程度的随机扰动,其中,扰动目标函数展开多项式系数的方法又称为函数机制。与上述其他方法相比,函数机制具有更卓越的模型性能。因此,近些年基于函数机制的差分隐私回归分析算法逐渐成为主流。

但是,基于函数机制的差分隐私回归分析算法也带来了更多的挑战。首先,该方法中的全局敏感度的大小与训练数据集的维度正相关,当数据集的维度较高时,全局敏感度较大,不适用于高维数据集下的训练场景。其次,该方法对目标函数的展开多项式系数添加的是Laplace噪声,当隐私预算ε较小时,模型的可用性往往较差,不适用于对模型的准确性要求高的场景。

发明内容

为此,本发明提供一种基于主成分分析和函数机制的差分隐私线性回归方法及系统,在降低差分隐私线性回归全局敏感度的同时,能够提高训练优化后模型的适用性。

按照本发明所提供的设计方案,提供一种基于主成分分析和函数机制的差分隐私线性回归方法,包含如下内容:

对训练数据集进行切分,依据训练属性值构建特征矩阵及标签向量,向特征矩阵的协方差矩阵中注入噪声扰动,并基于主成分分析将特征矩阵投影到主成分空间,依据投影矩阵来获取降维数据集;

利用降维数据集进行模型训练,在模型训练的线性回归目标函数中添加噪声扰动,对扰动后的目标函数进行最优化求解来获取模型训练的最优模型参数。

作为本发明基于主成分分析和函数机制的差分隐私线性回归方法,进一步地,向特征矩阵中注入噪声扰动中,利用对称高斯噪声矩阵作为向协方差矩阵添加扰动的噪声矩阵,通过协方差矩阵和噪声矩阵来获取扰动后的协方差矩阵。

作为本发明基于主成分分析和函数机制的差分隐私线性回归方法,进一步地,基于主成分分析来获取降维数据集中,首先对扰动后的协方差矩阵进行特征值分解,得到特征值和特征向量;然后,确定主成分空间,并通过将特征矩阵投影到主成分空间来获取投影矩阵。

作为本发明基于主成分分析和函数机制的差分隐私线性回归方法,进一步地,确定主成分空间中,首先,设置指定主成分特征值的比重阈值,依据主成分特征值的累积贡献率是否超过比重阈值来确定目标维度大小;依据目标维度大小来选取特征值对应的特征向量,有选取的特征值对应的特征向量组成主成分空间。

作为本发明基于主成分分析和函数机制的差分隐私线性回归方法,进一步地,确定目标维度大小的过程表示为:

作为本发明基于主成分分析和函数机制的差分隐私线性回归方法,进一步地,投影矩阵表示为:

作为本发明基于主成分分析和函数机制的差分隐私线性回归方法,进一步地,模型训练中,线性回归目标函数展开为二次多项式形式,并在展开的二次多项式形式中添加随机扰动噪声;并对添加扰动噪声的目标函数进行最优求解。

作为本发明基于主成分分析和函数机制的差分隐私线性回归方法,进一步地,目标函数展开的二次多项式形式表示为:

作为本发明基于主成分分析和函数机制的差分隐私线性回归方法,进一步地,在展开的二次多项式形式中添加的扰动噪声为服从

进一步地,本发明还提供一种基于主成分分析和函数机制的差分隐私线性回归系统,包含:数据处理模块和模型训练模块,其中,

数据处理模块,用于对训练数据集进行切分,依据训练属性值构建特征矩阵及标签向量,向特征矩阵的协方差矩阵中注入噪声扰动,并基于主成分分析将特征矩阵投影到主成分空间,依据投影矩阵来获取降维数据集;

模型训练模块,用于利用降维数据集进行模型训练,在模型训练的线性回归目标函数中添加噪声扰动,对扰动后的目标函数进行最优化求解来获取模型训练的最优模型参数。

本发明的有益效果:

本发明针对现有差分隐私线性回归算法全局敏感度较大、模型可用性较差等问题,为了在降维的同时兼顾数据的隐私性,向原始数据集的协方差矩阵中注入高斯噪声,基于主成分分析得到具有差分隐私保护效果的低维数据集;其次,为防止模型训练过程中可能存在的隐私泄露,再向目标函数的展开多项式系数添加高斯噪声,并以扰动后的目标函数最小化为目标,求得最优模型参数。并进一步通过仿真实验表明,本案方案所训练的线性回归模型能够在有效避免隐私泄露的同时,具有良好的可用性。

附图说明:

图1为实施例中基于主成分分析和函数机制的差分隐私线性回归流程示意;

图2为实施例中扰动协方差矩阵的示意;

图3为实施例中扰动目标函数的示意;

图4为实施例中3个数据集的碎石图示意;

图5为实施例中在3个数据集上训练线性回归模型的均方误差对比图示意。

具体实施方式:

为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。

本发明实施例,提供一种基于主成分分析和函数机制的差分隐私线性回归方法,包含如下内容:

S101、对训练数据集进行切分,依据训练属性值构建特征矩阵及标签向量,向特征矩阵的协方差矩阵中注入噪声扰动,并基于主成分分析将特征矩阵投影到主成分空间,依据投影矩阵来获取降维数据集;

S102、利用降维数据集进行模型训练,在模型训练的线性回归目标函数中添加噪声扰动,对扰动后的目标函数进行最优化求解来获取模型训练的最优模型参数。

参见图1所示,针对现有差分隐私线性回归算法全局敏感度较大、模型可用性较差等问题,本案实施例中,利用PCA和差分隐私对原始数据进行降维处理,得到差分隐私保护下的低维数据集

进一步,本案实施例,向特征矩阵中注入噪声扰动中,利用对称高斯噪声矩阵作为向协方差矩阵添加扰动的噪声矩阵,通过协方差矩阵和噪声矩阵来获取扰动后的协方差矩阵。基于主成分分析来获取降维数据集中,首先对扰动后的协方差矩阵进行特征值分解,得到特征值和特征向量;然后,确定主成分空间,并通过将特征矩阵投影到主成分空间来获取投影矩阵。在确定主成分空间中,首先,设置指定主成分特征值的比重阈值,依据主成分特征值的累积贡献率是否超过比重阈值来确定目标维度大小;依据目标维度大小来选取特征值对应的特征向量,有选取的特征值对应的特征向量组成主成分空间。

利用主成分分析技术对原始数据集进行降维处理中,通过选用能够反映原始数据集绝大部分信息的低维数据集进行模型训练、利用差分隐私技术扰动原始数据集的协方差矩阵来获得具有差分隐私保护效果的低维数据集,具体实现算法可设计为包括以下步骤:

步骤1.1:切分数据集D,将训练数据集中的训练属性值构成一个n×d维的特征矩阵X,标签值构成一个n维的向量y,即D=(X,y);并对切分后的数据集进行标准化处理。

步骤1.2:计算协方差矩阵

步骤1.3:生成噪声矩阵E,计算扰动后的协方差矩阵

步骤1.4:对扰动后的协方差矩阵

步骤1.5:计算目标维度k,确定主成分空间。

步骤1.6:将原始特征矩阵投影到主成分空间得到投影矩阵

其中,噪声矩阵为对称高斯噪声矩阵,即

指定主成分特征值的比重阈值θ∈(0,1],使主成分特征值的累积贡献率per满足:

进一步地,本案实施例的模型训练中,线性回归目标函数展开为二次多项式形式,并在展开的二次多项式形式中添加随机扰动噪声;并对添加扰动噪声的目标函数进行最优求解。

基于函数机制的思想向线性回归目标函数的展开多项式系数中注入高斯噪声,得到扰动后的目标函数,并通过扰动后的目标函数,计算出差分隐私保护下的最优模型参数,具体算法实现过程可设计为包括以下步骤:

步骤2.1:对步骤1降维处理后的数据集进行标准化处理。

步骤2.2:计算线性回归的目标函数

步骤2.3:扰动目标函数的展开多项式系数,如图3所示。

步骤2.4:通过扰动后的目标函数

目标函数

进一步地,基于上述的方法,本发明实施例中还提供一种基于主成分分析和函数机制的差分隐私线性回归系统,包含:数据处理模块和模型训练模块,其中,

数据处理模块,用于对训练数据集进行切分,依据训练属性值构建特征矩阵及标签向量,向特征矩阵的协方差矩阵中注入噪声扰动,并基于主成分分析将特征矩阵投影到主成分空间,依据投影矩阵来获取降维数据集;

模型训练模块,用于利用降维数据集进行模型训练,在模型训练的线性回归目标函数中添加噪声扰动,对扰动后的目标函数进行最优化求解来获取模型训练的最优模型参数。

为验证本案方案有效性,下面结合试验数据做进一步解释说明:

使用US、Brazil以及Kaggle数据库中用于训练线性回归模型的公开数据集BoomBikes来进行仿真实验,这三个数据集均能在有效降维的同时承载原始数据集大量的信息。如图4所示,这是3个测试数据集经特征分析后得到的碎石图。对于US和Brazil数据集,想要保留原始数据集95%的信息,仅需要3个主成分。对于Boom Bikes数据集,需要4个主成分,便能将原始的31维数据集中95%以上的信息保留下来。

从图5中的(a)、(b)、(c)可以看出:本案方案公开的PCAFM-DPLR算法在相同的隐私预算下模型的可用性优于原始的FM算法。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号