首页> 中国专利> 一种基于同态加密的安全朴素贝叶斯分类器训练方法

一种基于同态加密的安全朴素贝叶斯分类器训练方法

摘要

本发明涉及数据隐私保护领域,具体涉及一种基于同态加密的安全朴素贝叶斯分类器训练方法,设训练数据集的记录共包含C种类别,每个记录包含d个属性,具体为:首先对C种类别中的每一类,通过隐私服务器与所有单位进行交互计算,得到每一类的类先验概率,即为该样本类别出现的频率;然后对第1个属性到第d个属性的每一个属性进行判断。本发明在不泄露各家单位的训练数据集的隐私的前提下,实现基于多家单位的训练数据集,训练朴素贝叶斯分类器,并能够实现即使隐私服务器与多家单位其中的一些单位串通,串通之后的隐私服务器或者单位也无法得知其他单位的任何隐私信息。

著录项

  • 公开/公告号CN112966776A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 之江实验室;北京理工大学;

    申请/专利号CN202110316582.4

  • 发明设计人 沈蒙;唐湘云;高丰;祝烈煌;

    申请日2021-03-24

  • 分类号G06K9/62(20060101);G06F21/60(20130101);G06F21/62(20130101);H04L9/00(20060101);

  • 代理机构33213 杭州浙科专利事务所(普通合伙);

  • 代理人孙孟辉

  • 地址 310023 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明涉及数据隐私保护领域,具体涉及一种基于同态加密的安全朴素贝叶斯分类器训练方法。

背景技术

依托于大数据的人工智能浪潮席卷全球,正在推动经济社会各领域从数字化、网络化向智能化加速跃升。对于普遍的数据分析任务而言,提升训练数据规模对提高机器学习模型的准确率具有关键作用。2017年,美国谷歌公司的研究人员利用3亿张图像数据进行的实验,印证了训练数据规模对模型质量的重要性。鉴于单个机构拥有的数据规模有限,为了训练高质量的机器学习模型,通常需要从多个单位收集训练数据。其中,朴素贝叶斯分类器是以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的概率分类器。朴素贝叶斯分类器是高度可扩展的,且计算简单。

然而,由于训练数据往往包含敏感信息(如医疗记录、消费记录等),利用来自不同单位的数据进行朴素贝叶斯训练面临巨大的隐私泄露风险。欧盟实施的《通用数据保护条例》和《中华人民共和国网络安全法》等法律法规均明确了网络运营者的数据隐私保护义务。为了利用多家单位的数据进行朴素贝叶斯模型训练,需要设计安全协议,来保证没有隐私泄露地实现基于多家单位的数据训练朴素贝叶斯分类器。

使用多家单位进行朴素贝叶斯分类器训练一般可通过如下几个方案进行:

方案一:多家单位直接将自家数据集共享给大家,大家将数据集聚集成一个大数据集,并将聚合的数据集输入朴素贝叶斯分类器训练算法进行训练。

方案二:多家单位合作雇佣一个第三方。多家单位都将自家数据集直接发送给第三方。第三方将数据集聚集成一个大数据集,并将聚合的数据集输入朴素贝叶斯分类器训练算法进行训练。

上述第一种方案,有如下技术缺点:单位拥有的数据往往包含本单位的大量敏感信息(如医疗记录、通话记录、消费及借贷记录等)。将本单位的数据共享给其他单位会导致隐私泄露。

上述第二种方案,有如下技术缺点:多家单位将数据共享给第三方。一方面,多家单位的隐私数据会通过第三方被泄露。另一方面,第三方有可能与多家单位其中一些单位串通,使得串通的单位能得知其他单位的数据隐私。

发明内容

为了解决现有技术中存在的上述技术问题,本发明提供了一种基于同态加密的安全朴素贝叶斯分类器训练方法,其具体技术方案如下:

一种基于同态加密的安全朴素贝叶斯分类器训练方法,设训练数据集的记录共包含C种类别,每个记录包含d个属性,包括如下步骤:

步骤1,对C种类别中的每一类,通过隐私服务器与所有单位进行交互计算,得到每一类的类先验概率

步骤2,对第1个属性到第d个属性的每一个属性进行判断。

进一步的,所述步骤2具体包括:

若该属性是离散属性,通过隐私服务器与所有单位进行交互计算,则得到每个离散属性的条件概率为:

若该属性是连续属性,通过隐私服务器与所有单位进行交互计算,计算概率密度函数参数,假定P(x

令μ

进一步的,所述隐私服务器与所有单位进行交互计算均采用安全求和方法,所述安全求和方法,具体的包括如下步骤:

第1步:K家单位的每家单位都随机选择一个随机数r

第2步:隐私服务器计算

第3步:首先利用Paillier的同态减法,隐私服务器计算

第4步:隐私服务器解密

本发明的有益效果:

本发明在不泄露各家单位的训练数据集的隐私的前提下,实现了基于多家单位的训练数据集,训练朴素贝叶斯分类器,由于各家单位在将训练数据集发送给隐私服务器之前,都将训练数据集用自己的公钥进行了加密,训练数据集的安全性由选用的加密算法Paillier加以保证,即使隐私服务器与多家单位其中的一些单位串通,串通之后的隐私服务器或者单位也无法得知其他单位的任何隐私信息。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合实施例对本发明作进一步详细说明。

本发明的一种基于同态加密的安全朴素贝叶斯分类器训练方法,在运行时涉及多家单位和一位隐私服务器,所述单位是拥有训练朴素贝叶斯模型数据的单位,每家单位拥有一个私人数据集,数据集包含该单位内部隐私数据,不可直接对外共享;所述隐私服务器用于协助单位进行朴素贝叶斯模型训练。

实施例:

所述多家单位和隐私服务器的工作流程为:

S1、利用同态加密Paillier,每家单位自己生成属于自己的Paillier公私钥对:(SK,PK)

S2、每家单位将自己的私人训练数据集用自己的Paillier公钥(PK

S3、隐私服务器收到所有单位发来的加密的训练数据集,利用本发明的安全朴素贝叶斯分类器训练方法,通过与所有单位进行交互计算,训练朴素贝叶斯分类器;

S4、所述本发明的安全朴素贝叶斯分类器训练方法的输出为一个朴素贝叶斯分类器;

S5、隐私服务器将所述朴素贝叶斯分类器分享给所有单位,训练结束。

所述本发明的安全朴素贝叶斯分类器训练方法,实现了用多家单位的加密数据集训练朴素贝叶斯分类器,具体为:设训练数据集的记录共包含C种类别,每个记录包含d个属性,隐私服务器与所有单位进行交互计算时均采用安全求和方法,详细的,包括以下步骤:

步骤1,对C种类别中的每一类,通过隐私服务器与所有单位进行交互计算,得到每一类的类先验概率

步骤2,对第1个属性到第d个属性的每一个属性进行判断:

若该属性是离散属性,通过隐私服务器与所有单位进行交互计算,则得到每个离散属性的条件概率为:

若该属性是连续属性,通过隐私服务器与所有单位进行交互计算,计算概率密度函数参数,假定P(x

令μ

更具体的,设一共有K家单位,每家单位拥有一个隐私数据a

第1步:K家单位的每家单位都随机选择一个随机数r

第2步:隐私服务器计算

第3步:首先利用Paillier的同态减法,隐私服务器计算

第4步:隐私服务器解密

所述安全求和方法实现了多家单位能得到求和结果,但相互之间不知道其他单位的隐私数据a

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号