首页> 中国专利> 基于隐私保护的多重共线性检测方法、装置及系统

基于隐私保护的多重共线性检测方法、装置及系统

摘要

本说明书实施例提供基于隐私保护的多重共线性检测方案。该多重共线性检测方案由多个成员设备执行,每个成员设备具有本地特征数据。各个成员设备对各自的本地特征数据执行数据对齐来构建出联合特征矩阵,并且协同来执行基于隐私保护的多方矩阵乘法计算,求出联合特征矩阵与其转置矩阵的乘积矩阵,每个成员设备具有乘积矩阵的乘积矩阵分片。然后,各个成员设备使用各自的乘积矩阵分片联合确定乘积矩阵的逆矩阵,每个成员设备具有逆矩阵的逆矩阵分片。随后,各个成员设备使用各自的逆矩阵分片以及本地特征数据确定样本数据的各个属性特征的方差膨胀因子,每个成员设备具有各个属性特征的方差膨胀因子的分片数据,并根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。

著录项

  • 公开/公告号CN112597540A

    专利类型发明专利

  • 公开/公告日2021-04-02

    原文格式PDF

  • 申请/专利权人 支付宝(杭州)信息技术有限公司;

    申请/专利号CN202110115832.8

  • 发明设计人 刘颖婷;陈超超;周俊;王力;

    申请日2021-01-28

  • 分类号G06F21/62(20130101);G06N20/00(20190101);

  • 代理机构11376 北京永新同创知识产权代理有限公司;

  • 代理人林锦辉;刘景峰

  • 地址 310000 浙江省杭州市西湖区西溪路556号8层B段801-11

  • 入库时间 2023-06-19 10:27:30

说明书

技术领域

本说明书实施例通常涉及人工智能领域,尤其涉及基于隐私保护的多重共线性检测方法、装置及系统。

背景技术

机器学习技术被广泛地应用于各种业务应用场景。在业务应用场景中,使用机器学习模型作为业务模型来进行各种业务预测服务,比如,分类预测、业务风险预测等等。在将业务模型应用于业务预测服务之前,需要使用建模数据构建出业务模型。建模数据例如可以是数据提供方收集来用于业务模型建模的业务数据。建模数据通常具有多种维度特征(也可以称为多种维度变量)。建模数据的维度特征作为所构建的业务模型的模型特征或预测特征。

在业务模型是回归模型的情况下,在构建业务模型的过程中,可能会出现一些预测特征与其他预测特征相关,即,业务模型的预测特征存在多重共线性。如果业务模型的预测特征之间的多重共线性严重,则会增大回归系数的方差,使得业务模型的建模结果不稳定。此外,建模数据的多重共线性还会大大降低回归模型的可解释性。例如,在业务模型的预测特征之间的多重共线性严重时,多次建模所得到的参数估计值会不同(参数方差较大),并且即使预测特征和标签之间存在显著关系,回归系数也可能并不显著。而且,高度相关预测特征的回归系数在样本之间的差异性很大,甚至会包含错误的符号。回归模型的可解释性是业务模型建模的重要考量指标,尤其是金融领域的业务模型建模。

此外,在业务模型建模时,为了提升业务模型的建模精度,会使用多平台联合建模方案,即,使用多个建模参与方提供的建模数据来联合构建业务模型。多个建模参与方所提供的建模数据产生于相似应用场景,难免会产生命名不同但实际共线性的建模特征,从而使得业务模型的建模特征很大可能会存在多重共线性。此外,多个建模参与方提供的建模数据是隐私数据,在进行多方联合建模时,需要保证各个建模参与方的建模数据的隐私安全。由此,在构建回归模型之前,需要对多个建模参与方提供的建模数据进行基于隐私保护的多重共线性检测。

发明内容

鉴于上述,本说明书实施例提供一种基于隐私保护的多重共线性检测方法、装置及系统,其能够在确保各个成员设备的本地特征数据的隐私安全的情况下实现多重共线性检测。

根据本说明书实施例的一个方面,提供一种基于隐私保护的多重共线性检测方法,所述方法由至少两个成员设备中的一个成员设备执行,所述至少两个成员设备中的每个成员设备具有本地特征数据,所述方法包括:与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵;与其余成员设备一起执行基于隐私保护的多方矩阵乘法计算,计算得出所述联合特征矩阵的转置矩阵与该联合特征矩阵的乘积矩阵,每个成员设备具有所述乘积矩阵的乘积矩阵分片;与其余成员设备一起根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片;与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子,每个成员设备具有各个属性特征的方差膨胀因子的分片数据;以及与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。

可选地,在上述方面的一个示例中,与其余成员设备一起根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片包括:与其余成员设备一起使用牛顿迭代法来根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片,其中,在每次牛顿迭代过程中,各个成员设备的乘积矩阵分片之间的矩阵乘积基于秘密共享矩阵计算实现。

可选地,在上述方面的一个示例中,各个成员设备的本地特征数据包括基于数据水平切分的本地特征数据或者基于数据垂直切分的本地特征数据。

可选地,在上述方面的一个示例中,在各个成员设备的本地特征数据包括基于数据垂直切分的本地特征数据时,与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子包括:使用本地特征数据确定所述成员设备的各个属性特征的特征方差;以及与其余成员设备一起,使用各自的逆矩阵分片以及各自具有的属性特征的特征方差,根据公式

可选地,在上述方面的一个示例中,在各个成员设备的本地特征数据包括基于数据水平切分的本地特征数据时,与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子包括:使用本地特征数据确定各个属性特征i的特征方差

可选地,在上述方面的一个示例中,所述基于隐私保护的多方矩阵乘法计算包括下述多方矩阵乘法中的一种:多方分块矩阵乘法或者多方秘密共享转置矩阵乘法。

可选地,在上述方面的一个示例中,与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵可以包括:与其余成员设备一起采用安全交集计算协议来对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵。

可选地,在上述方面的一个示例中,与其余成员设备一起,根据各自具有的各个本地属性特征的方差膨胀因子的分片数据来确定多重共线性可以包括:与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据,重构出各个属性特征的方差膨胀因子;在所重构定出的属性特征的方差膨胀因子小于第一参考值时,确定针对该属性特征不存在多重共线性;在所重构出的属性特征的方差膨胀因子不小于第一参考值且小于第二参考值时,确定针对该属性特征存在第一级别多重共线性;以及在所重构出的属性特征的方差膨胀因子不小于第二参考值时,确定针对该属性特征存在第二级别多重共线性。

可选地,在上述方面的一个示例中,各个成员设备的本地特征数据是回归模型的建模数据,所述方法还可以包括:在确定针对属性特征存在所述第二级别多重共线性时,从所述回归模型的建模特征中去除该属性特征,或者将该属性特征与所述回归模型的其它相关建模特征组合为单一建模特征。

根据本说明书的实施例的另一方面,提供一种基于隐私保护的多重共线性检测装置,所述多重共线性检测装置应用于至少两个成员设备中的一个成员设备,所述至少两个成员设备中的每个成员设备具有本地特征数据,所述多重共线性检测装置包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器中的计算机程序,所述至少一个处理器执行所述计算机程序来实现:与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵;与其余成员设备一起执行基于隐私保护的多方矩阵乘法计算,计算得出所述联合特征矩阵的转置矩阵与该联合特征矩阵的乘积矩阵,每个成员设备具有所述乘积矩阵的乘积矩阵分片;与其余成员设备一起根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片;与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子,每个成员设备具有各个属性特征的方差膨胀因子的分片数据;以及与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。

可选地,在上述方面的一个示例中,所述至少一个处理器执行所述计算机程序来实现:与其余成员设备一起使用牛顿迭代法来根据各自的乘积矩阵分片确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片,其中,在每次牛顿迭代过程中,各个成员设备的乘积矩阵分片之间的矩阵乘积基于秘密共享矩阵计算实现。

可选地,在上述方面的一个示例中,在各个成员设备的本地特征数据包括基于数据垂直切分的本地特征数据时,所述至少一个处理器执行所述计算机程序来实现:使用本地特征数据确定所述成员设备的各个属性特征的特征方差;以及与其余成员设备一起使用各自的逆矩阵分片以及各自具有的属性特征的特征方差,根据公式

可选地,在上述方面的一个示例中,在各个成员设备的本地特征数据包括基于数据水平切分的本地特征数据时,所述至少一个处理器执行所述计算机程序来实现:使用本地特征数据确定各个属性特征i的特征方差

可选地,在上述方面的一个示例中,所述至少一个处理器执行所述计算机程序来实现:与其余成员设备一起采用安全交集计算协议来对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵。

可选地,在上述方面的一个示例中,所述至少一个处理器执行所述计算机程序来进一步实现:与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据,重构出各个属性特征的方差膨胀因子;在所重构出的属性特征的方差膨胀因子小于第一参考值时,确定针对该属性特征不存在多重共线性;在所重构出的属性特征的方差膨胀因子不小于第一参考值且小于第二参考值时,确定针对该属性特征存在第一级别多重共线性;以及在所重构出的属性特征的方差膨胀因子不小于第二参考值时,确定针对该属性特征存在第二级别多重共线性。

可选地,在上述方面的一个示例中,各个成员设备的本地特征数据是回归模型的建模数据,所述至少一个处理器执行所述计算机程序来进一步实现:在确定针对属性特征存在所述第二级别多重共线性时,从所述回归模型的建模特征中去除该属性特征,或者将该属性特征与所述回归模型的其它相关建模特征组合为单一建模特征。

根据本说明书的实施例的另一方面,提供一种基于隐私保护的多重共线性检测系统,包括:至少两个成员设备,每个成员设备具有本地特征数据,并且包括如上所述的多重共线性检测装置。

根据本说明书的实施例的另一方面,提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行来实现如上所述的多重共线性检测方法。

根据本说明书的实施例的另一方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如上所述的多重共线性检测方法。

附图说明

通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书的实施例的数据水平切分的示例示意图。

图2示出了根据本说明书的实施例的数据垂直切分的示例示意图。

图3示出了根据本说明书的实施例的多重共线性检测系统的示例示意图。

图4示出了根据本说明书的实施例的基于隐私保护的多重共线性检测方法的流程图。

图5示出了基于秘密共享的两方矩阵乘法过程的示例流程图。

图6示出了根据本说明书的实施例的两方分块矩阵乘法过程的示例流程图。

图7示出了根据本说明书的实施例的两方秘密共享转置矩阵乘法过程的示例流程图。

图8示出了根据本说明书的实施例的在数据垂直切分下的方差膨胀因子确定过程的示例示意图。

图9示出了根据本说明书的实施例的在数据水平切分下的方差膨胀因子确定过程的示例示意图。

图10示出了根据本说明书的实施例的应用于成员设备的多重共线性检测装置的方框图。

图11示出了根据本说明书的实施例的方差膨胀因子确定单元的一个实现示例的方框图。

图12示出了根据本说明书的实施例的方差膨胀因子确定单元的另一实现示例的方框图。

图13示出了根据本说明书的实施例的在成员设备侧基于计算机实现的多重共线性检测装置的示意图。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。

在本说明书中,术语“业务模型”是指被应用于业务场景中来进行业务预测服务的机器学习模型,比如,用于分类预测、业务风险预测等等的机器学习模型。机器学习模型的示例可以包括但不限于:线性回归模型、逻辑回归模型、神经网络模型、决策树模型、支持向量机等。神经网络模型的示例可以包括但不限于深度神经网络(DNN,Deep NeuralNetwork)模型、卷积神经网络(CNN,Convolutional Neural Network)模型、BP神经网络等。此外,在本说明书中,术语“属性特征”和“建模特征”可以互换使用。

业务模型的具体实现形式取决于所应用的业务场景。例如,在业务模型应用于对用户进行分类的应用场景,则业务模型被实现为用户分类模型。相应地,可以根据该业务模型来对待分类用户的用户特征数据进行用户分类预测。在业务模型应用于对业务系统上发生的业务交易进行业务风险预测的应用场景,则业务模型被实现为业务风险预测模型。相应地,可以根据该业务模型来对该业务交易的业务交易特征数据进行业务风险预测。

在本说明书的一个示例中,业务模型建模方案中所使用的建模数据可以是水平切分数据。术语“水平切分”是指各个建模参与方具有业务模型的建模数据的部分数据,并且每个建模参与方所具有的部分数据中的每条样本数据都是完整的样本数据,即,包括该样本数据的所有属性特征数据和对应的标签值,但是具有不同的样本ID。

图1示出了根据本说明书的实施例的数据水平切分的示例示意图。图1中示出了2个建模参与方Alice和Bob,多个建模参与方也类似。每个建模参与方Alice和Bob具有的样本数据集中的每条样本数据都是完整的,即,每条样本数据包括完整的属性特征数据(

在本说明书的另一示例中,业务模型建模方案中所使用的建模数据可以是垂直切分数据。术语“垂直切分”是指各个建模参与方具有业务模型的建模数据的部分数据,并且每个建模参与方所具有的部分数据中的每条样本数据都不是完整的样本数据,但是每个建模参与方的样本数据具有相同的样本ID。即,对于每条样本数据,所有建模参与方具有的数据共同组成完整的样本数据。在一个例子中,假设存在两个建模参与方Alice和Bob,并且建模数据包括标签

图2示出了根据本说明书的实施例的数据垂直切分的示例示意图。图2中示出了2个建模参与方Alice和Bob,多个建模参与方也类似。每个建模参与方Alice和Bob拥有业务模型的建模数据中的每条样本数据的部分数据,对于每条样本数据,建模参与方Alice和Bob拥有的部分数据组合在一起,可以构成该样本数据的完整内容。比如,假设某个样本数据包括标签

随着人工智能技术的发展,机器学习技术被作为业务模型广泛地应用于各种业务应用场景来进行各种业务预测服务,比如,分类预测、业务风险预测等等。例如,业务模型在金融欺诈、推荐系统、图像识别等领域具有广泛的应用。为了实现更好的模型性能,需要使用更多的建模数据来进行业务模型建模。在例如医疗、金融等应用领域,不同的企业或机构拥有不同的数据样本,一旦使用这些数据进行联合建模,将极大提升业务模型的建模精度,从而给企业带来巨大的经济效益。

然而,多个建模参与方所提供的建模数据产生于相似应用场景,难免会产生命名不同但实际共线性的特征,从而使得业务模型的建模特征很大可能会存在多重共线性。建模数据的多重共线性严重会增大回归系数的方差,使得业务模型的建模结果不稳定。此外,建模数据的多重共线性会大大降低回归模型的可解释性。

鉴于上述,本说明书的实施例提出一种基于隐私保护的多重共线性检测方案,该多重共线性检测方案用于对多个成员设备所具有的本地特征数据(样本数据的属性特征数据)进行多重共线性检测。该多重共线性检测方案由多个成员设备执行,每个成员设备具有本地特征数据。各个成员设备对各自的本地特征数据执行数据对齐来构建出联合特征矩阵,并且协同来执行基于隐私保护的多方矩阵乘法计算,求出联合特征矩阵的转置矩阵与该联合特征矩阵的乘积矩阵,每个成员设备具有所述乘积矩阵的乘积矩阵分片。然后,各个成员设备使用各自的乘积矩阵分片联合确定所述乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片。随后,各个成员设备使用各自的逆矩阵分片以及本地特征数据确定样本数据的各个属性特征的方差膨胀因子,每个成员设备具有各个属性特征的方差膨胀因子的分片数据,并根据各个属性特征的方差膨胀因子的分片数据来确定多重共线性。

利用上述多重共线性检测方案,通过各个成员设备对各自的本地特征数据执行数据对齐来构建出联合特征矩阵,并且协同来执行基于隐私保护的多方安全计算来求出联合特征矩阵与其转置矩阵的乘积矩阵并求出乘积矩阵的逆矩阵,每个成员设备具有逆矩阵分片,并使用各自的逆矩阵分片以及本地特征数据确定出各个属性特征的方差膨胀因子来进行多重共线性检测,可以确保各个成员设备的隐私数据保护,降低方差膨胀因子确定过程的复杂度,提升多重共线性检测的检测精度和检测效率。

下面将结合附图来详细描述根据本说明书实施例的多重共线性检测方法、多重共线性检测装置以及多重共线性检测系统。在下面的描述中,以两个成员设备为例来进行说明,但是所描述的实现方案可以扩展到多于两个成员设备。

图3示出了示出了根据本说明书的实施例的多重共线性检测系统300的架构示意图。

如图3所示,多重共线性检测系统300包括至少两个成员设备310-1和310-2。在图3中示出了2个成员设备310-1和310-2。在本说明书的其它实施例中,可以包括更多的成员设备。至少两个成员设备310-1和310-2可以通过例如但不局限于互联网或局域网等的网络320相互通信。

在本说明书的实施例中,成员设备310-1和310-2可以是用于本地收集数据样本的设备或设备方,比如,智能终端设备、服务器设备等。在本说明书中,术语“成员设备”和术语“数据拥有方”或“建模参与方”可以互换使用。

在本说明书中,成员设备310-1到310-2的本地数据可以包括各个成员设备在本地收集的业务数据。业务数据可以包括业务对象的特征数据。业务对象的示例可以包括但不限于用户、商品、事件或关系。相应地,业务数据例如可以包括但不限于在本地收集的用户特征数据、商品特征数据、事件特征数据或关系特征数据,比如,用户特征数据、业务处理数据、金融交易数据、商品交易数据、医疗健康数据等等。业务数据例如可以应用于业务模型来进行模型预测、模型训练以及其它合适的多方数据联合处理。

在本说明书中,业务数据可以包括基于文本数据、图像数据和/或语音数据的业务数据。相应地,业务模型可以应用于基于文本数据、图像数据和/或语音数据的业务风险识别、业务分类或者业务决策等等。例如,本地数据可以是由医院收集的医疗数据,并且业务模型可以用于进行疾病检查或疾病诊断。或者,所收集的本地数据可以包括用户特征数据。相应地,业务模型可以应用于基于用户特征数据的业务风险识别、业务分类、业务推荐或者业务决策等等。业务模型的示例可以包括但不限于人脸识别模型、疾病诊断模型、业务风险预测模型、服务推荐模型等等。

在本说明书中,各个成员设备所具有的本地数据共同组成业务模型的建模数据,并且各个成员设备所拥有的本地数据是该成员设备的秘密,不能被其他成员设备获悉或者完整地获悉。在一个实际应用示例中,各个成员设备例如可以是业务应用方或业务应用关联方的数据存储服务器或智能终端设备,比如,不同金融机构或医疗机构的本地数据存储服务器或智能终端设备。

在本说明书中,成员设备310-1和310-2可以是任何合适的具有计算能力的电子设备。所述电子设备包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。

此外,成员设备310-1、310-2分别具有多重共线性检测装置311-1和311-2。成员设备310-1和310-2处具有的多重共线性检测装置可以经由网络320执行网络通信来进行数据交互,由此协作处理来执行多重共线性检测过程。多重共线性检测装置的操作和结构将在下面参照附图进行详细说明。

在一些实施例中,网络320可以是有线网络或无线网络中的任意一种或多种。网络320的示例可以包括但不限于电缆网络、光纤网络、电信网络、企业内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络(ZigZee)、近场通讯(NFC)、设备内总线、设备内线路等或其任意组合。

图4示出了根据本说明书的实施例的基于隐私保护的多重共线性检测方法400的流程图。在图4中示出的多重共线性检测方法400中,成员设备310-1具有本地特征数据

如图4所示,在410,成员设备310-1和成员设备310-2对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵X。在所构建出的联合特征矩阵X中,成员设备310-1和成员设备310-2各自的本地特征数据(本地特征数据矩阵)构成该联合特征矩阵X的部分元素,并且保留在本地,不会泄露给其余成员设备。

在数据垂直切分的示例中,在执行数据对齐时,将成员设备310-1的本地特征数据

在数据水平切分的示例中,在执行数据对齐时,将成员设备310-1的本地特征数据

此外,可选地,在一个示例中,成员设备310-1和成员设备310-2可以采用安全交集计算协议(Private Set Intersection,PSI)来对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵X。

在如上对成员设备的本地特征数据执行数据对齐构建出联合特征矩阵X后,在420,各个成员设备一起执行基于隐私保护的多方矩阵乘法计算,计算得出联合特征矩阵X与其转置矩阵

在描述根据本说明书的实施例的基于隐私保护的多方矩阵乘法计算的实现示例之前,先简要介绍基于秘密共享的两方矩阵乘法过程。

秘密共享(secret sharing)方法是一种将秘密分解存储的密码技术,其将秘密以适当的方式拆分成多个秘密份额(share,也可以称为“分片”),每一个秘密份额由多个参与方(数据拥有方)中的一个参与方拥有和管理,单个参与方无法恢复完整秘密,只有若干个参与方共同协作才能恢复完整秘密。秘密共享方法目标在于阻止秘密过于集中,以达到分散风险和容忍入侵的目的。

图5示出了基于秘密共享的两方矩阵乘法过程的示例流程图。在图5的示例中,假设存在两个成员设备A和B,成员设备A具有矩阵X,成员设备B具有矩阵Y。假设矩阵X和Y的维度分别为

如图5所示,在510,在成员设备A处,生成随机矩阵

在520,在成员设备A处,随机生成矩阵

在530,成员设备A将矩阵

在540,在成员设备A处,计算

在550,成员设备A将矩阵

在560,在成员设备A处,计算

在570,成员设备A将矩阵

在580,在成员设备A和B处,分别对矩阵

如上参照图5描述了基于秘密共享的矩阵乘法的一个实现示例,下面描述根据本说明书的实施例的基于隐私保护的多方矩阵乘法计算的实现示例。在本说明书中,基于隐私保护的多方矩阵乘法计算的示例可以包括但不限于:多方分块矩阵乘法或者多方秘密共享转置矩阵乘法。

图6示出了根据本说明书的实施例的两方分块矩阵乘法过程的示例流程图。在图6的实施例中,成员设备310-1具有本地特征矩阵

如图6所示,在610,在成员设备310-1和310-2处,分别执行本地矩阵乘法计算得到乘积矩阵

在620,成员设备310-1和310-2使用

在630,成员设备310-1基于

图7示出了根据本说明书的实施例的两方秘密共享转置矩阵乘法过程的示例流程图。秘密共享转置矩阵乘法也可以称为秘密共享格拉姆矩阵(Gram matrix)计算。给定一个实矩阵

如图7所示,在710,成员设备310-1和310-2对矩阵

在720,在成员设备310-1处,计算

在730,成员设备310-2将矩阵

在740,在成员设备310-1和310-2处,分别计算

在750,在成员设备310-1处,计算

回到图4,在如上得到各自的乘积矩阵分片后,在430,成员设备310-1和310-2根据各自的乘积矩阵分片确定乘积矩阵

可选地,在一个示例中,成员设备310-1和310-2可以使用牛顿迭代法来根据各自的乘积矩阵分片确定乘积矩阵

下面以两个参与方为例来说明使用牛顿迭代法实现的逆矩阵计算方法。

假设存在矩阵A,该矩阵A为正定矩阵,并且参与方A和B分别具有矩阵A的矩阵分片

要说明的是,使用牛顿迭代法来确定逆矩阵仅仅是一个例示实施例,在其它实施例中,可以采用本领域的其它算法来确定逆矩阵。

在如上确定出乘积矩阵

图8示出了根据本说明书的实施例的在数据垂直切分下的方差膨胀因子确定过程的示例示意图。

如图8所示,在810,在成员设备310-1和310-2处,分别使用本地特征数据确定成员设备310-1和310-2所具有的各个属性特征的特征方差。由于在数据垂直切分情形下,各个成员设备具有的属性特征所对应的样本数据都在本地,从而各个成员设备可以通过本地计算来确定出本地具有的各个属性特征的特征方差。

在820,成员设备310-1和310-2使用各自的逆矩阵分片以及各自具有的属性特征的特征方差,根据公式

此外,可选地,在另一示例中,成员设备310-1和310-2可以使用各自的逆矩阵分片来重构逆矩阵

图9示出了根据本说明书的实施例的在数据水平切分下的方差膨胀因子确定过程的示例示意图。

如图9所示,在910,在成员设备310-1和310-2处,分别使用本地特征数据来在本地确定出各个属性特征i的特征方差

在920,成员设备310-1和310-2使用各自的逆矩阵分片以及各个属性特征i的特征方差分片,根据公式

回到图4,在如上得到各个属性特征的方差膨胀因子的分片数据后,在450,成员设备310-1和310-2根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。

例如,在一个示例中,成员设备310-1和310-2根据各自具有的各个属性特征的方差膨胀因子的分片数据来重构各个属性特征i的方差膨胀因子。例如,可以根据实际需要,针对每个属性特征,由具有该属性特征的方差膨胀因子的分片数据的成员设备来将该属性特征的方差膨胀因子重构给指定成员设备,由该指定成员设备确定是否存在多重共线性。或者,在各个成员设备处都重构出该属性特征的方差膨胀因子,由各个成员设备确定是否存在多重共线性。方差膨胀因子的重构过程可以采用基于隐私保护的重构方式来实现。在所重构出的属性特征i的方差膨胀因子

此外,可选地,在各个成员设备的本地特征数据是回归模型的建模数据时,在如上确定出各个属性特征的多重共线性后,还可以对建模数据的建模特征进行优化处理,在本说明书中,回归模型的示例可以包括但不限于线性回归模型和逻辑回归模型。

例如,在一个示例中,在确定针对属性特征i存在确定性多重共线性时,可以从回归模型的建模特征中去除该属性特征i,或者将该属性特征i与回归模型的其它相关建模特征组合为单一建模特征。

可选地,在一个示例中,例如,可以以属性特征i为因变量,其余建模特征为自变量来执行线性回归模型建模,并且根据建模后的线性回归模型中的回归系数的大小判断其余建模特征与属性特征i之间的相关性,由此筛选出相关性强的建模特征来与属性特征i重新组合为单一特征。或者,以属性特征i为因变量,基于隐私保护针对其他建模特征进行回归变量显著性检验,计算出p-value,根据所计算出的p-value值来筛选出与属性特征i相关的建模特征,并将所筛选出的建模特征与属性特征i组合为单一特征。例如,可以将所计算出的p-value值小于预定阈值(例如,0.05)的建模特征确定为与属性特征i相关的建模特征。

如上参照图1到图9对根据本说明书的实施例的多重共线性检测方法进行了描述。

利用上述多重共线性检测方案,通过各个成员设备对各自的本地特征数据执行数据对齐来构建出联合特征矩阵,并且协同来执行基于隐私保护的多方安全计算来得到联合特征矩阵与其转置矩阵的乘积矩阵并求出该乘积矩阵的逆矩阵,每个成员设备具有逆矩阵分片,并使用各自的逆矩阵分片以及本地特征数据确定出各个属性特征的方差膨胀因子来进行多重共线性检测,可以确保各个成员设备的隐私数据保护,降低方差膨胀因子确定过程的复杂度,提升多重共线性检测的检测精度和检测效率。

此外,利用上述多重共线性检测方案,通过使用牛顿迭代法来确定乘积矩阵的逆矩阵,可以克服在进行多重共线矩阵求逆时逆矩阵不存在或伪逆特殊值计算错误的问题。此外,在牛顿迭代法中,在迭代过程中只需执行秘态乘法和秘态加法,从而可以解决正常的矩阵求逆方法(svd等)在秘态计算下无法进行或执行代价非常大的问题。此外,在牛顿迭代法中,初始化方案应用了安全数值逆来计算矩阵迹分片,这种高效的初始化方案可以大大减少后续迭代次数,由此进一步提升多重共线性检测的检测效率。

此外,利用上述多重共线性检测方案,通过采用安全交集计算协议来对各自的本地特征数据执行数据对齐,可以进一步提升各个成员设备处的隐私数据安全。

图10示出了根据本说明书的实施例的应用于成员设备的多重共线性检测装置1000的方框图。如图10所示,多重共线性检测装置1000包括数据对齐单元1010、乘积矩阵计算单元1020、矩阵求逆单元1030、方差膨胀因子确定单元1040和多重共线性确定单元1050。多重共线性检测装置1000应用于多个成员设备中的每个成员设备。

数据对齐单元1010被配置为与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵。可选地,在一个示例中,数据对齐单元1010可以被配置为与其余成员设备一起采用安全交集计算协议来对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵。

乘积矩阵计算单元1020被配置为与其余成员设备一起执行基于隐私保护的多方矩阵乘法计算,求出联合特征矩阵的转置矩阵与该联合特征矩阵的乘积矩阵,每个成员设备具有乘积矩阵的乘积矩阵分片。所述基于隐私保护的多方矩阵乘法计算的示例可以包括但不限于:多方分块矩阵乘法或者多方秘密共享转置矩阵乘法。

矩阵求逆单元1030被配置为与其余成员设备一起根据各自的乘积矩阵分片确定矩阵乘积的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片。可选地,在一个示例中,矩阵求逆单元1030可以被配置为与其余成员设备一起使用牛顿迭代法来根据各自的乘积矩阵分片确定矩阵乘积的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片,其中,在每次牛顿迭代过程中,各个成员设备的乘积矩阵分片之间的矩阵乘积基于秘密共享矩阵计算实现。

方差膨胀因子确定单元1040被配置为与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子。每个成员设备具有各个属性特征的方差膨胀因子的分片数据。

多重共线性确定单元1050被配置为与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。

图11示出了根据本说明书的实施例的方差膨胀因子确定单元1100的一个实现示例的方框图。在图11中示出的实施例中,各个成员设备的本地特征数据是基于数据垂直切分的本地特征数据。

如图11所示,方差膨胀因子确定单元1100包括特征方差确定模块1110和方差膨胀因子确定模块1120。

特征方差确定模块1110被配置为使用本地特征数据确定该成员设备具有的各个属性特征的特征方差。

方差膨胀因子确定模块1120被配置为与其余成员设备一起使用各自的逆矩阵分片以及各自具有的属性特征的特征方差,根据公式

可选地,在一个示例中,方差膨胀因子确定模块1120被配置为与其余成员设备一起使用各自的逆矩阵分片来重构逆矩阵

图12示出了根据本说明书的实施例的方差膨胀因子确定单元1200的一个实现示例的方框图。在图12中示出的实施例中,各个成员设备的本地特征数据是基于数据水平切分的本地特征数据。

如图12所示,方差膨胀因子确定单元1200包括特征方差分片确定模块1210和方差膨胀因子确定模块1220。

特征方差分片确定模块1210被配置为使用本地特征数据确定各个属性特征i的特征方差

方差膨胀因子确定模块1220被配置为与其余成员设备一起使用各自的逆矩阵分片以及各自具有的各个属性特征i的特征方差分片,根据公式

此外,可选地,在一个示例中,在所确定出的属性特征i的方差膨胀因子

此外,可选地,在各个成员设备的本地特征数据是回归模型的建模数据时,多重共线性检测装置1000还可以包括建模特征优化单元(未示出)。所述建模特征优化单元被配置为在确定针对属性特征i存在第二级别多重共线性时,从回归模型的建模特征中去除该属性特征i,或者将该属性特征i与回归模型的其它相关建模特征组合为单一建模特征。

如上参照图1到图12,对根据本说明书实施例的多重共线性检测方法、多重共线性检测装置及多重共线性检测系统进行了描述。上面的多重共线性检测装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。

图13示出了根据本说明书的实施例的在成员设备侧基于计算机实现的多重共线性检测装置1300的示意图。如图13所示,多重共线性检测装置1300可以包括至少一个处理器1310、存储器(例如,非易失性存储器)1320、内存1330和通信接口1340,并且至少一个处理器1310、存储器1320、内存1330和通信接口1340经由总线1360连接在一起。至少一个处理器1310执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。

在一个实施例中,在存储器中存储计算机程序,其当执行时使得至少一个处理器1310:与其余成员设备一起对各自的本地特征数据执行数据对齐,以构建出联合特征矩阵;与其余成员设备一起执行基于隐私保护的多方矩阵乘法计算,求出联合特征矩阵的转置矩阵与该联合特征矩阵的乘积矩阵,每个成员设备具有该乘积矩阵的乘积矩阵分片;与其余成员设备一起根据各自的乘积矩阵分片确定该乘积矩阵的逆矩阵,每个成员设备具有该逆矩阵的逆矩阵分片;与其余成员设备一起,使用各自的逆矩阵分片以及本地特征数据确定各个属性特征的方差膨胀因子,每个成员设备具有各个属性特征的方差膨胀因子的分片数据;以及与其余成员设备一起,根据各自具有的各个属性特征的方差膨胀因子的分片数据来确定多重共线性。

应该理解,在存储器中存储的计算机程序当执行时使得至少一个处理器1310进行本说明书的各个实施例中以上结合图1-12描述的各种操作和功能。

根据一个实施例,提供了一种比如计算机可读介质(例如,非暂时性计算机可读介质)的程序产品。计算机可读介质可以具有计算机程序(即,上述以软件形式实现的元素),该计算机程序当被处理器执行时,使得处理执行本说明书的各个实施例中以上结合图1-12描述的各种操作和功能。具体地,可以提供配有计算机可读存储介质的系统或者装置,在该计算机可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该计算机可读存储介质中的计算机程序。

在这种情况下,从计算机可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此计算机可读代码和存储计算机可读代码的计算机可读存储介质构成了本发明的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。

根据一个实施例,提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序当被处理器执行时,使得处理器执行本说明书的各个实施例中以上结合图1-12描述的各种操作和功能。

本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本发明的保护范围应当由所附的权利要求书来限定。

需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。

以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号