首页> 中国专利> 一种基于深度信念网络和迁移学习的隐匿虚假数据注入攻击检测方法

一种基于深度信念网络和迁移学习的隐匿虚假数据注入攻击检测方法

摘要

一种基于深度信念网络和迁移学习的隐匿虚假数据注入攻击检测方法,针对电力系统中的隐匿FDI攻击真实测量值与模拟测量值存在一定差异的问题,提出了基于深度信念网络和迁移学习的检测机制。首先利用深度信念网络中的自学习网络对目标域海量无标签真实样本进行特征自学习,再用海量源域模拟样本对DBN模型进行再训练;随后将参数迁移到目标域网络并冻结,增加或替换隐藏层,利用少量目标域有标签样本完成对适配层的训练;最后取消冻结,再次利用少量目标域有标签样本进行全网络微调得到合适的检测模型。本发明所提方法不仅能够有效的检测隐匿虚假数据注入攻击,而且具有较好的泛化性。

著录项

  • 公开/公告号CN112560079A

    专利类型发明专利

  • 公开/公告日2021-03-26

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN202011208667.2

  • 申请日2020-11-03

  • 分类号G06F21/62(20130101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);G06Q50/06(20120101);

  • 代理机构33241 杭州斯可睿专利事务所有限公司;

  • 代理人王利强

  • 地址 310014 浙江省杭州市下城区朝晖六区潮王路18号

  • 入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明属于电网安全领域,具体提供了一种基于深度信念网络和迁移学习的隐匿虚假数据注入(False Data Injection,FDI)攻击检测方法。

背景技术

电力系统中的FDI攻击是一种针对电力系统状态估计的新型攻击方法,隐匿FDI攻击可以绕过坏数据检测机制,通过篡改测量数据,使得控制中心获得错误的系统运行状态而做出错误的决策,最终达到获取经济利益或者其他非法目的。目前深度学习方法在FDI检测上也取了得一定的进展,但值得注意的是,该方法有效的前提是训练集和测试集具有高度相似性、训练数据充足且有代表性。由于电力系统中有标记的实际测量数据十分稀缺,研究上往往是通过建立FDI注入攻击模型来获得海量模拟的正常测量数据(正样本)和被攻击/篡改后的测量数据(负样本),然而受电网拓扑、攻击强度和测量噪声等因素的影响,模拟数据与真实数据之间存在较大的差异,通过模拟数据训练好的机器学习模型在真实数据上很可能表现出较差的学习效果。

深度置信网络(DBN)是由多个受限波尔兹曼机(RBM)组成,并以贪婪的分层方式进行无监督预训练。利用DBN自主学习特征和特征挖掘的特性,可以提取数据中的深层特征。为了进一步改进不同类型数据的特性,出现了高斯伯努利受限波尔兹曼机(GBRBM),GBRBM相比RBM更适合处理连续分布的实值数据。迁移学习是利用已有知识和目标样本之间的相关性, 将已有的模型和数据上的知识迁移到新的目标中。基于模型的迁移方法能够在源域和目标域中共享一些参数信息,有效解决因训练数据少带来的问题。

发明内容

为了克服现有技术的不足,本发明提出的基于深度信念网络和迁移学习的隐匿FDI攻击检测方法,可以有效的检测目标域测量样本中的隐匿FDI攻击。

本发明为解决上述技术问题提供了如下技术方案:

一种基于深度信念网络和迁移学习的隐匿虚假数据注入攻击检测方法,数据来源包括海量目标域无标签测量样本、少量目标域有标签测量样本和源域海量有标签测量样本,首先使用目标域海量无标签样本进行DBN的逐层无监督预训练,得到高度抽象的重要特征;然后利用源域海量有标签的样本进行再训练得到参数共享的DBN网络,将参数迁移到目标域网络并冻结,增加或替换隐藏层,获得新的学习空间;接着利用目标域有标签样本对增加的适配层进行训练;最后取消冻结,再次利用目标域有标签样本进行参数微调得到最终模型。

一种基于深度信念网络和迁移学习的隐匿虚假数据注入攻击检测方法,包括以下步骤:

步骤1),获取实际电网系统的测量数据,包括海量目标域无标签测量样本、少量目标域有标签测量样本;

步骤2),根据电网历史负荷及其网络拓扑信息模拟电网的正常运行,然后构建攻击模型来生成时序模拟正常测量和攻击测量数据,得到源域海量有标签测量样本;

步骤3),使用目标域海量无标签样本进行DBN的逐层无监督预训练,获得真实样本的分层特征表达;

步骤4),使用源域海量有标签测量样本进行DBN再训练,得到训练好的DBN网络;

步骤5),将DBN网络参数迁移到目标域网络并冻结,增加适配层(BN层和全连接层),获得新的学习空间;

步骤6),使用目标域有标签样本对增加的适配层进行训练,直到网络训练至样本测试集准确度处于基本不变的稳定收敛状态取消参数冻结,再次使用目标域有标签样本进行全网络微调,获得深度信念网络迁移学习模型。

进一步,所述步骤2)的过程如下:

为了模拟FDI攻击动态数据注入过程,首先收集电网历史负荷及发电机注入功率数据,通过估计网络拓扑参数,再进行分时潮流计算来模拟电网实际运行状态,得到每一时刻总线的电压幅值和相角,进而求出雅可比矩阵H和满足隐匿FDI攻击的攻击向量a,最终获得整个模拟测量数据集

再进一步,所述步骤3的过程如下:

将多个RBM和一个GBRBM结合起来构建DBN网络,GBRBM作为DBN网络的首层,多个堆叠的BBRBM作为DBN网络的隐藏层.利用对比散度算法,将目标域海量无标签样本送入GBRBM和BBRBM进行逐层无监督预训练,学习得到目标域测量样本的特征。

再进一步,所述步骤4的过程如下:

在特征学习阶段后,在隐藏层顶部增加一个softmax分类层,根据模拟测量样本,对预训练好的DBN网络采用反向误差传播算法(BP)对每个隐藏层的权重、偏置进行调整,直至模拟样本测试集准确率基本不变时,完成对DBN网络参数的训练。

再进一步,所述步骤5的过程如下:

在上述训练好的DBN模型的基础上,将DBN网络参数迁移到目标域网络并冻结,然后进行模型调整,在softmax层前增加BN层和全连接层作为适配层,GBRBM和多个堆叠的RBM能最大程度拟合训练数据的概率分布,而BN层则能避免前向网络参数变化导致后面全连接层输入数据的分布变化,另外,由于目标域有标签真实样本少,加入BN层有利于解决模型出现过拟合的问题,增加的全连接层可以通过调节全连接层的权值保存或者舍弃部分源网络的特征,达到既保存源网络信息又能进一步学习目标域信息的目的。

再进一步,所述步骤6的过程如下:

基于DBN模型的迁移,由于模拟测量数据与真实测量数据存在一定的分布差距,迁移DBN 模型参数以适配目标域数据并最大化目标域数据价值,所述步骤6具体包括如下两个过程。

6.1)由每个样适配层训练

使用目标域有标签样本对增加的适配层(BN层和全连接层)进行训练,直到网络训练至样本测试集准确度处于基本不变的稳定收敛状态。

6.2)由每个样适全网络微调

尽管上述增加的适配层能够学习目标域信息,可这是建立在源域训练好的DBN模型基础上的,取消参数冻结,再次利用目标域少量有标签的测量样本以较小的学习率微调整个网络, 直到样本测试集准确率处于基本不变的稳定收敛状态。

本发明的有益效果如下:

1、本发明针对源域中模拟样本数据量大而目标域中真实样本标记少的特点,本发明可通过深度信念网络中的自学习层能对目标域海量无标签样本进行特征自学习,有效提取目标域无标签样本的特征,能提高隐匿FDI攻击的检测精度。

2、本发明针对源域模拟样本目标域与真实样本之间存在一定的分布差距的特点,提出了基于深度信念网络的模型迁移方法,克服了数据之间的差异性,同时解决了真实样本稀缺的问题。实验结果表明,在不同分布差距下,这种检测机制都具有较高的检测效果。

附图说明

图1是隐匿FDI攻击下的状态估计图。

图2是深度信念网络迁移学习模型结构图。

图3是不同环境噪声下源域和和目标域的分布差异。

图4是模型迁移中适配层训练收敛效果。

图5是模型迁移中微调收敛效果。

图6是本发明的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰,下面结合附图和实际实验对本发明的技术方案作进一步描述。

隐匿FDI攻击是指通过篡改系统的测量值实现隐藏攻击。设z

z

通过掌握各种电气参数和拓扑信息(雅可比矩阵H)即可构建攻击向量a,逃过系统的不良数据检测,进而制造隐匿FDI攻击。攻击向量为:a=Hc.其中c可通过下式求解

H

其中H

参照图1~图6,一种基于深度信念网络和迁移学习的隐匿虚假数据注入攻击检测方法,数据来源包括海量目标域无标签测量样本、少量目标域有标签测量样本和源域海量有标签测量样本,首先使用目标域海量无标签样本进行DBN的逐层无监督预训练,得到高度抽象的重要特征;然后利用源域海量有标签的样本进行再训练得到参数共享的DBN网络,将参数迁移到目标域网络并冻结,增加或替换隐藏层,获得新的学习空间;接着利用目标域有标签样本对增加的适配层进行训练;最后取消冻结,再次利用目标域有标签样本进行参数微调得到最终模型。

所述的基于深度信念网络和迁移学习的隐匿虚假数据注入攻击检测方法包括以下步骤:

步骤1),获取实际电网系统的测量数据,包括海量目标域无标签测量样本、少量目标域有标签测量样本;

步骤2),根据电网历史负荷及其网络拓扑信息模拟电网的正常运行,然后构建攻击模型生成时序模拟正常测量和攻击测量数据,得到源域海量有标签测量样本;

步骤3),使用目标域海量无标签样本进行DBN的逐层无监督预训练,获得真实样本的分层特征表达;

步骤4),使用源域海量有标签测量样本进行DBN再训练,得到训练好的DBN网络;

步骤5),将DBN网络参数迁移到目标域网络并冻结,增加适配层(BN层和全连接层),获得新的学习空间;

步骤6),使用目标域有标签样本对增加的适配层进行训练,直到网络训练至样本测试集准确度处于基本不变的稳定收敛状态,取消参数冻结,再次使用目标域有标签样本进行全网络微调,获得深度信念网络迁移学习模型。

所述步骤2过程如下:

为了模拟FDI攻击动态数据注入过程。首先收集电网历史负荷及发电机注入功率数据,通过估计网络拓扑参数,再进行分时潮流计算来模拟电网实际运行状态,得到每一时刻总线的电压幅值和相角,进而求出雅可比矩阵H和满足隐匿FDI攻击的攻击向量a,最终可以获得整个模拟测量数据集

再进一步,所述步骤3的过程如下:

将多个RBM和一个GBRBM结合起来构建DBN网络,GBRBM作为DBN网络的首层,多个堆叠的BBRBM作为DBN网络的隐藏层。利用对比散度算法,将目标域海量无标签样本送入GBRBM和BBRBM进行逐层无监督预训练,学习得到目标域测量样本的特征。

再进一步,所述步骤4的过程如下:

在特征学习阶段后,在隐藏层顶部增加一个softmax分类层,根据模拟测量样本,对预训练好的DBN网络采用反向误差传播算法对每个隐藏层的权重、偏置进行调整,直至模拟样本测试集准确率基本不变时,完成对DBN网络参数的训练。

再进一步,所述步骤5的过程如下:

在上述训练好的DBN模型的基础上,将DBN网络参数迁移到目标域网络并冻结,然后进行模型调整,在softmax层前增加BN层和全连接层作为适配层,GBRBM和多个堆叠的RBM能最大程度拟合训练数据的概率分布,而BN层则能避免前向网络参数变化导致后面全连接层输入数据的分布变化,另外,由于目标域有标签真实样本少,加入BN层有利于解决模型出现过拟合的问题。增加的全连接层可以通过调节全连接层的权值保存或者舍弃部分源网络的特征,达到既保存源网络信息又能进一步学习目标域信息的目的。

再进一步,所述步骤6的过程如下:

基于DBN模型的迁移,由于模拟测量数据与真实测量数据存在一定的分布差距,迁移DBN 模型参数以适配目标域数据并最大化目标域数据价值。所述步骤6具体包括如下两个过程。

6.1)由每个样适配层训练

使用目标域有标签样本对增加的适配层(BN层和全连接层)进行训练,直到网络训练至样本测试集准确度处于基本不变的稳定收敛状态。

6.2)由每个样适全网络微调

尽管上述增加的适配层能够学习目标域信息,可这是建立在源域训练好的DBN模型基础上的,取消参数冻结,再次利用目标域少量有标签的测量样本以较小的学习率微调整个网络,直到样本测试集准确率处于基本不变的稳定收敛状态。

本实例的实验结果:

(1)数据集描述:

在仿真实验中,收集了纽约独立运营商(NYISO)2020年2月到6月的负荷数据,随后对负荷数据进行缩放以匹配模拟系统中的电力需求规模,并在标准IEEE 14-bus系统上模拟真实电网运行,所得到的测量值为目标域数据。由于攻击建模不可避免存在拓扑估计偏差,设定其支路电阻、电抗估计偏差在百分之十以内,所得到的测量值为源域数据.设定受保护的测量维数r=2、4、6进行实验,另外还设置了不同的环境噪声e(0,σ),σ=0.2、0.4、0.6、 0.8、1.从2月到6月,在每个整时构建攻击向量c,并根据不同的r,σ和网络拓扑重复60次分别生成攻击样本和未被攻击的样本。最后得到目标域无标签样本、有标签样本和源域有标签样本,并按照7:3的比例划分训练集和测试集。

参照图1,从目标域数据中挑选一个正常测量,并构建攻击向量,得到一个隐匿FDI攻击测量数据,攻击对电压相角状态估计的影响如图所示,只在8、12、13和14节点出现了少量偏差。

参照图3,设置r=2,σ=0.4,获得目标域测试样本。并根据不同的r和σ获得源域测试样本测量样本。使用最大均值差异算法(MMD)作为为检验统计量来衡量源域和目标域数据之间的相关性。如图所示,当源域和目标域中的r和σ相同时,MMD取得最小值0.2194.而随着源域与目标域中的r和σ差值变大时,MMD随之增大,两分布间的数据相关性降低。

(2)实验设置和性能评估:

构建DBN初始化模型,模型隐藏层个数为6,包括1个GBRBM,3个RBM和2个全连接层。输入到输出的节点个数为54,40,30,20,12,10,6,2.DBN预训练阶段使用对比散度训练方法,使用带动量的随机梯度下降优化器,动量设置为0.5,学习率习率为0.1,DBN再训练、适配层训练和参数微调使用随机梯度下降优化器,学习率分别为0.2,0.01和0.0001。

为了进行性能评估采用准确率(ACC)和假阳性率(FPR)作为评价指标,ACC和FPR的计算方式如下:

其中,TP、FP、TN、FN分别表示正确分类的被攻击样本、错误分类的正常样本、正确分类的正常样本和错误分类的被攻击样本,ACC表示所有样本被正确分类的概率,FPR表示正常样本被误分为被攻击的概率。

(3)实验结果分析

模型迁移过程分为适配层训练和微调两个步骤,通过考虑构建四种不同数量的目标域有标签训练样本来进行模型迁移。数量分别为[250、500、750、1000]

参照图4、图5,可以看出从适配层训练到微调,模型可以近一步收敛,且随着有标签样本个数的增加,模型收敛效果更好。

表1适配层训练和微调检测效果

参照表1,可以看出从适配层训练到微调,检测精度从90%以下提升到了95%以上,误报率也降低到了7%以内。当目标域有标签训练样本增加时,检测精度与误报率均提升明显。

表2四种检测机制在不同MMD下的检测精度ACC

表3四种检测机制在不同MMD下的误报率FPR

参照表2和表3,本发明与微调的深度信念网络(简写为DBN-Finetune)、人工神经网络(ANN)、主成分分析结合支持向量机(简写为PCA-SVM)3种方法进行性能对比。其中ANN与PCA-SVM模型分别使用源域样本、相同比例的源域和目标域有标签样本进行训练,两种数据集记为A、B.实验结果表明使用不同数据集训练的ANN模型检测效果差别很大,当源域数据和目标域数据特征分布存在一定差异时,使用源域数据训练的模型来对目标域数据进行测试必然出现差的检测效果。而采用PCA降维的训练结果由于丢失了许多主成分信息,检测准确率均在65%以下。相比之下,基于DBN-Finetune的方法获得了较好的检测效果,这是因为在训练过程中使用了有标签的目标域数据进行了微调,然而当MMD增大,参数微调则无法解决训练数据与测试数据分布差异变大的情况,检测效果显著下降。而本发明所提方法随着MMD的增大,仍均有97%以上的检测精度,误报率也只有少量上升,相比其他三种方法有更好的泛化性。

以上结合附图详细说明和陈述了本发明的实施方式,但并不局限于上述方式。在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号