首页> 中国专利> 一种应用于认知雷达的抗干扰决策方法

一种应用于认知雷达的抗干扰决策方法

摘要

本发明公开了一种应用于认知雷达的抗干扰决策方法,包括:获取环境状态信息,包括:当前时刻的外在干扰信息及各历史时刻的抗干扰动作;将环境状态信息作为马尔科夫决策过程<S,A,P,R,γ>中状态S={Jt,A1,A2,...,At‑1}的初始值,基于强化学习算法执行马尔科夫决策,直至行为价值矩阵收敛;根据收敛的行为价值矩阵,利用标准贪婪算法选择认知雷达的下一抗干扰动作;其中,P表示状态转移概率,A表示抗干扰动作,R表示抗干扰收益,γ表示时间折扣因子。本发明可使认知雷可以从复杂的抗干扰措施中选择合适的抗干扰措施,而不受攻击者类型的限制。

著录项

  • 公开/公告号CN113866723A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN202110969210.1

  • 发明设计人 陈伯孝;王湖升;叶倾知;

    申请日2021-08-23

  • 分类号G01S7/36(20060101);G01S13/02(20060101);

  • 代理机构61230 西安嘉思特知识产权代理事务所(普通合伙);

  • 代理人刘长春

  • 地址 710000 陕西省西安市雁塔区太白南路2号

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明属于雷达技术领域,具体涉及一种应用于认知雷达的抗干扰决策方法。

背景技术

无线电干扰和电子对抗的历史已有近110年,雷达对抗技术是电子对抗的重要组成部分,其历史也已超过了70年。雷达对抗技术由雷达干扰和雷达抗干扰两方面组成;其中,雷达干扰指通过各种手段获取对方雷达信息和部署情报,从而扰乱和破坏正常对方雷达的运作;雷达抗干扰所做的是采取各种措施隐藏己方雷达的信息和部署,并试图使己方的雷达消除或减少对方干扰的影响。

随着雷达干扰和抗干扰两方面的相互促进和发展,这两方面都产生了优异的技术成果。新型雷达系统的出现必然会推动新型干扰技术的研究,进一步激发对新型抗干扰技术的研究,以抑制新产生的干扰。例如,在采用认知雷达的系统中,认知雷达为了应对复杂的传播和干扰环境,可以调整其工作模式和参数以适应复杂的工作环境并实现智能化。与传统的雷达信息传输相比,认知雷达系统包含反馈系统,可以存储历史信息,具有学习和适应能力。

干扰和抗干扰是相对的,没有绝对的干扰,也没有绝对的抗干扰;因此可以预见的是,未来雷达将面临越来越多的干扰技术,需要使用更丰富的抗干扰技术进行反击。随之带来的问题是,未来的认知雷如何从复杂的抗干扰措施中选择合适的抗干扰措施。

发明内容

为了解决现有技术中所存在的上述问题,本发明提供了一种应用于认知雷达的抗干扰决策方法。

本发明要解决的技术问题通过以下技术方案实现:

一种应用于认知雷达的抗干扰决策方法,包括:

获取环境状态信息;所述环境状态信息包括:在当前时刻认知雷达的外在干扰信息J

将所述环境状态信息作为预定义的马尔科夫决策过程<S,A,P,R,γ>中状态S={J

根据收敛的行为价值矩阵,利用标准贪婪算法选择认知雷达的下一抗干扰动作。

可选地,所述基于强化学习算法执行马尔科夫决策,直至行为价值矩阵收敛,包括:

A、初始化行为价值矩阵;

B、利用所述环境状态信息对状态S进行初始化;

C、基于ε-贪婪算法和当前的行为价值矩阵,选择在当前时刻的状态下的抗干扰动作;

D、计算执行所选择的抗干扰动作对应的抗干扰收益,并确定当前时刻是否为一次完整决策过程的最终决策时刻;其中,一次完整决策过程包括多个决策时刻;

E、如果不是所述最终决策时刻,记录该决策时刻的状态、抗干扰动作以及抗干扰收益,并根据该决策时刻的抗干扰动作对状态进行更新,然后返回步骤C;

F、如果是所述最终决策时刻,根据当前决策过程中各个决策时刻的抗干扰收益、历史抗干扰收益以及所述时间折扣因子,计算各个决策时刻的抗干扰总收益,并根据各个决策时刻的状态、抗干扰动作以及抗干扰总收益更新所述行为价值矩阵;

G、判断更新后的行为价值矩阵是否收敛;如果已收敛,收敛的行为价值矩阵为决策结果;如果未收敛,返回步骤B。

可选地,任一所述决策时刻的抗干扰总收益的计算方式如下:

G(S

其中,R

可选地,所述根据各个决策时刻的状态、抗干扰动作以及抗干扰总收益更新所述行为价值矩阵,包括:

根据每个决策时刻的抗干扰总收益,利用更新公式更新所述行为价值矩阵中该决策时刻t的状态S

所述更新公式如下:

其中,G(S

可选地,所述基于强化学习算法执行马尔科夫决策,直至行为价值矩阵收敛,包括:

A、初始化行为价值矩阵;

B、利用所述环境状态信息对状态S进行初始化;

C、基于ε-贪婪算法和当前的行为价值矩阵,选择当前时刻的状态S

D、预测执行抗干扰动作A

E、基于目标贪婪算法和当前的行为价值矩阵,选择状态S

F、根据抗干扰收益R

G、判断更新后的行为价值矩阵是否收敛;如果已收敛,收敛的行为价值矩阵为决策结果;如果未收敛,执行步骤H;

H、判断状态S

可选地,根据抗干扰收益R

Q(S

其中,Q(S

可选地,根据若干种雷达性能指标计算抗干扰收益的方式包括:求取若干种雷达性能指标的加权值,作为抗干扰收益。

可选地,所述外在干扰信息包括:外在干扰措施的类型,或者,外在干扰信号的信号参数。

可选地,向所述认知雷达施加所述外在干扰措施或所述外在干扰信号的干扰设备至少包括:博弈式干扰设备。

本发明提供的应用于认知雷达的抗干扰决策方法中,将认知雷达实时的外在干扰信息以及在历史时刻执行的抗干扰动作定义为马尔科夫决策过程中的状态,并通过强化学习的方法来执行马尔科夫决策,由此可以从复杂的抗干扰措施中选择最优的抗干扰措施,且不依赖人工经验。本发明在不同复杂度的干扰设备的攻击下均可给出适合的抗干扰措施,呈现出良好的决策性能。

以下将结合附图及对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种应用于认知雷达的抗干扰决策方法的流程图;

图2是本发明实施例中采用一种强化学习算法执行马尔科夫决策的算法流程图;

图3是本发明实施例中采用另一种强化学习算法执行马尔科夫决策的算法流程图;

图4是本发明实施例的仿真实验中所建立的干扰和抗干扰双方的模型结构图;

图5是本发明实施例的仿真实验中所建立的认知雷达抗干扰模型的结构图;

图6是本发明实施例的仿真实验中所建立的对抗环境函数的功能结构图;

图7示出了本发明实施例采用三种不同强化学习算法在迭代学习过程中的行为价值矩阵的收敛过程;

图8示出了本发明实施例采用三种不同强化学习算法在迭代学习过程中的抗干扰总收益的提升收敛过程;

图9示出了本发明实施例采用三种不同强化学习算法经过一万次蒙特卡洛实验后的抗干扰总收益的分布情况;

图10、图11以及图12分别示出了本发明实施例采用MC-Learning、Sarsa以及Q-Learning三种算法对抗博弈式干扰策略的结果;

图13示出了本发明实施例采用三种不同强化学习算法的性能受抗干扰收益准确率的影响情况;

图14示出了随机概率分别为0.01,0.05,0.10,0.50情况下,本发明实施例采用MC-learning和Sarsa算法的500次试验平均抗干扰收益的收敛情况;

图15示出了学习步长α对本发明实施例的决策性能的影响情况。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。

为了使认知雷可以从复杂的抗干扰措施中选择合适的抗干扰措施,而不受攻击者类型的限制,本发明实施例提供了一种应用于认知雷达的抗干扰决策方法;该方法可以应用于认知雷达中,或者应用于雷达的控制设备中。其中,认知雷达具有持续感知环境的能力,除了接收自身的回波信号信息外,认知雷达还可以通过其他传感器获取环境的其他相关信息,如温度、湿度、压力、海况等,以及对信息以及所做出的抗干扰动作等进行记录。

参见图1所示,本发明实施例提供的应用于认知雷达的抗干扰决策方法包括以下步骤:

S10:获取环境状态信息;该环境状态信息包括:在当前时刻认知雷达的外在干扰信息J

其中,外在干扰信息的具体表现形式可以存在多种。示例性的,在一种实现方式中,外在干扰信息可以包括:外在干扰信号的信号参数;这里说的信号参数包括外在干扰信号的频率、功率等参数。这些参数可以由认知雷达的环境特征提取模块来进行检测和提取,该环境特征提取模块可以由一些传感器模块和/或检测电路组成。

认知雷达中还包含有干扰识别模块,该干扰识别模块的主要作用在于根据外在干扰信号的信号参数来识别具体的干扰类型,如识别出是噪声干扰、扫频式干扰、瞄准式干扰、举例欺骗式干扰、速度欺骗式干扰或角度欺骗式干扰等。因此,在另一种实现方式中,外在干扰信息可以包括:外在干扰措施的类型。这样,可以极大地降低外在干扰信息的维度,从而降低整个决策方法的复杂度,提高决策效率。其中,干扰识别的具体实现方式可以参见现有技术中雷达识别干扰类型的方式,如通过神经网络进行识别等等,本发明实施例不再进行赘述。

S20:将环境状态信息作为预定义的马尔科夫决策过程<S,A,P,R,γ>中状态S={J

其中,在决策过程中,对任一状态下的抗干扰动作进行选取是基于贪婪算法实现的。贪婪算法包括标准贪婪算法和ε-贪婪算法,其中,区别于标准贪婪算法,ε-贪婪算法设置有随机概率ε,ε通常设置为小于1且接近于0的一个正数,如0.01、0.02、0.1等。

P表示状态转移概率,R表示根据若干种雷达性能指标所计算的抗干扰收益,γ表示时间折扣因子。其中,R、γ、S、A、P均为形式参数。R的计算方式存在多种。例如,当需要求取R时,可以求取此时的若干种雷达性能指标的加权值,作为此时的抗干扰收益R。另外,本发明实施例对选取何种雷达性能指标来计算抗干扰收益不做限定,因为这都是可以根据对雷达性能的需求的不同来适应选取的。举例来说,可供选取的雷达性能指标有目标检测概率、干扰识别概率、信干噪比、干噪比、测角误差、测距误差以及测速误差等,并不局限于此。

行为价值矩阵是根据马尔科夫决策的行为价值函数(也称作决策表)所构建的矩阵,它体现了考虑未来收益条件下,选择不同抗干扰动作所带来的收益;该行为价值矩阵的维度为|S|×|A

该步骤S10中,强化学习算法的种类存在多种,如蒙特卡洛学习方法、时序差分算法等等;其中,时序差分算法又包括Sarsa算法和Q-Learning算法。为了使说明书布局清楚,后续对本发明实施例中是如何应用强化学习算法进行马尔科夫决策从而选择抗干扰动作的具体实现方式进行详细的举例说明。

S30:根据收敛的行为价值矩阵,利用标准贪婪算法选择认知雷达的下一抗干扰动作。

具体而言,在得到收敛的行为价值矩阵后,确定该收敛的行为价值矩阵中第S

本发明实施例提供的应用于认知雷达的抗干扰决策方法中,将认知雷达实时的外在干扰信息以及在历史时刻执行的抗干扰动作定义为马尔科夫决策过程中的状态,并通过强化学习的方法来执行马尔科夫决策,由此可以从复杂的抗干扰措施中选择最优的抗干扰措施,且不依赖人工经验。本发明在不同复杂度的干扰设备的攻击下均可给出适合的抗干扰措施,呈现出良好的决策性能,而不受限于干扰设备是单一干扰策略、复合干扰策略或博弈式干扰策略的干扰设备。

其中,单一干扰策略是指干扰设备不具备抗干扰识别能力,无干扰效能评估反馈机制,且按照固定的策略来变换干扰措施,这种干扰设备的复杂度和智能化都比较低。复合干扰策略是指具有多套干扰策略,且多套干扰策略按照一定的概率进行变换,每套策略中固定地实施一系列的干扰措施;这种干扰设备的复杂度和智能化相对高一些。博弈式干扰策略指的是干扰设备具备抗干扰识别能力,且具有干扰效能评估反馈机制,能够根据其所识别的抗干扰措施有针对性地实施干扰,这种博弈式干扰设备的复杂度和智能化都比较高。

使用本发明实施例提供的决策方法,可以使认知雷达在工作效果不佳时为雷达所在的系统提供实时参考信息,从而为系统最终做出的优选的抗干扰决策提供足够的支持。

下面对本发明实施例中是如何应用强化学习算法进行马尔科夫决策从而选择抗干扰动作的具体实现方式进行举例说明。

在一个实施例中,可以利用蒙特卡洛学习法执行马尔科夫决策,参见图2所示,具体的决策过程可以包括:

A、初始化行为价值矩阵。

具体的,将行为价值矩阵中的元素全部置0。

B、利用环境状态信息对状态S进行初始化。

这里,初始化后的状态S={J

C、基于ε-贪婪算法和当前的行为价值矩阵,选择在当前时刻的状态下的抗干扰动作。

具体而言,由于使用的是ε-贪婪算法,故而该步骤中将以概率ε随机地从抗干扰动作集A

该步骤C中,使用ε-贪婪算法来选择抗干扰动作,可以增加算法的随机性,避免陷入局部最优。

在实际应用中,使得该随机概率ε生效的实现方式存在多种,例如,每次执行该步骤C时,可以随机生成一个在0~1之间的数字,将该数字与ε进行比较,如果大于ε,则选择当前的行为价值矩阵中第S

其中,A

D、计算执行所选择的抗干扰动作对应的抗干扰收益,并确定当前时刻是否为一次完整决策过程的最终决策时刻。

可以理解的是,计算执行所选择的抗干扰动作对应的抗干扰收益,即是在当前状态下执行所选择的抗干扰动作后,计算此时的若干种雷达性能指标的加权值。

本发明实施例中,一次完整决策过程包括多个决策时刻。优选地,本发明实施例中一次完整决策过程可以包括4个决策时刻。

E、如果不是最终决策时刻,记录该决策时刻的状态、抗干扰动作以及抗干扰收益,并根据该决策时刻的抗干扰动作对状态进行更新。然后,返回步骤C。

可以理解的是,根据该决策时刻的抗干扰动作对状态进行更新,即是进入了执行完该抗干扰动作后所指向的新状态。

F、如果是最终决策时刻,根据当前决策过程中各个决策时刻的抗干扰收益、历史抗干扰收益以及所述时间折扣因子,计算各个决策时刻的抗干扰总收益,并根据各个决策时刻的状态、抗干扰动作以及抗干扰总收益更新行为价值矩阵。

其中,任一决策时刻的抗干扰总收益的计算方式如下:

G(S

该式中,S

该步骤F中,根据各个决策时刻的状态、抗干扰动作以及抗干扰总收益更新所述行为价值矩阵,包括:根据每个决策时刻的抗干扰总收益,利用更新公式更新行为价值矩阵中该决策时刻t的状态S

其中,G(S

在本发明实施例的应用场景中,由于状态转移概率P是未知量,故而在P未知的条件下,可采取统计平均的方法完成行为价值矩阵中元素的更新,其增量表达式即是上一式。

G、判断更新后的行为价值矩阵是否收敛。如果已收敛,收敛的行为价值矩阵为决策结果;如果未收敛,返回步骤B。

这里,判断更新后的行为价值矩阵是否收敛可以有两种方式;一种方式是设置算法的最大迭代次数,每当算法重新进入一次步骤B,即认为是开启了一次新的迭代,如果迭代次数达到了预先设置的上限,则可以认为行为价值矩阵已收敛。另一种方式是每次更新了行为价值矩阵后,都计算更新后的行为价值矩阵与更新前的行为价值矩阵的差异,当两者的差异在不再随着迭代次数的增加而持续增大时,即两者的差异达到了极小值时,则可以认为行为价值矩阵已收敛。

在另一个实施例中,可以利用时序差分算法执行马尔科夫决策;参见图3所示,具体决策过程可以包括:

A、初始化行为价值矩阵。

这里的初始化方式同样可以是对行为价值矩阵中的元素置零。

B、利用环境状态信息对状态S进行初始化。

这里,初始化后状态S={J

C、基于ε-贪婪算法和当前的行为价值矩阵,选择当前时刻的状态S

该步骤A的具体实现方式与图2中步骤C的具体实现方式相同。

D、预测执行抗干扰动作A

E、基于目标贪婪算法和当前的行为价值矩阵,选择状态S

其中,目标贪婪算法包括:标准贪婪算法或ε-贪婪算法。该步骤中选择状态S

F、根据抗干扰收益R

具体的更新方式如下:

Q(S

其中,Q(S

G、判断更新后的行为价值矩阵是否收敛。如果已收敛,收敛的行为价值矩阵为决策结果;如果未收敛,执行步骤H。

这里,判断行为价值矩阵是否收敛的方式与蒙特卡罗学习方法的实施例中的方式相同,不再进行赘述。

H、判断状态S

其中,一次完整决策过程包括多个时刻。

上述利用时序差分算法执行马尔科夫决策的实施例中,如果步骤E中采用的是ε-贪婪算法来选择抗干扰动作,则该实施例具体使用的是Sarsa算法来执行马尔科夫决策;如果步骤E中采用的是标准贪婪算法来选择抗干扰动作,则该实施例具体使用的是Q-Learning算法来执行马尔科夫决策。

下面通过仿真结果对本发明实施例的有益效果进行进一步说明。

仿真的软件环境包括:MATLAB2020b,Python3.7,硬件环境包括:CPU:i9-10980XE,内存:256GB DDR4 3200MHz。

仿真时共设置了噪声干扰、扫频式干扰、瞄准式干扰、距离欺骗式干扰、速度欺骗式干扰以及角度欺骗式干扰共6种干扰类型;抗干扰动作集中包含有捷变频、脉冲压缩、可变脉冲参数、多普勒处理、动目标检测、单脉冲、抖动动重复频、恒虚警处理、信号限幅以及宽窄限电路共10种抗干扰动作。仿真时一次完整决策过程设置有4个决策时刻。

在实现仿真的过程中,建立了作为干扰一方的攻击者干扰模型以及作为抗干扰一方的认知雷达抗干扰模型;参见图4所示,该攻击者模型能够进行威胁评估进行相应的干扰措施调度,且还有干扰效能评估的功能;该认知雷达抗干扰模型通过提取环境特征识别,实施抗干扰措施,以抗干扰效能评估作为反馈。图5示出了认知雷达抗干扰模型的一种功能设计方案,可以看到,该认知雷达抗干扰模型可以对干扰环境进行特征提取,记录历史经验信息,通过智能抗干扰决策调用抗干扰算法库,并以抗干扰效能评估为反馈。虽然实际的自然电磁场环境是复杂多变的,同时受攻击者、认知雷达甚至其他参与者作用,但在仿真条件下,默认参与者只能通过环境间接进行威胁评估,提取干扰环境特征操作。此外,在实现仿真的过程中,还建立了一个对抗环境函数,用于表示自然环境、干扰特征提取识别,干扰策略,抗干扰策略的作用结果,图6示出了该对抗环境函数的功能结构。

图7示出了本发明实施例采用三种不同强化学习算法在迭代学习过程中的行为价值矩阵的收敛过程,图8则示本发明实施例采用三种不同强化学习算法在迭代学习过程中的提升收敛过程。可以看到,就收敛速度而言,Q-Learning>MC-Learning≈Sarsa。

图9示出了本发明实施例采用三种不同强化学习算法经过一万次蒙特卡洛实验后的抗干扰总收益的分布情况,可以看到采用三种算法均能达到较高的抗干扰总收益,相较于另外两种算法而言,Q-Learning更容易陷入一个次优解中,就算法性能而言,Sarsa>Q-Leaning>MC-Learning。

图10、图11以及图12分别示出了本发明实施例采用MC-Learning、Sarsa以及Q-Learning三种算法对抗博弈式干扰策略的结果。其中,Jamming为干扰措施,Anti-jamming为抗干扰动作;表格中的数值是抗干扰总收益。从表格里示出的实验过程以及最终的决策结果可以看到,抗干扰决策是非常有效的,在不同干扰措施下所选择的抗干扰动作都可以带来较高的抗干扰收益。

图13示出了本发明实施例采用三种不同强化学习算法的性能受抗干扰收益准确率的影响情况,可以看到,评估抗干扰收益的准确率越高,性能越好,所做出的决策结果越接近最优。

图14示出了随机概率分别为0.01,0.05,0.10,0.50情况下,本发明实施例采用MC-learning、Sarsa以及Q-Learning算法的500次试验平均抗干扰收益的收敛情况。该实验结果表明了选择合适的随机概率(0.05,0.10)将有助于提升收敛速度及算法性能。

图15示出了学习步长α对本发明实施例的决策性能的影响,可以看到不同的强化学习方法所适宜的步长是不同的;对于Q-Learning来说步长α越大越好,对于Sarsa来说,则设置为0.3~0.4较为合适;对于MC-learning而言,其学习步长等于α/k,该α设置在0.2~0.3是较为适宜的。

本发明实施例提供的方法可以应用于电子设备。具体的,该电子设备可以为:计算机、雷达或者雷达后台的控制设备等。在此不作限定,任何可以实现本发明的电子设备,均属于本发明实施例的保护范围。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号