公开/公告号CN111881723B
专利类型发明专利
公开/公告日2022-08-09
原文格式PDF
申请/专利号CN202010528035.8
申请日2020-06-09
分类号G06K9/00(2022.01);G01R29/08(2006.01);G06N20/00(2019.01);
代理机构武汉开元知识产权代理有限公司 42104;武汉开元知识产权代理有限公司 42104;
代理人潘杰;刘代乐
地址 211000 江苏省南京市江宁经济技术开发区诚信大道19号
入库时间 2022-09-06 00:40:17
法律状态公告日
法律状态信息
法律状态
2022-08-09
授权
发明专利权授予
技术领域
本发明涉及雷电信号自动识别技术领域,具体涉及一种雷电地闪回击波形的自动识别方法、系统及电子设备。
背景技术
雷电灾害是自然界中严重危害人类活动的灾害之一。地闪和地面灾害相关,回击是其中一种强大的电流源,危害严重。回击具有相对容易识别的波形,以往雷电定位系统采用固定的特征识别方法,主要问题是“一刀切”,容易造成漏判和误判。
如:申请号为201510047783.3的中国专利“一种全闪电云地闪识别方法”公开了一种识别方法,其采用特定的9个波形参数对采集到的雷电辐射电场波形特征进行提取,9个波形参数具体包括上升时间、下降时间、脉冲宽度、前向反峰比、后向反峰比、次峰比、信噪比SNR、前向信噪比preSNR、后向信噪比postSNR。论文《闪电电场变化波形时域特征分析及放电类型识别》中利用波形上升时间、下降时间、脉冲宽度等共10项指标来判别回击波形。以上方法均采用固定的时域波形判据对地闪回击进行识别,容易造成漏判和误判。
此外,现有的地闪回击识别方法均未充分考虑不同距离雷电波形的差异性,而不同距离的回击电场波形特征变化较大,容易造成对近距离和远距离雷电波形的误判和漏判。
发明内容
本发明的目的就是针对现有技术的缺陷,提供一种雷电地闪回击波形的自动识别方法、系统及电子设备,其基于机器学习构建自动识别模型,能够解决现有基于固定、少量时域特征进行识别导致的误判和漏判问题。
本发明一种雷电地闪回击波形的自动识别方法,其技术方案为:
采集真实雷电信号;
利用预先训练得到的识别模型对所述真实雷电信号的波形进行识别;
得到识别结果输出;
其中,所述预先训练得到的识别模型为通过对采集到的雷电原始波形数据,进行雷电信号类别标注以及特征提取,根据各个特征的重要程度进行特征筛选,并基于机器学习算法对筛选出的特征进行训练得到。
较为优选的,在利用机器学习算法对筛选出的特征进行训练前,还需对样本均衡性进行判断,若样本中存在某类数据明显少于其它类数据,则判断为该样本存在不均衡现象;
对于所述不均衡现象中的正负样本不平衡现象,采用负样本抽样法进行正负样本平衡;
对于所述不均衡现象中的正样本类别不平衡现象,采用上采样法对正样本进行扩充,实现正样本之间的类别均衡。
较为优选的,所述雷电原始波形数据的采集包括:
利用雷电电场变化测量仪采集雷电地闪回击的原始波形数据;
根据需要判别的雷电地闪回击形成所需的最大时间,采用滑动窗口将雷电地闪回击信号切片,并将雷电地闪回击信号转化为可供人工识别的波形图像;
其中,所述雷电电场变化测量仪采集的雷电地闪回击信号应均匀分布在探测站周围10~200km范围内。
较为优选的,对所述样本数据库内的样本数据进行特征提取包括:
采用计算局部范围内迭代差值来代替原始波形数值的方式进行波形转换;
采用滑动窗对每个窗内的波形进行降采样;
利用特征提取法进行特征提取。
较为优选的,所述特征提取法包括基于滑动窗口的统计特征法、小波包特征法、梅尔倒谱系数法、线性预测系数法、线性预测倒谱系数法中的任意一种或多种。
较为优选的,所述各个特征的重要程度采用随机森林法进行计算。
较为优选的,所述基于机器学习算法对筛选出的所述特征进行训练包括:
对数据集进行划分,使所述数据集中70%用于训练,20%用于验证,10%用于测试;
将准确率、召回率和速度作为评价指标,选取综合得分最高的机器学习算法对筛选出的特征进行训练;
所述综合得分为对准确率评价得分、召回率评价得分和速度评价得分加权处理后的评分。
较为优选的,还包括对识别模型进行优化,所述优化过程为:
利用识别模型对真实雷电信号进行预测,然后将模型的预测结果和实际波形的类别进行比对,得到模型的精度,若所述模型的精度低于设定精度阈值,则将实际检测中存在的错误数据加入输入数据中进行迭代处理,直至模型的精度达到设定的精度阈值。
较为优选的,所述训练过程中的超参数调优采用先随机搜索,再网格搜索的方式进行调优。
本发明一种雷电地闪回击波形的识别模型构建系统,其技术方案为:包括
采集模块,用于采集真实雷电信号;
识别模块,用于利用预先训练得到的识别模型对所述真实雷电信号的波形进行识别;
输出模块,用于输出识别结果;
训练模块,用于对采集到的雷电原始波形数据进行雷电信号类别标注以及特征提取,根据各个特征的重要程度进行特征筛选,并基于机器学习算法对筛选出的特征进行训练。
本发明的有益效果为:采用机器学习方法建立雷电地闪回击的自动识别模型,通过对样本数据的自学习和自训练,能提取出大量时域和频域特征参数,基于该识别模型进行雷电波形自动识别,能极大提高识别准确率,解决现有基于固定、少量时域特征进行识别导致的误判和漏判问题。采用随机森林法对提取出的特征进行筛选和训练,可得到相关性高的大量特征,从而提高识别的效率和准确率。在探测站周围不同距离范围均进行取样,可以将近距离和远距离雷电波形特征进行统一考虑,解决对近距离和远距离雷电波形的误判和漏判。此外,该自动识别模型不仅对于电场波形适用,对于磁场波形同样适用。其可以部署在训练服务器上,也可以部署在嵌入式系统中,进行边缘识别。具有较高的适配性。
附图说明
图1为本发明一种雷电地闪回击波形的自动识别方法的流程示意图;
图2为本发明训练得到识别模型的流程示意图;
图3为本发明得到的25km回击波形及其关键参数示意图;
图4为本发明得到的121km回击波形及其关键参数示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细说明,便于清楚地了解本发明,但它们不对本发明构成限定。
如图1所示,一种雷电地闪回击波形的自动识别方法包括以下步骤:
步骤a,采集真实雷电信号;
步骤b,利用预先训练得到的识别模型对所述真实雷电信号的波形进行识别;
步骤c,得到识别结果输出。
如图2所示,训练得到识别模型包括以下步骤:
步骤1,采集雷电原始波形数据,通过人工识别的方式对雷电信号类别进行标注,建立样本数据库。
采集雷电原始波形数据包括:
步骤101,利用雷电电场变化测量仪采集雷电地闪回击的原始波形数据;
步骤102,根据需要判别的雷电地闪回击形成所需的最大时间,采用滑动窗口将雷电地闪回击信号切片,并将雷电地闪回击信号转化为可供人工识别的波形图像。
其中,雷电电场变化测量仪的采样率一般不小于5Msps、时间常数一般不超过1ms。所选回击应通过雷电定位系统确定发生位置,选择的波形应来自距离探测站各种距离范围,应在10-200km范围都有样本。例如:采集1秒形成信号数据,根据需要检测的某类信号最大持续时长不超过200ms的特点,将窗口大小设置为200ms的窗口,即将1秒数据按200ms窗口进行拆分。最后,1秒的信号数据被拆分成5份。
步骤2,对样本数据库内的样本数据进行特征提取,建立特征库。
对样本数据库内的样本数据进行特征提取包括:
步骤201,波形转换:采用计算局部范围内迭代差值来代替原始波形数值的方式进行波形转换。为了去掉环境的影响,该波形转换采用寻找突变的方式,局部范围内迭代差值来代替原始波形数值,这样做的优势在于只考虑局部数据的差值,去掉了整段波形中的趋势项,去除了环境的影响。
步骤202,采用滑动窗对每个窗内的波形进行降采样,以提高计算速度。
步骤203,利用特征提取法进行特征提取。其中,特征提取法采用基于滑动窗口的统计特征法、小波包特征法、梅尔倒谱系数法、线性预测系数法、线性预测倒谱系数法中的任意一种或多种。基于滑动窗口统计方法的特征包含最大值、最小值、方差、极值、偏度、峭度、波形因子、波峰因子等。基于小波包分解提取多尺度空间能量特征的原理是把不同分解尺度上的信号能量求解出来,将这些能量值按尺度顺序排列成特征向量供识别使用,采用db3小波进行三层小波分解与重构,将整个频带分成8个频带,小波包将原始信号逐级向下分解、提取每个节点的小波包系数,该系数作为特征。基于梅尔倒频系数方法将原始信号转化为梅尔标度上的非线性频谱,再转换到倒谱域上,结合其在时域上的差分得到特征。特征组合库包含100维特征:MFCC特征40维,统计特征20维,小波包8维,线性预测系数(LPC)12维,线性预测倒谱系数(LPCC)20维特征组成。
步骤3,根据各个特征的重要程度从所述特征库中筛选出一批重要性较高的特征。
本实施例中,采用随机森林算法来计算特征重要程度,其从步骤2中的100维特征中筛选出30维特征,包括梅尔倒谱系数20维(一般最少取13维),小波包8维,统计特征2维。其包括以下步骤:
步骤301,计算每个特征的重要性,并按降序排序;
步骤302,确定要剔除的比例,依据特征重要性剔除相应比例的特征,得到一个新的特征集;
步骤303,用新的特征集重复上述过程,直到剩下m个特征(m为提前设定的值),本实施例取30;
步骤304,根据上述过程中得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集。
步骤4,对样本均衡性进行判断。
样本不平衡会导致模型能力减弱,比较严重的不平衡甚至会导致指标失效,所以,需要判断是否样本存在非常大的不平衡,如果存在,则采用样本平衡策略。如果不存在,则执行步骤5。本方案的平衡策略包括:
对于不均衡现象中的正负样本不平衡现象,采用负样本抽样法进行正负样本平衡;
对于不均衡现象中的正样本类别不平衡现象,采用上采样法对正样本进行扩充,实现正样本之间的类别均衡。
如果标注的正样本不是很充足,可以采用半监督学习标签传递算法进行标签传递。具体如下:
令(x
将所有数据作为节点(包括已标注和未标注数据),创建一个完全连接图,其边的权重计算式如下:
其中:d
为衡量一个节点的标注通过边传播到其他节点的概率,在此定义一个(l+u)×(l+u)概率传递矩阵T如下所示:
其中:T
半监督学习标签传递算法的输入包括l个标记的数据及标签,u个未标记数据;输出包括u个未标记数据的标签。半监督学习标签传递算法的步骤如下:
第1步:初始化,利用权重公式计算每条边的权重w
第2步:根据得到的权重w
第3步:定义矩阵Y
第4步:执行传播,每个节点按传播概率将周围节点传播的标注值按权重相加,并更新到自己的概率分布,Y
第5步:重置Y中已标记样本的标签,限定已标注的数据,把已标注的数据的概率分布重新赋值为初始值;
第6步:重复步骤4和5,直至Y收敛。
每个节点的标签按相似度传播给相邻节点,在节点传播的每一步,每个节点根据相邻节点的标签来更新自己的标签,与该节点相似度越大,其相邻节点对其标注的影响权值越大,相似节点的标签越趋于一致,其标签就越容易传播。在标签传播过程中,保持已标注数据的标签不变,使其像一个源头把标签传向未标注数据。最终,当迭代过程结束时,相似节点的概率分布也趋于相似,可以划分到同一个类别中,从而完成标签传播过程。
步骤5,基于机器学习算法对筛选出的所述特征进行训练,得到识别模型。其具体包括以下步骤:
步骤501,划分数据集:数据划分采用7:2:1的划分方法,70%用于训练,20%用于验证,10%用于测试。
步骤502,评估指标选取:选取准确率、召回率和速度作为评价指标,同时为了更简单有效的衡量模型,将三个指标按权重合成一种指标,该指标的得分即准确率、召回率和速度的综合评分。
步骤503,模型选择:在逻辑回归、随机森林、SVM、RNN中选择一种上述综合评分最高的模型。
本方案逻辑回归、随机森林、SVM、RNN在CPU为inter Core i5-3210M CPU@2.5GHZx 4,内存为2430MB计算机上的指标评分如下表所示,测试平台为windows64位操作系统。
表1各算法指标表
根据表1,可以看出支持向量机的综合评分最高,因此,本方案中选取支持向量机进行训练。
在训练过程中,为使模型性能更好,模型泛化能力更强。还涉及到超参数(在机器学习模型中,需要人工选择的参数称为超参数)调优过程,该过程采用先随机搜索、再网格搜索的方式调优。随机搜索,即在指定范围内随机获取参数,进行参数组合后训练模型,最后将获得验证模型精度最高的参数。网格搜索(Grid Search CV),即网格搜索和交叉验证。网格搜索,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数。
步骤6,对识别模型进行优化,完善训练集、迭代训练模型。由于模型实际环境数据多样,模型并不能覆盖所有的数据,若模型的精度低于设定精度阈值,所以需要将实际检测中存在的错误数据加入数据中重新迭代步骤1-6的过程。其中,模型优化主要采用偏差和方差的大小来优化模型(这里将训练误差和验证误差之差作为偏差,验证误差和测试误差之差作为方差)。偏差大则采用更复杂的模型;方差大则采用正则化来降低模型复杂度。由于实际环境复杂,搜集的数据无法完全代替实际的情况,人工制造部分数据来测试模型的去伪能力。
利用本方法构建的识别模型可用于对真实雷电信号进行自动识别,其识别时,利用识别模型对真实雷电信号进行预测,即可输出识别结果。利用识别模型对真实雷电信号进行预测时,25km回击波形及其关键参数示意图如图3所示,121km回击波形及其关键参数示意图如图4所示。图中的四个参数中,类别为机器学习算法预测产生,其他三个参数为根据波形类型提取的参数,方便后续分析。此外,根据模型的预测结果和实际波形的类比进行比对,真实还可得到模型的精度,用以进一步优化识别模型。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
机译: ADC采样时间雷电监视系统,具有多个ADC输入通道和采样时间,可检测雷电流大小和实际雷电波形
机译: 雷电波形评估装置,雷电波形评估方法和计算机程序
机译: 雷电冲击耐压测试系统,参考波形计算程序和雷电冲击耐压测试方法