首页> 中国专利> 一种基于多源数据融合分析的生物入侵识别方法

一种基于多源数据融合分析的生物入侵识别方法

摘要

本发明公开了一种基于多源数据融合分析的生物入侵识别方法,包括以下步骤:获取包含有入侵生物数据的多源数据集,并对入侵生物数据进行标记;数据集包括:文本数据、图片数据、时间数据、地理位置数据;对文本数据进行分类,输出带标记的文本概率矩阵;对图片数据识别出图片中入侵生物的位置,确定边界和大小,并训练出带标记的图片概率矩阵;对时间数据进行独热编码,并通过编码后的数据与地理位置数据构建时间‑空间特征矩阵;根据文本概率矩阵、图片概率矩阵、时间‑空间特征矩阵构建多特征向量;对多特征向量进行权重分配,利用机器学习算法训练二元分类器;将待预测数据输入二元分类器,获得入侵生物数据。

著录项

  • 公开/公告号CN114943290A

    专利类型发明专利

  • 公开/公告日2022-08-26

    原文格式PDF

  • 申请/专利权人 盐城师范学院;

    申请/专利号CN202210575412.2

  • 发明设计人 陈碧云;

    申请日2022-05-25

  • 分类号G06K9/62(2022.01);G06F16/35(2019.01);G06V10/25(2022.01);G06V10/82(2022.01);G06V10/764(2022.01);G06N3/04(2006.01);G06F16/29(2019.01);

  • 代理机构西安铭泽知识产权代理事务所(普通合伙) 61223;

  • 代理人田甜

  • 地址 224002 江苏省盐城市开放大道50号

  • 入库时间 2023-06-19 16:31:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-08

    授权

    发明专利权授予

  • 2022-09-13

    实质审查的生效 IPC(主分类):G06K 9/62 专利申请号:2022105754122 申请日:20220525

    实质审查的生效

说明书

技术领域

本发明涉及大数据人工智能技术领域,特别涉及一种基于多源数据融合分析的生物入侵识别方法。

背景技术

随着全球化发展进程加快以及土地使用模式的改变,生物入侵已成为世界性的生态安全问题。研究表明,从1970年到2017年全球入侵防治总成本至少达到1.288万亿美元,年平均成本为268亿美元,并且其增长速度没有放缓的痕迹。目前针对生物入侵领域的研究还处于初级阶段,近年来在全球生态变化的大背景下,已然发展成为全球变化和生态可持续管理相结合的一个新的领域。现阶段的防治生物入侵的手段主要包括了:建立相应的监测系统,查明外来物种的种类、数量、分布和作用;加强对生物入侵危害性的宣传教育,提高社会的防范意识;积极寻找针对外来入侵物种的识别、防治技术,以对当前生物入侵的蔓延趋势加以有效遏制。综上,对外来物种进行精准鉴定至关重要。

目前,人工智能技术正在成为生态资源领域的新引擎,利用人工智能技术在识别物种方面的研究起步较早,在植物、动物和标本识别均取得了超越传统分类器的效果,而人工智能中的深度学习已在物种图像识别上广泛应用。在植物分类中(Lee等,2015,2016),Mohanty等(2016)利用深度学习的方法实现了基于图像的38种植物病害的分类。Carranza-Rojas等(2017)用卷积神经网络和迁移神经网络实现了基于标本图片的上千个物种的分类。除了利用CNN对单张图像进行分类之外,Taghavi等(2018)利用LSTM对CNN提取的时间序列图像的特征进行表型和基因型的分类。Norouzzadeh等利用深度学习的方法基于相机陷阱获取的图像数据自动识别动物的类别并统计其数量,实现了动物种群的监测,但在复杂环境背景下,识别准确率较低。为了解决野外复杂环境背景所导致监测图像识别准确率低问题,动物发出的声音也被作为一种重要数据源。

随着观测技术的进步,物种监测系统的不断完善,长时间、跨尺度、海量异构多源数据的获取能力得到了显著提升。2017年美国科学院院士Gregory P.Asner等在Science上发表的研究表明,通过整合海量、高精度的高光谱和激光雷达数据,对整个秘鲁森林进行了植物功能型划分,进而为各区域提出相应的森林管理与保护对策。打破了结构复杂、生物多样性高的植物类群无法准确监测的局限。值得注意的是,在多源数据的融合过程中存在数据结构、精度等是否匹配的问题。我们获取的监测信息中包含多种不同类别的数据,如何利用多特征数据来进行外来物种的快速识别与智能诊断,并基于此进行风险分析与预判是一个非常值得研究的问题。

发明内容

目前这方面的研究鲜有报道,基于此背景,本文提出一种基于多源数据融合分析的生物入侵识别方法。首先使用深度学习方法对数据进行概率预判,然后基于熵权法分配数据权重,最后采用SVM方法对多特征数据进行综合判别。本发明以大黄蜂入侵华盛顿事件为例,分析验证了该算法的实用性。结果显示本算法可应用于物种的快速识别与监测,同时还能预判出物种的随时间的变化发展趋势。为制定相应合理、高效的保护与管理措施提供了依据。

本发明提供了一种基于多源数据融合分析的生物入侵识别方法,包括以下步骤:

获取包含有入侵生物数据的多源数据集,并对入侵生物数据进行标记;所述数据集包括:文本数据、图片数据、时间数据、地理位置数据。

对所述文本数据进行分类,输出带标记的文本概率矩阵。

对所述图片数据识别出图片中入侵生物的位置,确定边界和大小,并训练出带标记的图片概率矩阵。

对所述时间数据进行独热编码,并通过编码后的数据与所述地理位置数据构建时间-空间特征矩阵。

根据所述文本概率矩阵、所述图片概率矩阵、所述时间-空间特征矩阵构建多特征向量;对所述多特征向量进行权重分配,利用机器学习算法训练二元分类器。

将待预测数据输入二元分类器,获得入侵生物数据。

进一步的,对所述文本数据进行分类,具体包括:将所述文本数据去停用词,利用Fast-Text进行构建N-grame特征,将文本内容按照字节顺序进行大小为N的滑动窗口操作,最终形成长度为N的字节片段序列,产生的序列作为文本特征候选集,筛选出重要特征,利用Soft-Max输出带有标记的文本概率矩阵。

进一步的,所述训练带标记的图片概率矩阵,具体包括:对所述图片数据通过图片识别算法如CNN确定所要识别入侵生物的位置,对位置进行放大,确定边界以及图片大小,利用CNN训练出带标记的图片概率矩阵。

进一步的,对所述多特征向量进行权重分配,并利用机器学习算法训练二元分类器,具体包括:对所述多特征向量进行标准化,使用熵权法进行权重分配,利用机器学习算法SVM训练成二元分类器。

进一步的,将待预测数据输入二元分类器,获得入侵生物数据,具体包括:输入需要进行预测的数据,使用SVM做最终标记,当输出标记为1,代表该时段,该地点由用户上传的数据为真,代表此处出现过入侵物种,应当及时处理。

进一步的,所述的一种基于多源数据融合分析的生物入侵识别方法,还包括:对于所述时间-空间特征矩阵使用GM模型预测将来入侵生物的迁徙或者繁衍规律。

进一步的,所述二元分类器中的分类器包括:随机森林、逻辑回归、神经网络。

与现有技术相比,本发明提供的一种基于多源数据融合分析的生物入侵识别方法,具有以下的有益效果:

本基于多源数据融合分析的生物入侵识别方法融合了文本数据、图片数据、时间数据、地理位置数据,应用于物种的快速识别与监测,同时还能预判出物种的随时间的变化发展趋势,为制定相应合理、高效的保护与管理措施提供了依据。

附图说明

图1为Fast-Text流程图;

图2为从全连接层到输出层具体流程图;

图3为11-100个训练集概率分布图;

图4为测试集召回率统计图;

图5为测试集准确率统计图;

图6为训练模型的随机预测图;

图7为训练模型的变动率指标图;

图8为训练模型的实际地理位置示意图;

图9为热力预测图;

图10为基于多源数据融合分析的生物入侵识别方法整体流程图。

具体实施方式

下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

实施例1

本发明提供的一种基于多源数据融合分析的生物入侵识别方法,如图10所示的整体流程图,包括以下步骤:

获取包含有入侵生物数据的多源数据集,并对入侵生物数据进行标记;数据集包括:文本数据、图片数据、时间数据、地理位置数据。

数据集由文本、图片、时间、地理位置组成,扩大了数据集的数据范围,通过将数据集划分训练集和测试集,可以进行对照实验,方便验证本算法的技术效果。

对文本数据进行分类,输出带标记的文本概率矩阵;对文本数据进行分类,具体包括:将所述文本数据去停用词,利用Fast-Text进行构建N-grame特征,将文本内容按照字节顺序进行大小为N的滑动窗口操作,最终形成长度为N的字节片段序列,产生的序列作为候选集,筛选出重要特征,利用Soft-Max输出带有标记的文本概率矩阵。

对于民众提供的入侵生物评论数据可以给实验室判别有一定的帮助,因此对于文本数据对于判别是否是入侵生物具有很大的影响。为保证其每个单词内部的形态特征,对每条记录的词向量进行特征提取。即将文本内容按照字节顺序进行大小为N的滑动窗口操作,最终形成长度为N的字节片段序列。其中,’<’表示前缀,‘>’表示后缀。由’<>’组成的trigram就可以来表示一个单词,进一步可以使用5个向量叠加使用来更好的表示词向量。通过Embedding将离散变量转为连续向量,构成此条记录的词向量,W

分层Soft-Max的表达式如下所示,

最终得到n条记录的概率矩阵。如表1所示,其中T

表1:文本数据概率矩阵

对图片数据识别出图片中入侵生物的位置,确定边界和大小,并训练出带标记的图片概率矩阵;训练带标记的图片概率矩阵,具体包括:对图片数据通过图片识别算法CNN确定所要识别入侵生物的位置,对位置进行放大,确定边界以及图片大小,利用CNN训练出带标记的图片概率矩阵。

对于民众上传的图片数据信息,对于实验室评判具有很大的影响力,所以对于图片数据的特征提取十分重要。首先现将图片数据进行预处理:删除不是图片的数据,以及修改后缀名。CNN卷积神经网络主要分为卷积层(CONV)、池化层(POOL)以及全连接层(FC)。CNN主要就是通过一个个的滤波器,不断地提取特征,从局部的特征到总体的特征,从而进行图像识别等等功能。使用CNN神经网络处理图片分为四步:输入层、卷积层和下采样层、全连接层以及输出层。输入层使用RGB彩色图像,将RGB分量的输出,与卷积层权重W卷积得到各个C层,然后下采样得到各个S层。使用激活函数,这些层的输出称为Feature-Map。全连接层将所有Feature-Map的每个元素依次展开,排成一列。在输出层使用Soft-Max进行分类。

图2是从全连接层到输出层具体流程图,其中将亚洲入侵生物作为输入层数据,由于数据集是RGB彩色图像,因此使用了三个分离的2D内核对图片进行缩放和灰化,3通道RGB彩色图像快速转换为1通道灰度。经过多重卷积、池化和激活之后,将特征提取出来,经过全连接层使用Soft-Max函数输出是否为亚洲入侵生物概率。

其中X(height×width×channel)为输入像素矩阵,Y是输出矩阵,进行卷积池化使得多维数据进行扁平化,与全连接层相连,输出为使用传统Soft-Max进行分类的类别概率。得到一个T×L的向量,其中每一个值表示输入对应所有样本的概率值。这样就得到对于图像文件的分类概率,使用C表示。

最终得到对于图片数据的概率矩阵,如表2所示,q

表2:图片数据概率矩阵

对时间数据进行独热编码,并通过编码后的数据与地理位置数据构建时间-空间特征矩阵;根据文本概率矩阵、图片概率矩阵、时间-空间特征矩阵构建多特征向量;对多特征向量进行权重分配,利用机器学习算法训练二元分类器;对多特征向量进行权重分配,并利用机器学习算法训练二元分类器,具体包括:对多特征向量进行标准化,采用熵权法分配权重系数,利用机器学习算法SVM训练成二元分类器;二元分类器中的分类器包括:随机森林、逻辑回归、神经网络。

将待预测数据输入二元分类器,获得入侵生物数据;将待预测数据输入二元分类器,获得入侵生物数据,具体包括:输入需要进行预测的数据,使用SVM做最终标记,当输出标记为1,代表该时段,该地点由用户上传的数据为真,代表此处出现过入侵物种,应当及时处理。

一种基于多源数据融合分析的生物入侵识别方法,还包括:对于时间-空间特征矩阵使用GM模型预测将来入侵生物的迁徙或者繁衍规律。

数据集包括:由华盛顿州农业部2020年12月汇总的目击报告数据,数据集包含4440个目击报告的电子表格和3305张由用户上传的图像数据;将已经经过实验室判别过的目击报告数据进行标记,判别是入侵生物的标记为1,反之为0。随机将数据集中的全部数据的70%划分为训练集,将数据集中的剩余数据划分为测试集。

对于民众所提供的目击报告,每个报告之间都是相互独立的,这些信息之间,以及各个特征值之间并不是连续的,而是离散且无序的。使用one-hot编码可以对将特征数字化,one-hot编码,又称一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。

由于入侵生物属于外来物种,可能存在发生事件较少,采用GM模型对少量、不完全信息具有很好的适用性,针对入侵生物发生的时间以及地理位置,计算其变化范围。GM(1,1)模型可以表示成Y=Bu,预测样本范围表示区域划分。为了保证GM(1,1)建模方法的可行性,需要对已知数据做必要的检验处理。设原始数据列为x

利用的模型得出不同记录中事件发生的区域范围,规划预测整理出趋势范围。对于GM预测出来的范围,先进行判断是否在此范围之内,在为1不在则为0。使用L(Location)=(0,1)表示记录的地理特征值,对于时间特性T由于事件发生具有不确定性,因此使用one-hot编码,可以有效的对离散数值进行有效区分不同时间段。

首先进行数据特征提取,根据四个不同的特征(文本,图片,时间,位置),进行标准化。针对于民众提供文本数据以及图片数据具有较高的真实性,而对于时间以及地理范围是比较宽泛的,并不能代表具体含义,所以需要对整体的数值进行权重分配。对于分配完成的权重之和应当等于1。

对于提取的文本数据概率特征F以及图片数据概率特征C,对于缺省值使用1/k来表示。由于各事件之间存在相互独立性,所以k个事件的在同一时刻发生的概率仅为1/k,其中k时间概率之和应当为1。对于时间和地理位置的缺失可以使用上下两条记录的平均值进行补全。

对于多特征事件而言,本质上具有随机性,使用计算熵值来判断事件的随机性和无序程度,评判指标的离散程度,指标离散程度越大,该指标对综合评价影响就越大。

首先需要对特征向量X={X

利用信息熵计算出各个指标的熵权,

为了保证0≤H

将经过标准化的特征向量矩阵与各指标w

由于提供了较多的特征向量,在最后的多特征融合分类中,因为已经对数据进行了第一轮的预测分类的概率统计,不需要使用过于复杂的算法。使用传统SVM分类模型就可以胜任。

在SVM分类问题中给定输入数据X和学习目标Y。

X={X

Y={Y

这里的输入数据为X=F,C,L,T。

对FCLT给出一个简单的解释,因输入数据的每个样本都包含多个特征,由此构成特征空间X(feature space):X=[X

而学习目标为二元变量,表示负类(negative class)和正类(positive class)。若输入数据所在的特征空间X存在,那它将作为决策边界(Decision Boundary)的超平面:decision boundary:w

满足该条件的决策边界实际上构造了2个平行的超平面作为间隔边界以判别样本的分类:

所有在上间隔边界上方的样本属于正类,在下间隔边界下方的样本属于负类。两个间隔边界的距离d被定义为边距(margin)

位于间隔边界上的正类和负类样本为支持向量(Support Vector)。

使用Fast-Text工具对数据进行文本分类处理。先将训练集进行数据均衡操作得到100个训练集概率分布,在不断训练的过程中最终达到峰值。

如图3所示,概率从大概第10个开始趋于0.9或是0.1,在样本不均匀的情况下,Fast-Text帮做了样本均衡处理,并将概率事件评判的很好。

将样本数据进行乱序处理进行训练,对于亚洲入侵生物问题的训练结果,如图4和图5所示,其召回率和准确率都为94.6%。

在实践中,使用PyTorch框架来构建CNN模型。将70%的数据集用于训练,将30%的数据用于测试。由于数据样本不均匀,进行简单的过采样。最终的训练模型在测试集上表现良好,随机选择了几张图片,然后使用训练后的模型进行预测,如图6所示(真值是实际类别,预测是模型的预测结果,Negative值表示图片是亚洲入侵生物,Positive表示图片不是亚洲入侵生物)

最后,评估训练模型的指标,如表3和图7所示。

表3:训练模型的指标

对于入侵生物发生事件较少,采用GM模型对少量、不完全信息具有很好的适用性,针对入侵生物发生的时间以及地理位置,计算其变化范围。

取c使得数据列的级比都落在可容覆盖内,在计算级比值之后发现两个数据的级比检验值均在标准范围区间[0.857,1.166]内,意味着本数据适合进行GM(1,1)模型构建。在检验完数据之后则要对GM模型计算发展系数a,灰色作用量b,以及计算后验差比C值,如表4所示:

表4:模型构建的结果

两个模型的后验差比C值均小于0.65,其中经度的模型仅有0.0468小于0.35说明经度模型特别好。所以对经纬度进行预测,在预测好之后对残差进行检验,包括相对误差、级比偏差;对于经度和纬度这两组数据的相对误差值最大值均小于0.1,针对级比偏差值,均小于0.1则说明达到较高要求,意味着模型拟合效果达到较高要求。并根据其地理位置绘制相关范围,如图8所示。

在预测出经纬度后利用两点经纬度之间的差值计算出两点之间的距离,对以上两个模型进行拟合优度的计算:纬度R方71.45%经度R方95.31%,从图中8不难看出,这些被验证为真的亚洲入侵生物的样本Latitude范围:[48.7775,49.1494],Longitude范围:[-123.9431,-122.4186]。

对于提取的文本数据概率特征F以及图片数据概率特征C,对于缺省值使用1/k来表示。由于各事件之间存在相互独立性,所以k事件的在同一时刻发生的概率仅为1/k。对于GM预测出来的范围,先进行判断是否在此范围之内,在为1不在则为0。使用L(Location)=(0,1)表示记录的地理特征值,对于时间特性T由于事件发生具有不确定性,因此使用one-hot编码,可以有效的对离散数值进行有效区分不同时间段。

各特征之间需要确定相关权重,使用熵权法计算出各个特征的权重分配,如表5:

表5:不同特征权重分配表

针对几个特征值,由于是线性不可分,即特征空间存在超曲线使用非线性函数可以将非线性可分问题从原始的特征空间映射至更高维的希尔伯特空间,从而转化为线性可分问题,使用线性回归计算得出表6:

表6:线性回归计算表

发现R

对300组数据进行训练,并对521组数据进行分类评估,得出表7:

表7:分类评估表

对角线是预测正确的个数,对于521条记录中判别入侵生物失误次数只有一次,能够正确判别是入侵生物的记录,以及其出现的范围。对还未进行实验判断的民众数据进行预测,根据预测出的数据按照时间绘制热力图,如图9所示:发现华盛顿部分地方在下半年还有可能存在亚洲入侵生物的踪迹,在短时间内,可能无法消除此类隐患。

对多特征数据融合分析算法进行综合评价,从8中可以看出,使用该算法可以很好的结合多特征数据源,并对不同事件进行合理判断。

表8:多特征数据融合分析算法综合评价

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号