首页> 中国专利> 基于遥感和随机森林的产草量估算方法、装置及存储介质

基于遥感和随机森林的产草量估算方法、装置及存储介质

摘要

本发明公开了一种基于遥感数据和随机森林算法的产草量估算方法,包括以下步骤:获取遥感数据并进行预处理;获取产草区样本点实测数据;根据遥感数据和样本点坐标获得对应点波段值及植被指数作为样本数据;根据样本点实测数据和样本数据建立随机森林估算模型;使用预处理之后的遥感数据作为随机森林估算模型的输入向量预测产草量;还公开了一种基于遥感数据和随机森林算法的产草量估算装置及可读存储介质。无需对变量的正态性和独立性等假设条件进行检验,同时也不需要考虑多变量的共线问题,且运算高效、结果准确。有较高的准确率,对异常值和噪声具有较好的容忍度,对高光谱遥感等高维度数据训练和学习效果较佳。

著录项

  • 公开/公告号CN112446397A

    专利类型发明专利

  • 公开/公告日2021-03-05

    原文格式PDF

  • 申请/专利号CN201910822293.4

  • 申请日2019-09-02

  • 分类号G06K9/62(20060101);G06Q10/04(20120101);G06Q50/02(20120101);G01N21/17(20060101);G01N21/55(20140101);

  • 代理机构31306 上海愉腾专利代理事务所(普通合伙);

  • 代理人谢小军

  • 地址 100091 北京市海淀区东小府2号

  • 入库时间 2023-06-19 10:06:57

说明书

技术领域

本发明涉及卫星测算技术领域,尤其涉及一种基于遥感数据和随机森林的产草量估算方法、装置及存储介质。

背景技术

草地资源是全球陆地生态系统的重要组成部分,在生态环境中起着举足轻重的作用。对草地资源监测有助于了解掌握草地实际情况,合理开发利用草地资源,达到维护草原生态系统平衡的目的。草地遥感估产是通过卫星传感器或地面光谱仪获取地球表面信息,在地物光谱理论指导下,将获取的地球表面信息经过复杂的综合处理,以识别草地及其长势,实现草地面积和长势监测及单产和总产的预报。使用遥感技术进行草地估产最早起源于国外,国内的研究起步较晚,但是发展很快。经研究,最初人们基于AVHRR-NDVI数据进行草原遥感估产,并且通过建立回归模型探究植被指数NDVI和产草量之间的关系。随着技术的发展,利用地面光谱实验数据或高光谱数据、地面监测样本数据结合Landsat、MODIS等数据产品,通过建立不同的反演模型估测草地产草量、探究草地生长状况。

哨兵2号(Sentinel-2)是欧洲太空局于2015年6月发射的多光谱成像卫星,携带一枚多光谱成像仪(MSI),具有最高可达10m分辨率、可覆盖13个光谱波段的遥感数据,用于陆地监测,可提供植被、土壤和水覆盖、内陆水路及海岸区域等图像,还可用于紧急救援服务。目前已发送Sentinel-2A和Sentinel-2B两颗卫星,一颗卫星的重访周期为10天,两颗互补,重访周期为5天。但是由于Sentinel-2是新发射的卫星,目前将Sentinel-2数据用于草原地区遥感估产的研究较少。

发明内容

鉴于目前存在的上述不足,本发明提供一种基于遥感数据和随机森林算法的产草量估算方法,能够估算获得结果较准确的产草量。

为达到上述目的,本发明的实施例采用如下技术方案:

一种基于遥感数据和随机森林算法的产草量估算方法,所述产草量估算方法包括以下步骤:

获取遥感数据并进行预处理;

获取产草区样本点实测数据;

根据遥感数据和样本点坐标获得对应点波段值及植被指数作为样本数据;

根据样本点实测数据和样本数据建立随机森林估算模型;

使用预处理之后的遥感数据作为随机森林估算模型的输入向量预测产草量。

依照本发明的一个方面,所述获取遥感数据并进行预处理包括:

根据实际项目需要,以及实地采样区与采样时间,选择所需的卫星遥感数据,数据要求基本无云、影像质量高;

使用双三次卷积的方式将影像波段重采样至质量最好的10m分辨率;

根据研究区域需要,对数据进行波段组合、影像拼接和裁剪。

依照本发明的一个方面,所述获取产草区样本点实测数据包括:根据牧草生长规律,选择牧草生长最旺盛的时期获取实测数据。

依照本发明的一个方面,所述根据遥感数据和样本点坐标获得对应点波段值及植被指数作为样本数据包括:根据样本点经纬度坐标,基于遥感数据提取对应点的波段值以及增强植被指数EVI、归一化植被指数NDVI作为样本数据。

依照本发明的一个方面,所述根据遥感数据和样本点坐标获得对应点波段值及植被指数作为样本数据包括:对研究区域进行波段拆分,将除B10卷云波段以外波段提取出来,按样本点提取波段值作为样本特征;对于研究区域,根据研究区域边界裁剪影像,按照波段选择顺序编号为B1、B2、B3、B4、B5、B6、B7、B8、B8A、B9、B11、B12、EVI、NDVI,并且存储为TIFF数据。

依照本发明的一个方面,所述根据样本点实测数据和样本数据建立随机森林估算模型包括以下步骤:

将需要计算的实测点总产草量鲜重/可食产草量鲜重作为Y值存入样本之中,将提取出的波段值以及EVI、NDVI值作为X值;

使用机器学习库进行随机森林回归模型建模,构建的随机森林回归模型用{h(X,Θk),k=1,…}表示,其中X为输入向量,{Θk}为独立同分布随机向量。

依照本发明的一个方面,所述进行随机森林回归模型建模包括以下步骤:

对输入样本数据集做归一化处理;

将样本数据集划分为训练集和测试集;

对于训练集D={(x

对每个训练集生成对应的决策树C

将生成的多棵决策树构成随机森林,对于测试集样本X,利用每棵决策树进行测试,得到预测结果C

基于回归问题,测试集样本X的预测值是这些树的结果的平均值。

依照本发明的一个方面,所述基于回归问题,测试集样本X的预测值是这些树的结果的平均值包括:

对任意划分特征A,对应的任意划分点S两边划分成的数据集D

其中,c

依照本发明的一个方面,所述进行随机森林回归模型建模包括判定变量重要性,具体包括:

在每一棵决策树的变量中加入随机噪声,然后检验袋外误差的增减,如果误差增加,则改变量比较重要,反之则不重要;

计算方法为:

其中,

依照本发明的一个方面,所述建立随机森林估算模型包括进行模型评价,所述模型评价选择选择决定系数(R

其中,y

依照本发明的一个方面,所述使用预处理之后的遥感数据作为随机森林估算模型的输入向量预测产草量包括:使用预处理之后的遥感数据,将影像波段值按样本的格式存入数组作为输入向量;使用随机森林估算模型预测研究区产草量,并将预测出的产草量结果输出为TIFF影像。

一种基于遥感数据和随机森林算法的产草量估算装置,所述产草量估算装置包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上所述的基于遥感数据和随机森林算法的产草量估算方法的步骤。

一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被执行时实现如上所述的基于遥感数据和随机森林算法的产草量估算方法的步骤。

本发明实施的优点:本发明所述的基于遥感数据和随机森林算法的产草量估算方法,包括以下步骤:获取遥感数据并进行预处理;获取产草区样本点实测数据;根据遥感数据和样本点坐标获得对应点波段值及植被指数作为样本数据;根据样本点实测数据和样本数据建立随机森林估算模型;使用预处理之后的遥感数据作为随机森林估算模型的输入向量预测产草量;无需对变量的正态性和独立性等假设条件进行检验,同时也不需要考虑多变量的共线问题,且运算高效、结果准确。有较高的准确率,对异常值和噪声具有较好的容忍度,对高光谱遥感等高维度数据训练和学习效果较佳。同时,机器学习中的一个重大问题是过拟合,对于随机森林而言,只要森林中有足够多的树,分类器就不会过度拟合模型,泛化能力强。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明所述的一种基于遥感数据和随机森林算法的产草量估算方法示意图;

图2为本发明所述的海晏研究区总产草量分布图;

图3为本发明所述的海晏研究区可食产草量分布图;

图4为本发明所述的祁连研究区总产草量分布图;

图5为本发明所述的祁连研究区可食产草量分布图;

图6为本发明所述的产草量估算装置示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1、图2、图3、图4和图5所示,一种基于遥感数据和随机森林算法的产草量估算方法,所述产草量估算方法包括以下步骤:

步骤S1:获取遥感数据并进行预处理;

根据实际项目需要,以及实地采样区与采样时间,选择所需Sentinel-2A或Sentinel-2B数据,数据要求基本无云,影像质量高。通过欧洲太空局(ESA)的数据共享网站(https://scihub.copernicus.eu/dhus/)直接获取的Sentinel-2数据是Level-1C级多光谱数据,是经过几何精校正的正射影像,投影坐标系为UTM/WGS-84。ESA还对Sentinel-2L2A级数据进行了定义,L2A级数据主要包含经过辐射定标和大气校正的大气底层反射率数据,这个L2A级数据需要用户自行处理。Sentinel-2数据波段参考如下:

表1 Sentinel-2卫星数据部分参数信息

使用ESA发布的插件Sen2co对原始数据进行辐射定标以及大气校正。从表1可以看出,Sentinel-2波段的空间分辨率并不统一,在这里使用双三次卷积的方式将影像波段重采样至质量最好的10m分辨率,并且根据研究区域需要,对数据进行波段组合、影像拼接和裁剪。

步骤S2:获取产草区样本点实测数据;

采用的实测数据主要包括草本样方编号、经纬度、植被盖度、主要植物种类、总产草量鲜重及风干重、可食产草量鲜重及风干重、调查时间等信息。根据牧草生长规律,调查时间选择集中在7-8月为佳,这是牧草生长最旺盛的时期。并且考虑产草量估算精度,实测数据分布应尽可能均匀,并且为研究区内的草地类型选择数量足够的样方进行实测。

步骤S3:根据遥感数据和样本点坐标获得对应点波段值及植被指数作为样本数据;

植被指数是将遥感影像上不同波段的光谱反射率通过线性或非线性方式组合,得到反应地表植被状况的度量。根据过往研究,选择NDVI、EVI两种能较好的反映地表植被覆盖情况的植被指数作为特征值。根据样本点经纬度坐标,使用ArcGIS提取对应点的波段值以及增强植被指数EVI、归一化植被指数NDVI作为样本数据,存储格式为.csv。具体如下:

其中,ρ

使用ENVI5.3对研究区域进行波段拆分,将除B10卷云波段以外波段提取出来,按样本点提取波段值作为样本特征。对于研究区域,根据研究区域边界裁剪影像,按照波段选择顺序编号为B1、B2、B3、B4、B5、B6、B7、B8、B8A、B9、B11、B12、EVI、NDVI,并且存储为TIFF数据。

步骤S4:根据样本点实测数据和样本数据建立随机森林估算模型;

将需要计算的实测点总产草量鲜重/可食产草量鲜重作为Y值存入样本之中,将提取出的波段值以及EVI、NDVI值作为X值,在这里使用python的机器学习库scikit-learn(sklearn)进行随机森林回归模型建模,sklearn支持包括分类、回归、降维和聚类四大机器学习算法,还包含了特征提取、数据处理和模型评估三大模块。

具体建模过程包括:

(一)数据归一化

由于选取的评价值之间有不同得量纲和量纲单位,这种情况会影响最终结果,为了消除这种影响,需要对输入样本数据集做归一化处理,使样本特征分布接近标准正态分布,以达到更好得效果。在这里使用MinMacScaler将特征缩放到给定得最小值和最大值之间,通常取值(0,1)。

其中,x

(二)样本训练集与测试集选取

在进行建模之前,需要将样本数据集划分为训练集和测试集,在划分训练集和测试集时,需要进行权衡,如果测试集数据越小,对模型得泛化误差得估计越不准确。一般在实际应用中,基于整个数据集的大小考虑,训练集数据和测试集数据的划分比例是6∶4、7∶3或8∶2。对于庞大的数据可以使用9∶1,甚至是99∶1。

(三)RF(随机森林)模型建立

RF是在Bagging基础上做了修改演化而来的。Bagging算法是在原始的数据集上采用有放回的随机取样的方式来抽取m个子样本,从而利用这m个子样本训练m个学习器,降低了模型的方差,然后将数据放在这m个分类器上,最后根据这个m个分类器的投票结果,决定数据属于哪一类。RF在此基础上改动了两处:一是在训练每个学习器时,不是从所有特征中选择最优特征来进行节点切分,而是随机的选取k个特征,从这k个特征中选择最优特征来切分节点;二是使用CART决策树。

RF回归模型用{h(X,Θk),k=1,...}表示,其中X为输入向量,{Θk}为独立同分布随机向量。

具体算法步骤如下:

对于训练数据集D={(x

(1)利用Bootstrap方法重采样,随机产生T个训练集S

(2)对每个训练集生成对应的决策树C

(3)将生成的多棵决策树构成随机森林,对于测试集样本X,利用每棵决策树进行测试,得到预测结果C

(4)对于回归问题,测试集样本X的预测值是这些树的结果的平均值。

使用CART构建回归树时,采用的原则是最小方差。即对任意划分特征A,对应的任意划分点S两边划分成的数据集D

其中,c

RF模型判定变量重要性的方法是在每一棵决策树的变量中加入随机噪声,然后检验袋外误差的增减,如果误差增加,则改变量比较重要,反之则不重要。计算方法为:

其中,

(四)模型评价

模型评价选择决定系数(R

其中,y

步骤S5:使用预处理之后的遥感数据作为随机森林估算模型的输入向量预测产草量。

使用预处理之后的遥感数据,将影像波段值按样本的格式存入数组作为输入向量。使用RF模型预测研究区产草量,并将预测出的产草量结果输出为TIFF影像。

在实际应用中,包括以下实施数据:

设定有两个研究区,分别为海晏研究区和祁连研究区;

其中,海晏研究区地处100.708769~101.136171°E,36.897002~37.188647°N,主要分布草地类型是高寒草甸和温性草原;祁连研究区地处100.495069~100.860690°E,37.588238~37.801124°N,主要分布草地类型是高寒草甸和温性草原。

1)根据研究区经纬度以及样本点坐标筛选Sentinel-2数据,要求基本无云影像质量高。在此样例中,由于样本点和海晏研究区位于Sentinel-2相邻两景影像中,因此在在影像预处理之后,需要对影像数据进行拼接裁剪。

按照实施例步骤S4进行RF回归模型建立,并且对总产草量和可食产草量分别建模,然后按照步骤S5输入影像数据估算出产草量,并将结果保存为TIFF影像,根据结果影像数据建立产草量专题图。如图2所示,为海晏研究区的总产草量专题图集;如图3所示,为海晏研究区的可食产草量专题图集。

2)根据研究区经纬度以及样本点坐标筛选Sentinel-2数据,要求基本无云影像质量高。在此样例中,由于样本点和祁连研究区位于Sentinel-2相邻两景影像中,因此在在影像预处理之后,需要对影像数据进行拼接裁剪。

按照实施例步骤S4进行RF回归模型建立,并且对总产草量和可食产草量分别建模,然后按照步骤S5输入影像数据估算出产草量,并将结果保存为TIFF影像,根据结果影像数据建立产草量专题图。如图4所示,为祁连研究区的总产草量专题图集;如图5所示,为祁连研究区的可食产草量专题图集。

无需对变量的正态性和独立性等假设条件进行检验,同时也不需要考虑多变量的共线问题,且运算高效、结果准确。有较高的准确率,对异常值和噪声具有较好的容忍度,对高光谱遥感等高维度数据训练和学习效果较佳。同时,机器学习中的一个重大问题是过拟合,对于随机森林而言,只要森林中有足够多的树,分类器就不会过度拟合模型,泛化能力强。

实施例二

如图6所示,一种基于遥感数据和随机森林算法的产草量估算装置,所述产草量估算装置包括:

存储器100,用于存储计算机程序;

处理器200,用于执行所述计算机程序时实现如上所述的基于遥感数据和随机森林算法的产草量估算方法的步骤。

实施例三

一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被执行时实现如上所述的基于遥感数据和随机森林算法的产草量估算方法的步骤。

本发明实施的优点:本发明所述的基于遥感数据和随机森林算法的产草量估算方法,包括以下步骤:获取遥感数据并进行预处理;获取产草区样本点实测数据;根据遥感数据和样本点坐标获得对应点波段值及植被指数作为样本数据;根据样本点实测数据和样本数据建立随机森林估算模型;使用预处理之后的遥感数据作为随机森林估算模型的输入向量预测产草量;无需对变量的正态性和独立性等假设条件进行检验,同时也不需要考虑多变量的共线问题,且运算高效、结果准确。有较高的准确率,对异常值和噪声具有较好的容忍度,对高光谱遥感等高维度数据训练和学习效果较佳。同时,机器学习中的一个重大问题是过拟合,对于随机森林而言,只要森林中有足够多的树,分类器就不会过度拟合模型,泛化能力强。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号