首页> 中国专利> 基于土壤类型归并与多元回归的土壤锰含量预测方法

基于土壤类型归并与多元回归的土壤锰含量预测方法

摘要

本发明涉及基于土壤类型归并与多元回归的土壤锰含量预测方法,涉及土壤微量元素在不同土壤类型内,表现出的不同空间变异特征的分治处理,能够通过分析土壤有效锰含量空间分布的离散程度来探测其空间异质性,并能够通过局部回归分析诊断出局部回归分析中的多重共线性问题;特别是在空间预测过程中,通过测度不同土样采样密度下土壤有效锰含量空间分布特征构建综合预测模型。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-17

    授权

    授权

  • 2017-08-18

    实质审查的生效 IPC(主分类):G06F17/18 申请日:20170223

    实质审查的生效

  • 2017-07-25

    公开

    公开

说明书

技术领域

本发明涉及基于土壤类型归并与多元回归的土壤锰含量预测方法,属于土壤属性预测技术领域。

背景技术

作为植物生产所必须的微量元素,锰(Mn)能够直接参与植物生长的光合作用、作为多种酶的活化剂、促进种子萌发,其含量研究具有十分重要的土壤学、生物学意义。土壤微量元素是否匮乏,一般不是计算其不同形态的总含量,而是取决于其有效态含量。锰离子的主要表现形式是Mn2+、Mn3+、Mn4+,在土壤中的保留方式主要有有机态锰、水溶态锰、代换态锰、矿物态锰及含锰的无机盐等方式。国内外学者普遍将交换态、水溶态与易还原态锰定义为有效态锰(Soil>

土壤调查与制图是生产区域土壤图的基本手段,在国内外的土壤资源管理、环境规划、植物营养分析方面均发挥重要作用。近三十年来,传统土壤调查,尤其是我国第二次全国普查,在我国取得了较为详尽的土壤资源调查清单,积累了宝贵的土壤数据,生产了一系列的土壤微量元素空间分布图。然而,由于现在耕作技术的日新月异,土壤微量元素含量也在近年来呈现快速变化的时空态势,历史土壤属性图已很难满足实时的农业规划需求。土壤有效锰(Soil Available Mn)含量预测方面,国内学者较多关注土壤有效锰含量的空间分布、空间变异特征、影响因素等宏观分析方法。在研究区域尺度上,主要集中在田间尺度、小流域尺度,在面积较大的区域尺度上研究较少,究其原因是土壤有效锰含量的空间异质性较高,很难采用一种预测模型来系统地预测所有区域的锰含量空间分布。

土壤类型对于土壤微量元素含量具有显著影响。土壤有效锰含量在特定的发生层内往往具有均质的特征,而土壤类型则是根据发生层类型与诊断特性进行划分的。受不同成土过程影响,土壤有效锰含量空间分布具有高度的空间异质性,经典Fisher统计理论在研究土壤性质空间变异规律方面存在明显不足。地统计学侧重于区域变量空间结构的分析与模拟,使用变异函数与变异曲线来表征区域化变量的空间离散程度。然而,地统计学的理论基础二阶平稳假设(区域化变量协方差存在且相同)在实际应用中欠缺考虑。多元线性回归模型通常被用作研究土壤性质和景观性质之间关系的基本分析工具,在基于土壤-景观模型的土壤属性预测中应用最为广泛,然而该方法通过全局探索性分析或相关分析来确定土壤属性和景观属性之间的关系具有一定的局限性。鉴于空间预测与地理位置的相关性,根据地理学第一定律,地理位置间的邻近促使数据具有不同的空间相关性,因此局部回归模型(地理加权回归模型)在近二十年来取得显著成效。该方法能够处理回归分析中空间非平稳现象。但是,该方法在处理离散变量(如土壤类型)时,将环境变量处理成哑变量,忽略了土壤有效锰含量在不同土壤类型内表现出的空间分布规律。

统计模型(线性回归模型,地统计学模型等)能够应对土壤信息高精度需求,通过对土壤-景观模型的定量化,实现土壤属性空间推理预测。由于土壤有效锰含量在不同土壤类型内表现出的潜在变异趋势,传统预测模型往往忽略了土壤类型这一变量的特殊性,从而导致土壤有效锰含量在具体的空间预测中面临诸多问题,归纳起来主要有:

(1)传统土壤制图基于“野外调查→室内判读→野外校核→定界成图”的工作方式已无法适应快速发展的精准农业、环境管理、土地管理需求,不同应用领域已对土壤微量元素的空间分布预测的精度、时效性提出更高要求。3S等一系列地理信息管理技术的普及迫切需要一种面向区域级别的空间分析、预测方法。

(2)在土壤分类方面,中国土壤系统分类级联地包含了土纲、亚纲、土类、亚类、土属和土系六个级别。不同土壤类型级别对应不同的土壤有效锰含量空间分布规律,将这些复杂的规则融合在一个基于规则网格的土壤属性空间分布图(栅格数据)上,难免会引起规则间冲突。究其原因,在模型训练规则化参数时,为了最小化模型拟合误差,规则化函数复杂度一般为单调递增函数,诸多规则导致模型复杂度急剧上升。而如果对每一级别土壤类型给出单独的规则数据,则会限制模型的使用。如何定量化土壤类型的级别对土壤制图影响,是提升定量模型泛化能力、制约统计模型应用的重要难点。

(3)不同的采样密度往往反映土壤有效锰含量的不同变异规律。最优采样密度的确定严重降低了土壤质量评价工作的准确性。理论上,高采样密度能提升预测精度,但过高的采样密度会导致人力、物力费用的快速增长。在最小化目标函数的时候综合度量不同采样密度的特征,虽能够获得更小的训练误差,但当预测不同采样密度土壤有效锰含量时,模型仅考虑自动选择的特征提取,约束模型的泛化能力。不同采样密度在空间预测模型的限制等致使预测结果往往存在不确定性,该不确定性通过随后的建模、分析以及决策等过程加以传递并对最终结果产生深刻影响。

(4)分析空间数据空间非平稳性是决定使用预测模型的先决条件。常规方法是将地理空间位置的线性函数集成至传统线性回归模型,采用最小二乘方法估计扩展参数,模型的参数随着空间位置的移动而改变。然而这种方法仍然属于趋势拟合的方法,当参数变化较为复杂时仍受到一定限制。如何根据不同采样密度下的空间平稳性探测情况采用合适的预测方法仍是土壤属性空间预测研究的挑战。

综上所述,对于上述分析出的不足,同样出现在土壤有效锰的其他分析应用方面。

发明内容

本发明所要解决的技术问题是提供基于土壤类型归并与多元回归的土壤锰含量预测方法,能够系统地涵盖不同土壤采样密度条件下,土壤有效锰含量的空间变异性分析、土壤类型归并,以及二阶平稳性测试三大关键技术环节,有效解决现有多元回归分析中具体模型的选择问题。

本发明为了解决上述技术问题采用以下技术方案:本发明设计了基于土壤类型归并与多元回归的土壤锰含量预测方法,包括如下步骤:

步骤1.分别获取待预测土壤区域中各个采样点分别所对应指定各个土壤信息指标,以及所对应土壤锰含量,并构建总数据集,同时,定义指定各个土壤信息指标为自变量,土壤锰含量为因变量;然后基于不同土壤采样密度,由总数据集构建验证数据集和至少两个训练数据集;

步骤2.分别针对各个训练数据集,基于归并土壤类型,获得训练数据集基于归并土壤类型级别的土壤锰含量变异系数数据集,并构建对应所有训练数据集中所有采集点的土壤锰含量变异系数直方图;同时,构建所有训练数据集分别对应于不同土壤类型级别的主成分分析散点图;然后基于土壤锰含量变异系数直方图和主成分分析散点图,确定土壤类型对不同采样密度土壤属性空间变异性影响的显著性;

步骤3.分别获得各个训练数据集分别所对应的最优自变量集合,并获得各个训练数据集分别对应其所有自变量的平稳性指数,判断自变量与因变量所构建模型是否满足二阶平稳性;

步骤4.根据土壤类型对土壤属性空间变异影响程度与二阶平稳假设测试结果,基于各个训练数据集,选择预测模型集合;

步骤5.采用预测模型集合针对其中一个训练数据集进行训练,遴选最优预测模型,针对待预测土壤区域进行预测,获得待预测土壤区域土壤锰含量空间分布图。

作为本发明的一种优选技术方案,所述步骤1包括如下步骤:

步骤1a.获得待预测土壤区域中各个采样点的投影坐标集Site,并获得相邻采样点之间的欧氏距离,然后针对待预测土壤区域中采样点的投影坐标进行调整更新,使得相邻采样点之间的欧氏距离不小于d,d表示待预测土壤区域指定各个土壤信息指标的空间分辨率;

步骤1b.预设时间、气候、母质、地形、生物五大要素分别所对应的土壤信息指标共同作为指定各个土壤信息指标,分别获取待预测土壤区域中各个采样点分别所对应指定各个土壤信息指标,作为自变量,构成Pred={X1,…,Xk,…,XK},k={1,…,K},K表示指定各个土壤信息指标的种类数,向量Xk表示各个采样点分别对应第k种指定土壤信息指标所构成的向量,为n×1向量,n表示采样点的总数;

步骤1c.获得待预测土壤区域中各个采样点分别所对应的土壤类型级别,并按各土壤类型级别分别所对应的采样点,构成Soil_T=(Type1,…,Typem,…,TypeM),Soil_T为n×M向量,m={1,…,M},Typem表示第m种土壤类型级别所对应的采集点,M表示土壤类型级别的种类;

步骤1d.以土壤锰含量为因变量,根据Pred、各个采样点所在位置土壤锰含量的集合S、Site、Soil_T,构建总数据集Data=(Pred,S,Site,Soil_T);同时,根据待预测土壤区域的面积,获得采样点所对应的采样密度Density;

步骤1e.以采样点为抽取对象,由总数据集Data中,任意提取占全部采样点预设比例数量的各个采样点所对应的数据,构成验证数据集,剩余采样点构成待选训练采样点集合;

步骤1f.以采样点为抽取对象,由总数据集Data中提取对应于待选训练采样点集合中采样点所对应的数据,构建至少两个训练数据集,并且,其中一个训练数据集所对应的采样点为待选训练采样点集合中的全部采样点,其余训练数据集所对应的采样点为待选训练采样点集合中的部分采样点。

作为本发明的一种优选技术方案,所述步骤1a中,针对待预测土壤区域中所有相邻采样点进行如下处理,实现针对待预测土壤区域中采样点投影坐标的调整更新,使得相邻采样点之间的欧氏距离不小于d:

若采样点p1与p2的欧氏距离小于d,以采样点p1为圆心,d为半径范围内的采样点个数为n1,以采样点p2为圆心,d为半径范围内的采样点个数为n2,若n1<n2,则调整p1的投影坐标,使采样点p1与采样点p2之间的欧氏距离为d+g;若n1≥n2,则调整p2的投影坐标,使采样点p1与采样点p2之间的欧氏距离为d+g;其中,d表示待预测土壤区域指定各个土壤信息指标的空间分辨率,g表示预设调整距离。

作为本发明的一种优选技术方案,所述步骤1b中,采用Z-score标准化方法针对Pred进行标准化,使其数据符合标准正态分布。

作为本发明的一种优选技术方案,所述步骤1f中,以采样点为抽取对象,由总数据集Data中提取对应于待选训练采样点集合中采样点所对应的数据,构建四个训练数据集,其中,各个训练数据集中向量行数分别为m,50%×m,25%×m,12%×m,其中,m表示待选训练采样点集合所对应采集点的个数。

作为本发明的一种优选技术方案,所述步骤2包括如下步骤:

步骤2a.分别针对各个训练数据集,根据如下公式,分别计算获得训练数据集所对应各土壤类型级别下土壤锰含量的变异系数CVm

则由该训练数据集所对应各土壤类型级别下土壤锰含量的变异系数CVm,构建该训练数据集基于土壤类型级别的土壤锰含量变异系数数据集,即获得各个训练数据集分别基于土壤类型级别的土壤锰含量变异系数数据集CV_Soil_T;其中,SDm与Meanm为第m种土壤类型级别下土壤锰含量的标准偏差与平均值;

步骤2b.分别针对各个训练数据集,针对训练数据集所对应各土壤类型级别的土壤数据,分别采用Duncan法进行多组样本间差异显著性分析,获得该训练数据集所对应的显著性分析结果,即获得各个训练数据集分别所对应的Duncan分析结果Dun_S;

步骤2c.分别针对各个训练数据集,根据训练数据集所对应的Duncan分析结果Dun_S,以及该训练数据集所对应的不同土壤类型级别,针对该训练数据集所对应的各个土壤类型进行归并处理,并计算更新该训练数据集所对应各土壤类型级别下土壤锰含量的变异系数,构建该训练数据集基于归并土壤类型级别的土壤锰含量变异系数数据集,即获得各个训练数据集分别基于归并土壤类型级别的土壤锰含量变异系数数据集CV_Soil_T_Dun;

步骤2d.根据各个训练数据集分别基于归并土壤类型级别的土壤锰含量变异系数数据集CV_Soil_T_Dun,构建对应所有训练数据集中所有采集点的土壤锰含量变异系数直方图;

步骤2e.采用主成分分析法,根据各个训练数据集中各采集点分别所属土壤类型级别,针对所有训练数据集,构建分别对应于不同土壤类型级别的主成分分析散点图;

步骤2f.基于土壤锰含量变异系数直方图和主成分分析散点图,确定土壤类型对不同采样密度土壤属性空间变异性影响的显著性。

作为本发明的一种优选技术方案,所述步骤3包括如下步骤:

步骤3a.通过逐步回归方法,分别获得各个训练数据集所对应的最优自变量集合Pred_OLS;

步骤3b.分别针对各个训练数据集,根据训练数据集所对应的最优自变量集合Pred_OLS,使用地理加权回归方法对训练数据集进行模型拟合,获得该训练数据集所对应采集点的回归系数集Coeff;

步骤3c.分别针对各个训练数据集,根据训练数据集,以及该训练数据集所对应的最优自变量集合Pred_OLS,计算获得该训练数据集所对应多元回归分析模型的标准差,即获得各个训练数据集分别所对应多元回归分析模型的标准差STDMLR

步骤3d.分别针对各个训练数据集,根据如下公式:

计算获得训练数据集对应所有自变量的平稳性指数SI,即获得各个训练数据集分别对应其所有自变量的平稳性指数SI,式中,INTQGWR表示训练数据集所对应采集点回归系数的四分位距;

步骤3e.计算获得各个训练数据集分别对应其所有自变量平稳性指数SI的均值Average_SI;

步骤3f.根据Average_SI与1的比较,判断自变量与因变量所构建模型是否满足二阶平稳性。

作为本发明的一种优选技术方案,所述步骤4包括如下步骤:

步骤4a.分别针对各个训练数据集,采用地统计分析方法,构建获得训练数据集的最优半变异函数模型,并计算其空间有效距离与模型确定系数;

步骤4b.若所有训练数据集最优半变异函数模型的模型确定系数均大于0.5,且块金值与基台值的比值均小于25%,则所有训练数据集使用地统计模型,并进入步骤4c;否则所有训练数据集不使用地统计模型,并进入步骤4d;

步骤4c.根据步骤2、步骤3与步骤4b的结论,即土壤类型对土壤属性空间变异影响程度与二阶平稳假设测试结果,按如下选择预测模型:

若土壤类型对土壤属性空间变异影响不显著、且满足二阶平稳性假设,则选择多元回归和地统计构成预测模型集合;

若土壤类型对土壤属性空间变异影响不显著、不满足二阶平稳性假设,则选择多元回归和地理加权回归构成预测模型集合;

若土壤类型对土壤属性空间变异影响显著、满足二阶平稳性假设,则选择多元回归和分区地统计模型构成预测模型集合;

若土壤类型对土壤属性空间变异影响显著、不满足二阶平稳性假设,则选择多元回归、地理加权回归和分区地理加权回归构成预测模型集合;

步骤4d.根据步骤2、步骤3与步骤4b的结论,也即土壤类型对土壤属性空间变异影响程度与二阶平稳假设测试结果,按如下选择预测模型:

若土壤类型对土壤属性空间变异影响不显著、满足二阶平稳性假设,则选择多元回归、回归克里格构成预测模型集合;

若土壤类型对土壤属性空间变异影响不显著、不满足二阶平稳性假设,则选择多元回归和地理加权回归构成预测模型集合;

若土壤类型对土壤属性空间变异影响显著、满足二阶平稳性假设,则选择多元回归构成预测模型集合;

若土壤类型对土壤属性空间变异影响显著、不满足二阶平稳性假设,则选择多元回归、地理加权回归和分区地理加权回归构成预测模型集合。

作为本发明的一种优选技术方案,所述步骤5包括如下步骤:

步骤5a.基于采样点为待选训练采样点集合中全部采样点的训练数据集,针对步骤4所获预测模型集合中的模型进行训练,获得经过训练的预测模型集合;

步骤5b.采用经过训练的预测模型集合中的模型针对验证数据集中各个采集点的土壤锰含量进行预测,并根据验证数据集,计算获得预测模型集合中模型预测的均方根误差;

步骤5c.重复步骤5b预设次数,计算每次交叉验证的均方根误差均值,并选择最小均方根误差均值所对应的模型作为最优预测模型,构成最优预测模型集合;

步骤5d.根据步骤3a所获各个训练数据集所对应的最优自变量集合Pred_OLS,获得待预测土壤区域中非采集点所对应的自变量数据;

步骤5e.采用步骤5c中所获最优预测模型集合,以及步骤5d所获自变量数据,针对待预测土壤区域中非采集点的土壤锰含量进行预测,实现针对待预测土壤区域的土壤锰含量预测,获得待预测土壤区域土壤锰含量空间分布图。

作为本发明的一种优选技术方案,所述步骤5a中,若所述步骤4所获预测模型集合中包括分区地理加权回归或分区地统计模型,则针对分区地理加权回归的训练方法如下:

将归并的土壤类型的区域作为单独的研究区域,通过如下基于土壤类型的分区地理加权回归模型:

进行局部模型的训练,其中,(ui,vi)是样点i的坐标,β0(ui,vi),βk(ui,vi)与εi分别代表局部回归中的常数项、局部回归系数与预测偏差,s表示归并后的土壤类型分类变量,m表示归并后的土壤类型总数。

本发明所述基于土壤类型归并与多元回归的土壤锰含量预测方法采用以上技术方案与现有技术相比,具有以下技术效果:

(1)本发明设计的基于土壤类型归并与多元回归的土壤锰含量预测方法,能够更加准确地模拟变量的空间分异特征,同时,通过土壤类型归并操作能够更好地体现土壤-景观模型中最小地理单元,提升预测模型的泛化能力,进而防止模型过分拟合训练数据。在未来土壤类型数据更新的条件下能够快速地根据独立变量与土壤属性的相关性最小化训练误差,提供比传统多元回归分析方法更高的计算效率与预测精度;

(2)本发明设计的基于土壤类型归并与多元回归的土壤锰含量预测方法中,提出综合测试二阶平稳性假设机制,可以集成使用多种现有的测试方法,通过对比分析全局多元线性回归与局部加权回归的模型系数,探测目标属性在不同空间尺度上的最优特征选择,提升模型的解释性,确定最适宜预测模型,避免盲目地采用单一预测模型所带来的预测误差。该方法也避免了使用一种二阶平稳性假设测试技术的局限性,综合测试机制具有更高的普适性与稳定性,具有广阔的工业化应用前景;

(3)本发明设计的基于土壤类型归并与多元回归的土壤锰含量预测方法中,通过增加采样密度的方式综合分析土壤属性的空间异质性,更能够准确地度量高采样密度条件下土壤属性所存在的潜在空间变异规律,进而在预测精度不降低的情况下,有望在一定程度上降低样点数量,进而降低未来区域级采样的花费。

附图说明

图1是因变量与自变量数据集构建的主要流程图;

图2a是相邻采样点两两间欧氏距离小于自变量数据图层空间分辨率示意图;

图2b是样点位置微移后示意图

图3是基于统计方法与主成分方法不同土壤类型下土壤属性的空间变异性综合分析流程图;

图4是训练数据集的二阶平稳性假设测试流程图;

图5是选择最优预测模型并预测土壤属性空间分布的流程图;

图6是对本发明实施例中不同土壤类型、土壤类型归并后、采样密度的变异系数直方图;

图7a是本发明实施例中使用多元回归方法预测的土壤有效锰含量空间分布图;

图7b是本发明实施例中使用分区地理加权回归方法预测的土壤有效锰含量空间分布图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明属于面向计量土壤学中土壤属性空间预测的分析方法,涉及土壤微量元素在不同土壤类型内表现出的不同空间变异特征的分治处理,能够通过分析土壤有效锰含量空间分布的离散程度来探测其空间异质性,并能够通过局部回归分析诊断出局部回归分析中的多重共线性问题。特别是在空间预测过程中,通过测度不同土样采样密度下土壤有效锰含量空间分布特征构建综合预测模型。

本发明设计了基于土壤类型归并与多元回归的土壤锰含量预测方法,具体包括如下步骤:

步骤1.如图1所示,分别获取待预测土壤区域中各个采样点分别所对应指定各个土壤信息指标,以及所对应土壤锰含量,并构建总数据集,同时,定义指定各个土壤信息指标为自变量,土壤锰含量为因变量;然后基于不同土壤采样密度,由总数据集构建验证数据集和至少两个训练数据集。

其中,步骤1包括如下步骤:

步骤1a.获得待预测土壤区域中各个采样点的投影坐标集Site,并获得相邻采样点之间的欧氏距离,然后针对待预测土壤区域中采样点的投影坐标进行调整更新,使得相邻采样点之间的欧氏距离不小于d,d表示待预测土壤区域指定各个土壤信息指标的空间分辨率。其中,如图2a和图2b所示,步骤1a中,针对待预测土壤区域中所有相邻采样点进行如下处理,实现针对待预测土壤区域中采样点投影坐标的调整更新,使得相邻采样点之间的欧氏距离不小于d:

若采样点p1与p2的欧氏距离小于d,以采样点p1为圆心,d为半径范围内的采样点个数为n1,以采样点p2为圆心,d为半径范围内的采样点个数为n2,若n1<n2,则调整p1的投影坐标,使采样点p1与采样点p2之间的欧氏距离为d+g;若n1≥n2,则调整p2的投影坐标,使采样点p1与采样点p2之间的欧氏距离为d+g;其中,d表示待预测土壤区域指定各个土壤信息指标的空间分辨率,g表示预设调整距离。

步骤1b.预设时间、气候、母质、地形、生物五大要素分别所对应的土壤信息指标共同作为指定各个土壤信息指标,分别获取待预测土壤区域中各个采样点分别所对应指定各个土壤信息指标,作为自变量,构成Pred={X1,…,Xk,…,XK},k={1,…,K},K表示指定各个土壤信息指标的种类数,向量Xk表示各个采样点分别对应第k种指定土壤信息指标所构成的向量,为n×1向量,n表示采样点的总数,然后,采用Z-score标准化方法针对Pred进行标准化,使其数据符合标准正态分布。

步骤1c.获得待预测土壤区域中各个采样点分别所对应的土壤类型级别,并按各土壤类型级别分别所对应的采样点,构成Soil_T=(Type1,…,Typem,…,TypeM),Soil_T为n×M向量,m={1,…,M},Typem表示第m种土壤类型级别所对应的采集点,M表示土壤类型级别的种类。

步骤1d.以土壤锰含量为因变量,根据Pred、各个采样点所在位置土壤锰含量的集合S、Site、Soil_T,构建总数据集Data=(Pred,S,Site,Soil_T);同时,根据待预测土壤区域的面积,获得采样点所对应的采样密度Density。

步骤1e.以采样点为抽取对象,由总数据集Data中,任意提取占全部采样点预设比例数量的各个采样点所对应的数据,构成验证数据集,剩余采样点构成待选训练采样点集合。

步骤1f.以采样点为抽取对象,由总数据集Data中提取对应于待选训练采样点集合中采样点所对应的数据,构建至少两个训练数据集,并且,其中一个训练数据集所对应的采样点为待选训练采样点集合中的全部采样点,其余训练数据集所对应的采样点为待选训练采样点集合中的部分采样点,上述步骤1f,实际应用中,具体可以设计为以采样点为抽取对象,由总数据集Data中提取对应于待选训练采样点集合中采样点所对应的数据,构建四个训练数据集,其中,各个训练数据集中向量行数分别为m,50%×m,25%×m,12%×m,其中,m表示待选训练采样点集合所对应采集点的个数。

步骤2.分别针对各个训练数据集,基于归并土壤类型,获得训练数据集基于归并土壤类型级别的土壤锰含量变异系数数据集,并构建对应所有训练数据集中所有采集点的土壤锰含量变异系数直方图;同时,构建所有训练数据集分别对应于不同土壤类型级别的主成分分析散点图;然后基于土壤锰含量变异系数直方图和主成分分析散点图,确定土壤类型对不同采样密度土壤属性空间变异性影响的显著性。

如图3所示,上述步骤2包括如下步骤:

步骤2a.分别针对各个训练数据集,根据如下公式,分别计算获得训练数据集所对应各土壤类型级别下土壤锰含量的变异系数CVm

则由该训练数据集所对应各土壤类型级别下土壤锰含量的变异系数CVm,构建该训练数据集基于土壤类型级别的土壤锰含量变异系数数据集,即获得各个训练数据集分别基于土壤类型级别的土壤锰含量变异系数数据集CV_Soil_T;其中,SDm与Meanm为第m种土壤类型级别下土壤锰含量的标准偏差与平均值。

步骤2b.分别针对各个训练数据集,针对训练数据集所对应各土壤类型级别的土壤数据,分别采用Duncan法进行多组样本间差异显著性分析,获得该训练数据集所对应的显著性分析结果,即获得各个训练数据集分别所对应的Duncan分析结果Dun_S。

步骤2c.分别针对各个训练数据集,根据训练数据集所对应的Duncan分析结果Dun_S,以及该训练数据集所对应的不同土壤类型级别,针对该训练数据集所对应的各个土壤类型进行归并处理,并计算更新该训练数据集所对应各土壤类型级别下土壤锰含量的变异系数,构建该训练数据集基于归并土壤类型级别的土壤锰含量变异系数数据集,即获得各个训练数据集分别基于归并土壤类型级别的土壤锰含量变异系数数据集CV_Soil_T_Dun。

步骤2d.根据各个训练数据集分别基于归并土壤类型级别的土壤锰含量变异系数数据集CV_Soil_T_Dun,构建对应所有训练数据集中所有采集点的土壤锰含量变异系数直方图。

步骤2e.采用主成分分析法,根据各个训练数据集中各采集点分别所属土壤类型级别,针对所有训练数据集,构建分别对应于不同土壤类型级别的主成分分析散点图。

步骤2f.基于土壤锰含量变异系数直方图和主成分分析散点图,确定土壤类型对不同采样密度土壤属性空间变异性影响的显著性。

步骤3.分别获得各个训练数据集分别所对应的最优自变量集合,并获得各个训练数据集分别对应其所有自变量的平稳性指数,判断自变量与因变量所构建模型是否满足二阶平稳性。

如图4所示,上述步骤3包括如下步骤:

步骤3a.通过逐步回归方法,分别获得各个训练数据集所对应的最优自变量集合Pred_OLS。

步骤3b.分别针对各个训练数据集,根据训练数据集所对应的最优自变量集合Pred_OLS,使用地理加权回归方法对训练数据集进行模型拟合,获得该训练数据集所对应采集点的回归系数集Coeff。

步骤3c.分别针对各个训练数据集,根据训练数据集,以及该训练数据集所对应的最优自变量集合Pred_OLS,计算获得该训练数据集所对应多元回归分析模型的标准差,即获得各个训练数据集分别所对应多元回归分析模型的标准差STDMLR

步骤3d.分别针对各个训练数据集,根据如下公式:

计算获得训练数据集对应所有自变量的平稳性指数SI,即获得各个训练数据集分别对应其所有自变量的平稳性指数SI,式中,INTQGWR表示训练数据集所对应采集点回归系数的四分位距。

步骤3e.计算获得各个训练数据集分别对应其所有自变量平稳性指数SI的均值Average_SI。

步骤3f.根据Average_SI与1的比较,判断自变量与因变量所构建模型是否满足二阶平稳性。

步骤4.根据土壤类型对土壤属性空间变异影响程度与二阶平稳假设测试结果,基于各个训练数据集,选择预测模型集合;具体包括如下步骤:

步骤4a.分别针对各个训练数据集,采用地统计分析方法,构建获得训练数据集的最优半变异函数模型,并计算其空间有效距离与模型确定系数。

步骤4b.若所有训练数据集最优半变异函数模型的模型确定系数均大于0.5,且块金值与基台值的比值均小于25%,则所有训练数据集使用地统计模型,并进入步骤4c;否则所有训练数据集不使用地统计模型,并进入步骤4d。

步骤4c.根据步骤2、步骤3与步骤4b的结论,即土壤类型对土壤属性空间变异影响程度与二阶平稳假设测试结果,按如下选择预测模型:

若土壤类型对土壤属性空间变异影响不显著、且满足二阶平稳性假设,则选择多元回归和地统计构成预测模型集合;

若土壤类型对土壤属性空间变异影响不显著、不满足二阶平稳性假设,则选择多元回归和地理加权回归构成预测模型集合;

若土壤类型对土壤属性空间变异影响显著、满足二阶平稳性假设,则选择多元回归和分区地统计模型构成预测模型集合;

若土壤类型对土壤属性空间变异影响显著、不满足二阶平稳性假设,则选择多元回归、地理加权回归和分区地理加权回归构成预测模型集合;

步骤4d.根据步骤2、步骤3与步骤4b的结论,也即土壤类型对土壤属性空间变异影响程度与二阶平稳假设测试结果,按如下选择预测模型:

若土壤类型对土壤属性空间变异影响不显著、满足二阶平稳性假设,则选择多元回归、回归克里格构成预测模型集合;

若土壤类型对土壤属性空间变异影响不显著、不满足二阶平稳性假设,则选择多元回归和地理加权回归构成预测模型集合;

若土壤类型对土壤属性空间变异影响显著、满足二阶平稳性假设,则选择多元回归构成预测模型集合;

若土壤类型对土壤属性空间变异影响显著、不满足二阶平稳性假设,则选择多元回归、地理加权回归和分区地理加权回归构成预测模型集合。

步骤5.采用预测模型集合针对其中一个训练数据集进行训练,遴选最优预测模型,针对待预测土壤区域进行预测,获得待预测土壤区域土壤锰含量空间分布图,如图5所示,具体包括如下步骤:

步骤5a.基于采样点为待选训练采样点集合中全部采样点的训练数据集,针对步骤4所获预测模型集合中的模型进行训练,获得经过训练的预测模型集合。其中,若所述步骤4所获预测模型集合中包括分区地理加权回归或分区地统计模型,则针对分区地理加权回归的训练方法如下:

将归并的土壤类型的区域作为单独的研究区域,通过如下基于土壤类型的分区地理加权回归模型:

进行局部模型的训练,其中,(ui,vi)是样点i的坐标,β0(ui,vi),βk(ui,vi)与εi分别代表局部回归中的常数项、局部回归系数与预测偏差,s表示归并后的土壤类型分类变量,m表示归并后的土壤类型总数。

步骤5b.采用经过训练的预测模型集合中的模型针对验证数据集中各个采集点的土壤锰含量进行预测,并根据验证数据集,计算获得预测模型集合中模型预测的均方根误差。

步骤5c.重复步骤5b预设次数,计算每次交叉验证的均方根误差均值,并选择最小均方根误差均值所对应的模型作为最优预测模型,构成最优预测模型集合。

步骤5d.根据步骤3a所获各个训练数据集所对应的最优自变量集合Pred_OLS,获得待预测土壤区域中非采集点所对应的自变量数据。

步骤5e.采用步骤5c中所获最优预测模型集合,以及步骤5d所获自变量数据,针对待预测土壤区域中非采集点的土壤锰含量进行预测,实现针对待预测土壤区域的土壤锰含量预测,获得待预测土壤区域土壤锰含量空间分布图。

接下来,将本发明所设计基于土壤类型归并与多元回归的土壤锰含量预测方法,应用到亳州市土壤有效锰含量预测上,具体如下:

与土壤大量元素不同,土壤锰元素的富集与缺乏都会导致农作物生长受阻。例如,植物缺锰后,其幼叶或老叶上会出现不同程度的缺绿斑点。当植物叶片锰含量大于600mg/kg时,会出现锰中毒,引起缺铁失绿、叶子萎焉下垂等情况。因此,根据有限的土壤样点数据与易获取的自变量(成土影响因素)预测未采样区域的土壤有效锰含量具有重要实用价值。

基于土壤类型归并与多元回归的土壤有效锰含量预测方法过程为:

第一步、构建不同采样密度的训练数据集与验证数据集

(一):准备影响土壤形成与演化的地理数据图层,提取土壤采样点位置信息,并将所有数据合并到一个数据集中。

(二):将采样点的土壤类型的不同级别信息提取并更新到数据集中Data=(Pred,S,Site,Soil_T)=(X1,X2,…,XK,S,Long,Lati,Type1,Type2,…,TypeM)。

(三):计算相邻采样点两两间欧氏距离,更新距离过小的样点的坐标,更新数据集Data=(Pred,S,Site,Soil_T)。

(1.d):计算样点的采样密度,并根据采样密度构建验证数据集与训练数据集。假设采样点数目为m,验证数据集数据量为20%×m,构建4个训练数据集(d1,d2,d3,d4),数据量分别为80%×m,40%×m,20%×m,10%×m。

第二步、采用统计方法与主成分方法分析不同土壤类型下土壤属性的空间变异性

(一):中国土壤系统分类级联地包含了土纲、亚纲、土类、亚类、土属和土系六个级别。这里以土类为例,计算训练数据集训练数据集(d1,d2,d3,d4)在每一种土壤类型区域内的变异系数CV。该区域包含了6种土壤类型,分别表示为(s1,s2,s3,s4,s5,s6)。

(二):使用Duncan法对训练数据集d1进行多组样本间差异显著性分析,6种土壤类型归并为两大类,即gs1,gs2。

(三):计算不同采样密度数据的训练数据集(d1,d2,d3,d4)在归并后土壤类型区域的变异系数,如图6所示。

(四):在不同土壤类型级别下,针对每一个土壤类型对不同采样密度训练数据集执行主成分分析。综合分析步骤生成的直方图与主成分散点图,确定土壤类型对不同采样密度土壤属性空间变异性影响的显著性。分析结果显示:该区域土壤属性的空间变异受土壤类型的影响显著。

第三步、使用多种回归方法与地理加权回归模型测试训练数据集的二阶平稳性假设

(一):通过逐步回归方法选择最优自变量集合;

(二):使用地理加权回归方法对训练数据集d1进行模型拟合,记录所有样点的回归系数;

(三):计算d1多元回归分析模型的标准差;

(四):计算d1数据集所有自变量的平稳性指数;

(五)重复(二)-(四)步,计算d1、d2、d3、d4数据集自变量的平稳性指数,并计算其均值。其均值大于1,说明不满足二阶平稳性假设。

第四步、根据土壤类型对土壤属性空间变异影响程度与二阶平稳假设测试结果,选择预测模型集合

(一):使用地统计分析方法,构建所有训练数据集的半变异函数模型。所有训练数据集的最优半变异函数模型的确定系数均小于0.5,数据的空间相关程度较低,不适宜使用地统计模型,模型选择集合为(多元回归、地理加权回归);

(二):鉴于该研究区的土壤有效锰含量受土壤类型影响显著、不满足二阶平稳性假设,模型选择集合为(多元回归、地理加权回归、分区地理加权回归);

第五步、基于蒙特卡洛模拟方法,使用选择的模型集合对训练数据集进行训练,遴选最优预测方法预测生成结果文件

(一):使用上述步骤的预测方法,训练土壤属性与自变量的预测模型,并记录每次的计算精度(使用均方根误差);

(二):重复上述步骤1000次,取计算精度均值作为评估每种方法的指标。较差验证结果显示多元回归方法的预测精度最低,分区地理加权回归方法的预测精度最高;

(三):为对比分析结果出现的不确定性,使用最差与最优的预测模型进行制图输出。使用多元回归方法、分区地理加权回归模型与研究区域内未采样点的自变量数据,生成预测数据,并输出,分别如图7a、7b所示。

基于以上分析,示例案例的预测结果如图7a、7b所示,本发明综合测试二阶平稳性假设机制可以集成使用多种现有的测试方法,通过对比分析全局多元线性回归与局部加权回归的模型系数,探测目标属性在不同空间尺度上的最优特征选择,提升模型的解释性,确定最适宜预测模型,避免盲目地采用单一预测模型所带来的预测误差。本方法具有很好的可行性和稳定性,不仅可以面向土壤类型归并,也可以考虑将植被类型、土地利用类型等对土壤发生过程具有重要影响的变量,精度验证机制可望取得较为理想的预测精度。此方法有待于在更多的领域内应用,以检验其性能。

上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号