首页> 中国专利> 面向露头地质体岩层分层的空间随机森林算法

面向露头地质体岩层分层的空间随机森林算法

摘要

本发明公开了一种面向露头地质体岩层分层的空间随机森林算法,涉及地质勘探技术领域;方法包括:基于倾斜摄影测量数据构建露头岩层三维点云模型,对露头岩层三维点云模型进行体元分割,构建岩层体元空间特征与属性特征集成表达模型,以表达模型构建空间决策树,通过空间决策树构建空间随机森林算法,将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别。以地理信息科学为理论基础,结合地质体岩层特性从点云数据中提取其属性特征和空间特征,基于经典随机森林算法提出了空间随机森林算法,并将之应用于露头地质体岩层类别识别,以实现对露头地质体的自动化岩层分层,为露头地质体的进一步研究奠定基础。

著录项

说明书

技术领域

本发明涉及地质勘探技术领域,尤其涉及一种面向露头地质体岩层分层的空间随机 森林算法。

背景技术

露头地质体是地上地质结构具有代表性的研究对象之一,常常作为地质研究工作的首要目标。岩层划分是分析露头地质体结构的基础,对岩层的准确划分有助于分析地 质体的尖灭位置、与其它地质体的叠置关系、空间展布规律等信息。

人工野外地质考察是岩层划分的主要方法,但地质结构的复杂性导致资料获取难度大、时间长、效率低,资料本身连续性差、局部精度差异大;岩层划分常常依赖于研 究人员的知识与经验,不同研究人员的分层结果和其精度往往有一定差异。而且,传统 方法针对地势陡峭的岩层划分显得极为困难,甚至于不可行。虽然目前出现了一些地层 分层、岩层分层的新方法,但仍旧缺少能够得到高精度分层结果的自动化分层方法。

倾斜摄影测量技术是指通过多台传感器,从不同视角对同一地物进行多次影像数据采集的测量方法。倾斜摄影测量技术能够最大化获取到地物带有空间位置信息的倾斜影像数据,这些数据具有很高的准确性和完整性,它颠覆了传统摄影测量技术。点云数 据是倾斜摄影测量数据的衍生数据,特征提取是点云分类的前提,提取出的特征是得到 理想分类结果的关键之一。强度信息、几何信息、表面粗糙度等属性信息是分类的常用 特征;由于点云携带有坐标信息,因此基于点的空间结构和空间关系得到的空间特征也 逐渐应用于分类中,但其仍旧处于初级阶段。

随机森林(Random Forest,RF)算法能够训练样本并预测输入数据类别,即对数据进行分类。随机森林具有良好的性能表现,且其抗干扰能力很强;理论上的随机森林 不会产生过拟合现象,且即使在现实中存在不可忽略的噪声影响,随机森林也有较强的 抗过拟合能力。随着机器学习的高速发展和对随机森林算法的深入研究,随机森林算法 也逐渐应用于地学领域,如裂缝预测、地学知识图谱的建立、地上生物量和森林冠层覆 盖度估算、不连续林地叶面积指数反演、地震属性中河道砂体识别等。随机森林算法的 核心是数据的特征,但目前这些使用随机森林算法来分类的特征主要是基于应用领域内 的专业知识而提取的属性特征,缺乏空间特征,而地学研究对象内或对象间普遍存在着 空间关系、空间场景、空间邻近等空间特征,挖掘并集成这些空间特征,进一步开展集 成空间语义计算的随机森林算法研究,来解决这些研究对象的分类问题是一个有价值且 较新的研究方向。

发明内容

本发明提供了一种面向露头地质体岩层分层的空间随机森林算法,用以解决现有技 术存在的上述问题。方法包括:

步骤S11,基于倾斜摄影测量数据构建露头岩层三维点云模型;

步骤S12,对露头岩层三维点云模型进行体元分割;

步骤S13,构建岩层体元空间特征与属性特征集成表达模型;

步骤S14,以表达模型构建空间决策树,通过空间决策树构建空间随机森林算法;

步骤S15,将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别。

优选地,所述基于倾斜摄影测量数据构建露头岩层三维点云模型包括如下步骤:

步骤S111,获取倾斜摄影测量数据;

步骤S112,设置坐标值范围,去除倾斜摄影测量数据中的无关地物数据;

步骤S113,通过去除无关地物数据后的倾斜摄影测量数据构建露头岩三维点云模型。

优选地,对露头岩层三维点云模型进行体元分割采用八叉树构建算法,包括如下步骤:

步骤S121,将露头地质体所在的三维空间作为一个体元,并设定一个长度阈值,该长度阈值表示最小体元的边长;

步骤S122,将当前体元分割成八个相同的子体元,子体元具有相同的级别和大小;

步骤S123,依次判断当前级别体元是否包含点云数据,若不包含则忽略该体元,则该体元不再参与计算;

步骤S124,将当前级别体元的边长与设定的长度阈值相比较,若大于长度阈值,则继续分割;若小于长度阈值,则结束当前级别体元的分割;

步骤S125,递归地调用步骤S122~步骤S124直到所有体元都结束分割。

优选地,所述岩层体元空间特征与属性特征集成表达模型构建包括如下步骤:

基于倾斜摄影测量数据获取体元所包含点云数据的R、G、B各自的平均值,和露 头剖面在体元所在区域的表面粗糙度作为属性特征;

获取空间场景特征和空间度量关系特征作为空间特征。

优选地,所述露头剖面在体元所在区域的表面粗糙度,具体为对体元内所有点云数据使用总体最小二乘法得到一个拟合平面,所有点云数据到拟合平面的标准差设为该体元的粗糙程度。

优选地,所述空间度量关系特征以每个体元中心点的空间坐标值(x,y,z)以及 该体元所在位置的产状信息表示,产状信息的获取包括如下步骤:

从露头岩层表面任选不共线的三点,即确定一平面,此平面作为岩层层面,其产状为

式中,

V=(ID,X,Y,Z,R,G,B,A,E,C) (2)

式中,ID表示体元的索引,id为其值;用X、Y、Z表示三维空间,x、y、z分别 为其对应的值,则(x,y,z)表示一个体元的位置;用R、G、B表示颜色空间,r、g、b 分别为其对应的值,则(r,g,b)表示一个体元的颜色;用A表示粗糙度,a表示其对应 的值;用E表示产状,

优选地,统计所有样本的产状,用es表示,若共有Λ组产状,则

若体元V

设每个体元都有与es相对应的一组垂直距离值h=(h

待分类体元VW和所有样本VS,待分类体元VW的空间度量关系特征值的求取方 法为:

步骤S131,对于体元VW的垂直距离值h

步骤S132,若有且仅有

步骤S133,若有且仅有

步骤S134,若

步骤S135,根据步骤S134~步骤S134,在VW垂直正方向和垂直负方向上分别获 得至多Λ组(+Δh,c)和(-Δh,c),将这Λ组值记作类别集cs,则至多包含(2×Λ)个类别c,则VW所属类别在类别集cs中;

步骤S136,设置阈值Ω,Ω须大于地质体最大岩层真厚度,则满足条件|±Δh|>Ω的+Δh或-Δh对应的类别不为VW所属的类别,从类别集cs中删除对应的组;

步骤S137,对于所有+Δh和-Δh,分别有最小绝对值|+Δh|

步骤S138,使类别集cs中只留下类别值,并对其进行去重,最后得到的类别集cs包含VW所属类别;

用M表示空间度量关系特征,m表示其值,则待分类体元的空间度量关系特征值 m=cs;当共Λ组产状,Γ个类别时,待分类体元的空间度量关系特征值m至少有1个 分量,至多有Λ(Λ≤Γ)个分量或Γ(Γ<Λ)个分量,当分量个数为1时,该分量的 值即为该体元类别;对于样本,其类别为c

则,对于任意一个体元V,都有表达式(3):

V=(ID,X,Y,Z,R,G,B,A,E,M,C) (3)

当体元V在特征M的值m只有一个分量时,其类别值c=m;当值m有多个分量 时,其类别值c∈m。

优选地,所述空间场景特征采用FPFH表示,FPFH计算过程包括如下步骤:

步骤S231,对点云模型中的任意一个点P求取其切平面的法向量;

步骤S232,找到距离点P最近的k个点,这k个点称为点P的k邻近集;

步骤S233,对于点P与其k邻近集点中的点P

其中,

步骤S234,根据原点O得到其坐标系(κ,ρ,ι)的表达式(5):

步骤S235,平移原点O的坐标系(κ,ρ,ι)到目标点Q,点O与点Q的空间关系用 一组角度相关的值来表示,见公式(6):

其中,θ为目标点Q的法向量

其中,

步骤S236,对点P与其k邻近集中每个点都进行S233~S235的运算,得到k个三 元组

步骤S237,点P在

步骤S238,对体元中每个点都进行步骤S231~步骤S237,则体元内的每个点都得到一个SPFH;对于任意一个体元V,通过公式(8)得到其快速点特征直方图FPFH:

其中,P为体元的中心点,η为体元内除中心点的点的数量,P

每个体元根据上述步骤都得到一个自己的FPFH频率分布图,每个FPFH共有τ个 区间,用s=(s

V=(ID,X,Y,Z,R,G,B,A,E,M,S,C) (9)

其中,各标识的含义与公式(2)相同,S=s。

优选地,每一个体元为随机森林的输入数据,体元的属性特征和空间特征为输入特征,如式(10)所示:

V=(R,G,B,A,M,S) (10)

定义以空间度量关系特征为根结点构建的决策树为空间决策树,对于训练样本集VTS、空间度量关系特征M和所有数据在空间度量关系特征M的取值m、其它特征组 成的特征集FS,建立空间决策树ST的算法为:

步骤S141,输入训练样本集VTS、所有体元在空间度量关系特征M的取值m、空 间度量关系特征M和特征集FS;

步骤S142,构建根结点,将训练样本集放在根结点;

步骤S143,判断训练样本集VTS是否为同一类,若为同一类,则类别值为根结点值,根结点也为叶结点,返回决策树;

步骤S144,若不为同一类,则设置空间度量关系特征M为根结点值,将所有数据 在空间度量关系特征M的取值m放在根结点;

步骤S145,根据所有取值m建立根结点的分支,每一个取值对应一个分支;

步骤S146,若第i个取值m

步骤S147,若第i个取值m

步骤S148,对m的所有分支按步骤S146~步骤S147建立叶结点或子决策树后, 返回决策树。

优选地,所述将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别具体为:对随机森林中的每棵决策树,递归地根据决策树的结点找到体元对应的特征值,根据该特征值进入决策树中该结点对应的分支,最终得到体元的类别;统计随机森林中 所有决策树对体元的分类结果,数量最多的类别即是随机森林对体元预测的类别。

本发明的有益效果为:

倾斜摄影测量数据中提取三维点云数据并构建体元模型,以地理信息科学为理论基 础,结合地质体岩层特性从点云数据中提取其属性特征和空间特征,基于经典随机森林算法提出了空间随机森林算法,并将之应用于露头地质体岩层类别识别,以实现对露头 地质体的自动化岩层分层,为露头地质体的进一步研究奠定基础。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而 可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技 术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明实施例提供的面向露头地质体岩层分层的空间随机森林算法的流程图;

图2为本发明实施例提供的研究区露头地质体位置图;

图3为本发明实施例提供的点云模型去除无关地物前的图像;

图4为本发明实施例提供的点云模型去除无关地物后的图像;

图5为本发明实施例提供的八叉树算法示意图;

图6为本发明实施例提供的地质体的产状及其与法向量的关系示意图;

图7为本发明实施例提供的体元间垂直距离的转换示意图;

图8为本发明实施例提供的空间度量关系特征在决策树中的应用示意图;

图9为本发明实施例提供的点P与其k邻近集的示意图;

图10为本发明实施例提供的原点与目标点的空间关系的示意图;

图11为本发明实施例提供的点P与其k邻近集在

图12为本发明实施例提供的特征S在空间随机森林中的应用方式;

图13为本发明实施例提供的体元模型局部示意图;

图14为本发明实施例提供的露头模型样本选择示意图;

图15为本发明实施例提供的基于属性特征的经典随机森林岩层分层结果图;

图16为本发明实施例提供的基于空间场景替代特征的经典随机森林岩层分层结果 图;

图17为本发明实施例提供的基于属性特征和空间场景替代特征的经典随机森林岩 层分层结果图;

图18为本发明实施例提供的基于属性特征和空间度量关系替代特征的经典随机森 林岩层分层结果图;

图19为本发明实施例提供的基于属性特征、空间度量关系替代特征和空间场景替代特征的经典随机森林岩层分层结果图;

图20为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的空间随机树种森林岩层分层结果图(保守预测);

图21为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的空间随机树种森林岩层分层结果图(激进预测);

图22为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景替代特征的完全空间随机森林岩层分层结果图(保守预测);

图23为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景替代特征的完全空间随机森林岩层分层结果图(激进预测);

图24为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的完全空间随机森林岩层分层结果图(保守预测);

图25为本发明实施例提供的基于属性特征、空间度量关系特征和空间场景特征的完全空间随机森林岩层分层结果图(激进预测);

图26为本发明实施例提供的通过空间随机森林算法得到的露头地质体岩层分界线 与实际岩层分界线对比图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的 示例性实施例,然而应当理解,以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的 本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

请参阅图1,为本发明实施提供的一种面向露头地质体岩层分层的空间随机森林算 法的流程图。本实施例中,所述面向露头地质体岩层分层的空间随机森林算法包括如下步骤:

步骤S11,基于倾斜摄影测量数据构建露头岩层三维点云模型;

步骤S12,对露头岩层三维点云模型进行体元分割;

步骤S13,构建岩层体元空间特征与属性特征集成表达模型;

步骤S14,以表达模型构建空间决策树,通过空间决策树构建空间随机森林算法;

步骤S15,将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别。

优选地,所述基于倾斜摄影测量数据构建露头岩三维点云模型包括如下步骤:

步骤S111,获取倾斜摄影测量数据;

如图2所示;露头剖面所在的地质体为研究对象,该区域地层主要为上古生界二叠系中统下石盒子组,露头地质体没有植被覆盖,岩层露头良好,可观察到大套的含砾 中粗砂岩、含砾粗砂岩、粉砂岩、泥质粉砂岩,间夹薄层的细砂岩、泥岩。千里山剖面 所在地质体顶、底高程差约45m,剖面宽度约430m,地层走向为北西-南东,各岩层相 互平行,平均倾向为62°,平均倾角为33°。研究该露头地质体的岩层分层有助于研 究该区域地层展布情况,为该区域的露头地质体精细研究、储层地质知识库建立等提供 基本资料。

使用搭载一台相机传感器的DJI Phantom 4Pro无人机对研究区域进行倾斜摄影测 量数据获取,航高60米,飞行5架次,相机倾角20°,影像航向重叠率80%、旁向重叠 率70%,最终获得的影像分辨率为1.90厘米,共获得746张影像。

通过ContextCapture Center(Smart3D)软件,将影像数据生成高密度三维点云数据, 即,点云模型。每个点都含有三维坐标值和颜色信息。

步骤S112,设置坐标值范围,去除倾斜摄影测量数据中的无关地物数据;

在当前点云模型中,除了要研究的露头地质体外,还存在部分无关地物:道路和房屋。由于这些无关地物在露头地质体周围,且距离露头地质体有明显距离,因此直接设 置坐标值范围进行去除。去除无关地物前后的点云模型如图3和图4所示。

步骤S113,通过去除地物数据后的倾斜摄影测量数据构建露头岩层三维点云模型。

优选地,为了建立空间索引系统并简化点云数据,又不失去太多信息,本发明实施例采用八叉树方法将露头地质体所在的三维空间分成细小的单元,这些单元称之为体 元。对露头岩层三维点云模型进行体元分割采用八叉树构建算法,包括如下步骤:

步骤S121,将露头地质体所在的三维空间作为一个体元,并设定一个长度阈值,该长度阈值表示最小体元的边长;

步骤S122,将当前体元分割成八个相同的子体元,子体元具有相同的级别和大小;

步骤S123,依次判断当前级别体元是否包含点云数据,若不包含则忽略该体元,则该体元不再参与计算;

步骤S124,将当前级别体元的边长与设定的长度阈值相比较,若大于长度阈值,则继续分割;若小于长度阈值,则结束当前级别体元的分割;

步骤S125,递归地调用步骤S122~步骤S124直到所有体元都结束分割。八叉树分割如图5所示。

优选地,所述岩层体元空间特征与属性特征集成表达模型构建包括如下步骤:

基于倾斜摄影测量数据获取体元所包含点云数据的R、G、B各自的平均值,和露 头剖面在体元所在区域的表面粗糙度作为属性特征;

获取空间场景特征和空间度量关系特征作为空间特征。

优选地,所述露头剖面在体元所在区域的表面粗糙度,具体为对体元内所有点云数据使用总体最小二乘法得到一个拟合平面,所有点云数据到拟合平面的标准差设为该体元的粗糙程度。

对于每一个体元,其内部都包含至少一个点。取体元内中心点(体元内所有点的中心点)的坐标为体元的坐标;体元内所有点RGB颜色值的均值为体元的颜色值。对体 元内所有点使用总体最小二乘法得到一个拟合平面,这些点到拟合平面的标准差即为该 体元的粗糙度,表示这个体元对应的局部剖面的粗糙程度。

优选地,所述空间度量关系特征以每个体元中心点的空间坐标值(x,y,z)以及 该体元所在位置的产状信息表示,产状信息的获取包括如下步骤:

从露头岩层表面任选不共线的三点,即确定一平面,此平面作为岩层层面,其产状为

式中,

V=(ID,X,Y,Z,R,G,B,A,E,C) (2)

式中,ID表示体元的索引,id为其值;用X、Y、Z表示三维空间,x、y、z分别 为其对应的值,则(x,y,z)表示一个体元的位置;用R、G、B表示颜色空间,r、g、b 分别为其对应的值,则(r,g,b)表示一个体元的颜色;用A表示粗糙度,a表示其对应 的值;用E表示产状,

在地质学中,岩层在空间中的产出状态用岩层产状来表示,岩层产状包含走向、倾向和倾角,但一般用倾向α(0°≤α≤360°)和倾角

如此,在下文中,每个体元都为参与随机森林算法的一个数据,在三维空间中表现为一个点。

岩层分层是一个典型的分类问题,根据已知类别体元的特征进行归纳学习并建立规 则,然后根据该规则预测每个未知体元的类别,最后将同一类别的体元归为一个整体,即是一个岩层。

式(2)表达了体元的所有属性,对于随机森林的输入特征:ID为体元的索引,每 个体元有独特的值;根据八叉树算法可知,每个体元具有独特的坐标值;由于RGB颜 色空间对不同颜色的物体具有区分性,同一岩层的体元有相似的值,不同岩层的体元有 不同的值;由于风化剥蚀等地质作用,同一岩层的体元对应的剖面有近似的粗糙程度, 不同岩层的体元对应的剖面有不同的粗糙程度。因此,红光波段R、绿光波段G、蓝光 波段B、表面粗糙度A可以作为经典随机森林算法的输入特征,将它们统称为体元的属 性特征。

体元为空间数据,因此,可以根据体元内和体元间的空间结构和空间关系挖掘并提 取其空间特征。

根据地理学第一定律,对体元类别预测时,可以认为:两个体元间的距离越近,其类别越可能相同。

岩层在空间中的产出状态用产状来表示,根据图6和公式(1)可知,当岩层产状 确定,岩层层面的法向量则确定。因此,过地质体上任意一点的岩层层面有且仅有一个, 其由所在岩层的产状和该点坐标共同确定;地质体上两点之间的空间度量关系与两点所 在岩层层面有关。

将岩层层面所在平面的法向量方向称为该岩层层面上的体元的垂直方向,其中指向 +Z方向的单位法向量的方向为正方向;将平面的延展方向称为在该岩层层面上的体元的水平方向,平面沿+Y方向的延展方向为正方向。则地质体中体元的垂直方向和水平 方向的数量与地质体的岩层产状数量相同。

定义地质体上一点V到另一点V

地理学第一定律中的“远近”在地质体的体元上既表现为垂直方向上的远近,又表现为水平方向上的远近。可以理解为:在地质体上,体元V到V

随机森林算法的样本和待分类体元需具有相同特征,且体元与体元之间、特征的值 与值之间必须性质相同且相互独立。空间度量关系虽然可以作为判断体元类别的一个特 征,但空间度量关系是根据两个体元而获得的,因此必须对空间度量关系进行转化才能将之作为随机森林算法的特征。将一个待分类体元与所有样本进行比较,找到其垂直正 方向、垂直负方向和水平方向上距离最小的样本,这些样本的类别组成的类别集作为该 待分类体元的特征值;对于样本,其类别值即为特征值;这些特征值满足条件,且该特 征与其他特征相互独立,可以作为随机森林算法的特征,将这个特征称为空间度量关系 特征。

为了便于计算,将两个体元间的垂直距离转换为两个体元分别与第三个体元的垂直 距离的差,如图7所示。在图7(1)中,在地质体上有体元V和V

优选地,统计所有样本的产状,用es表示,若共有Λ组产状,则

若体元V

设每个体元都有与es相对应的一组垂直距离值h=(h

因此,统计所有样本的产状,用es表示,若共有Λ组产状,则

设每个体元都有与es相对应的一组垂直距离值h=(h

待分类体元VW和所有样本VS,待分类体元VW的空间度量关系特征值的求取方 法为:

步骤S131,对于体元VW的垂直距离值h

步骤S132,若有且仅有

步骤S133,若有且仅有

步骤S134,若

步骤S135,根据步骤S134~步骤S134,在VW垂直正方向和垂直负方向上分别获 得至多Λ组(+Δh,c)和(-Δh,c),将这Λ组值记作类别集cs,则至多包含(2×Λ)个类别c,cs中可能有重复类别,可以知道,VW所属类别一定在类别集cs中;

步骤S136,设置阈值Ω,Ω须大于地质体最大岩层真厚度,则满足条件|±Δh|>Ω的+Δh或-Δh对应的类别不为VW所属的类别,从类别集cs中删除对应的组;

步骤S137,对于所有+Δh和-Δh,分别有最小绝对值|+Δh|

步骤S138,使类别集cs中只留下类别值,并对其进行去重,最后得到的类别集cs包含VW所属类别。

用M表示空间度量关系特征,m表示其值,则待分类体元的空间度量关系特征值 m=cs;当共Λ组产状,Γ个类别时,待分类体元的空间度量关系特征值m至少有1个 分量,至多有Λ(Λ≤Γ)个分量或Γ(Γ<Λ)个分量,当分量个数为1时,该分量的 值即为该体元类别;对于样本,其类别为c

V=(ID,X,Y,Z,R,G,B,A,E,M,C) (3)

其中,各标识的含义与公式(2)相同。当体元V在特征M的值m只有一个分量时,其类别值c=m;当值m有多个分量时,其类别值c∈m。

使类别集cs中只留下类别值,并对其进行去重,最后得到的类别集cs一定包含VW所属类别。

根据空间度量关系特征值的特征可知,空间度量关系特征不能直接用于经典决策树 算法和经典随机森林算法。在决策树和随机森林中,建立决策树的目的是判断待分类数据的类别;特征的本质作用为对样本集划分子集,使子集中的样本尽可能属于同一类别;对待分类数据的预测,则是根据数据的特征值与决策树进行比对,直到得到待分类数据 的类别。空间度量关系特征直接表达了数据的类别或类别的范围,因此虽然样本在空间 度量关系特征的取值不完全包含待分类体元在空间度量关系特征的取值,但待分类体元 在空间度量关系特征的取值已经直接对样本集划分了子集。也即是:所有待分类体元在 空间度量关系特征的取值即是样本子集中包含的类别,有多少个取值则有多少个样本子 集;对于任一取值,所有样本中类别在其分量中的样本都被划分到该取值对应的样本子 集中,则一个样本可能存在于多个样本子集中,如图8所示。且空间度量关系特征值一 定包含了体元的类别,因此空间度量关系特征应该作为决策树的根结点。

对于露头地质体,同一岩层的岩体性质相同,其所在环境相同,风化剥蚀程度基本一致;不同岩层的岩体性质不同,虽然所在环境相同,但风化剥蚀程度具有差异性。因 此,对于由点云构成的体元,相同岩层的体元具有相似的空间结构和空间关系;不同岩 层的体元具有不同的空间结构和空间关系。

快速点特征直方图(Fast Point Feature Histograms,FPFH)是一种基于点的表面法 线和曲率的姿态不变的空间局部特征,它考虑估计法线之间的相互作用,通过统计的方 法获得点与邻域点的空间几何关系,并形成一个多维直方图。

优选地,所述空间场景特征采用FPFH表示,FPFH计算过程包括如下步骤。

步骤S231,对点云模型中的任意一个点P求取其切平面的法向量。

步骤S232,找到距离点P最近的k个点,这k个点称为点P的k邻近集,将点P 与其k邻近集中的点两两连线,如图9所示;点P与其k邻近集(如k=5,(1)为点 P的5邻近,(2)为点P和P

步骤S233,对于点P与其k邻近集点中的点P

其中,

步骤S234,根据原点O得到其坐标系(κ,ρ,ι)的表达式(5):

步骤S235,平移原点O的坐标系(κ,ρ,ι)到目标点Q,则有图10(原点与目标点 的空间关系);点O与点Q的空间关系可以用一组角度相关的值来表示,见公式 (6):

其中,θ为目标点Q的法向量

其中,

步骤S236,对点P与其k邻近集中每个点都进行步骤(3)~(5)的运算,可以得 到k个三元组

步骤S237,点P在

步骤S238,对体元中每个点都进行步骤S231~步骤S237,则体元内的每个点都可以得到一个SPFH;对于任意一个体元V,通过公式(8)可以得到其快速点特征直方图 FPFH:

其中,P为体元的中心点,η为体元内除中心点的点的数量,P

每个体元根据上述步骤都可以得到一个自己的FPFH频率分布图,每个FPFH共有τ个区间,用s=(s

V=(ID,X,Y,Z,R,G,B,A,E,M,S,C) (9)

其中,各标识的含义与公式(2)相同,S=s。

对于体元的空间场景特征而言,对体元进行比较,可以对体元空间场景特征中的部 分依次进行比较,因此可以使用信息增益比准则来依次选择最优分量。虽然空间场景特征有多个分量,但它是一个特征,因此在决策树和随机森林中对应一个结点,当与其它 特征一起构建决策树和随机森林时,使用信息增益比准则的定义来选择最优特征。空间 场景特征在决策树和随机森林中的构建方式如图12所示。

优选地,每一个体元为随机森林的输入数据,体元的属性特征和空间特征为输入特征,如式(10)所示:

V=(R,G,B,A,M,S) (10)

定义以空间度量关系特征为根结点构建的决策树为空间决策树,对于训练样本集VTS、空间度量关系特征M和所有数据在空间度量关系特征M的取值m、其它特征组 成的特征集FS,建立空间决策树ST的算法为:

步骤S141,输入训练样本集VTS、所有体元在空间度量关系特征M的取值m、空 间度量关系特征M和特征集FS;

步骤S142,构建根结点,将训练样本集放在根结点;

步骤S143,判断训练样本集VTS是否为同一类,若为同一类,则类别值为根结点值,根结点也为叶结点,返回决策树;

步骤S144,若不为同一类,则设置空间度量关系特征M为根结点值,将所有数据 在空间度量关系特征M的取值m放在根结点;

步骤S145,根据所有取值m建立根结点的分支,每一个取值对应一个分支;

步骤S146,若第i个取值m

步骤S147,若第i个取值m

步骤S148,对m的所有分支按步骤S146~步骤S147建立叶结点或子决策树后, 返回决策树。

以空间决策树为基础的随机森林为空间随机森林,空间随机森林中包含至少一棵空 间决策树。因此,空间随机森林共有两种构成方式:完全空间随机森林和空间随机树种森林。其中,完全空间随机森林中只有空间决策树,构建方法与经典随机森林构建方法 相同,但由于空间决策树的根结点为空间度量关系特征,因此空间度量关系特征不参与 特征随机;空间随机树种森林中除了有空间决策树,还有经典决策树,构建空间决策树 的特征集为空间特征,构建经典决策树的特征集为属性特征,在构建每棵决策树前,要 先随机判断该棵决策树的性质,然后根据其性质从对应特征集中随机抽取特征。

对空间随机森林进行建立以及对分类结果进行验证也使用分层抽样方法,且方法与 经典随机森林算法完全相同。

优选地,所述将体元带入空间随机森林算法进行预测,得到体元匹配的岩层类别具体为:对随机森林中的每棵决策树,递归地根据决策树的结点找到体元对应的特征值,根据该特征值进入决策树中该结点对应的分支,最终得到体元的类别;统计随机森林中 所有决策树对体元的分类结果,数量最多的类别即是随机森林对体元预测的类别。

使用空间随机森林对任意一个样本VS进行验证的方法为:

(1)获取空间度量关系特征M所有取值中分量个数大于1的取值,这些取值即为森林中所有决策树不能直接通过空间度量关系特征得到类别的分支集;

(2)在分支集中找到包含VS类别的取值,得到VS对应的分支集,将VS的空间度 量关系特征值依次设置为VS对应分支集中的取值,得到VS的副本集,则副本集中每个 副本体元的空间度量关系特征值与VS对应分支集中的值一一对应,其它特征值与VS 的特征值相同;

(3)若副本集为空,则说明空间随机森林对样本的类别预测即为样本的实际类别,认为得到正确的分类结果;

(4)否则,对每一个副本按照空间随机森林对体元进行类别预测的方法得到其类别, 并将该类别与VS的真实类别进行比较,若相同则说明该副本分类正确,若不同则说明分类错误。对于所有副本,可得到全部副本分类正确、至少一个副本分类正确和综合分 类正确比例三个结果。其中,全部副本分类正确用0或1表示,0表示至少有一个副本 分类错误,1表示全部副本分类正确;至少一个副本分类正确也用0或1表示,0表示 全部副本分类错误,1表示至少有一个副本分类正确;综合分类正确比例是一个在0与 1之间的值,为分类正确的副本数与副本集的总数的比值。

因此,对于所有验证样本,分别对全部副本分类正确、至少一个副本分类正确和综合分类正确比例进行累加后,空间随机森林根据公式(11)得到的精度是三个不同意义 的精度值,其中通过全部副本分类正确得到的精度称为保守精度,通过至少一个副本分 类正确得到的精度称为激进精度,通过综合分类正确比例得到的精度称为一般精度。经 典随机森林只有一个精度值,其意义与一般精度等价。

其中,pre为精度值;VVSR为要求取的精度值所对应的验证样本集,|VVSR|为验证样本 集VVSR的容量;VVS为总体验证样本集,|VVS|为VVS的容量。

精度评价指标:

空间随机森林算法对露头地质体体元进行分类后,每个类别即对应一个岩层,即实 现了露头地质体的岩层分层。公式(11)只能对随机森林算法的分层结果进行简单对比分析,算法是否有效还需要用适当的精度评价方法来评价。

本发明基于混淆矩阵,使用总体分类精度OA(Overall Accuracy)、Kappa系数(Kappa Coefficient)、精确率P(Precision)、召回率R(Recall)、精确率和召回率的加权调和平 均F-Measure作为评价指标。

实验方案:

结合研究区岩层的厚度及所构建三维模型的精度,设置八叉树体元分割的阈值为0.1米,快速点特征直方图SPFH中点云局部结构为50邻近、等分区间为11(则空间场 景特征共有33个分量),空间度量关系特征中地质体最大岩层真厚度阈值25米。对研 究区域按八叉树算法进行分割后的体元模型局部示例如图13所示,点云体元化后共有 2496240个体元。

地质露头共有6个岩层,即6种类别;分层抽样时,训练样本占总样本的比率为0.7,对实验对象的样本选择见表1和图14(露头模型样本选择)。

表1各类别样本容量及对应颜色

设置随机森林中决策树个数为120。为了更准确地对空间特征和空间随机森林算法 进行分析,需要保证每棵决策树的样本和特征保持一致:

(1)对于每种随机森林中索引相同的树都有相同的样本;

(2)对于同一种随机森林算法,特征集不完全相同,且不相同的特征越少越好;

(3)对于不同随机森林算法,特征集基本一致(空间度量关系特征用于经典随机森林时只能转换为相近的属性特征,因此有一定差异;空间场景特征用于经典随机森林和 空间随机森林的特征选取准则不同)。

体元共有6个特征参与随机森林算法运算:红光值R、绿光值G、蓝光值B、表面 粗糙度A、空间度量关系特征M、空间场景特征S。根据它们的性质可分为3组:

(1)属性特征R、G、B、A;

(2)空间度量关系特征M或

(3)空间场景特征S或

由于随机森林中每棵决策树的特征数量必须远远少于随机森林总特征的数量,而随 机森林共6个特征,难以满足条件。因此,在对随机森林中的每棵决策树进行特征选择时,使用以下原则:

(1)属性特征中共4个特征,特征数量太少,则随机选择

(2)为满足决策树特征的数量远远小于随机森林总特征的数量,对空间场景特征S(或空间场景特征

综合上述分析,实验共有120组随机数据,每组随机数据对应一棵决策树,不同森林中这棵决策树索引相同,每棵决策树包含以下五部分数据:

(1)训练样本集:48108个训练样本;

(2)属性特征:j个,j=2,3,4;

(3)是否有空间度量关系特征的转换特征

(4)空间场景特征分量:随机5个;

(5)树种名称:经典决策树、空间决策树。

如此,在一组实验中,不同随机森林在同一索引的树具有最小变量,这样可以最大程度地比较不同随机森林算法的差异。

结果与讨论:

本发明以16GB运行内存的Windows10系统为实验平台,Visual Studio2017为开发工具,C#为随机森林算法实现语言,C++为模型展示语言,PostgreSQL为数据库,以体 元为随机森林算法的输入对象,将不同特征与不同随机森林算法进行组合,开展了8种 对比实验。

(1)使用经典随机森林算法,特征集FS={R,G,B,A},即只有属性特征,因此每棵决策树中包含上述(1)、(2)部分数据。实验结果如表2和图15所示,算法精度为24.81%。 从结果可以看出,类别3在属性特征上的取值基本上包括了其它所有类别的取值,且在 每个取值上都占多数,所以预测结果中类别3占绝大多数,造成这种情况的最大可能是 属性特征值的精度太低。因此,使用这样属性特征的经典随机森林算法不能进行岩层分 层。

表2基于属性特征的经典随机森林岩层分层统计表

(2)使用经典随机森林算法,特征集

表3基于空间场景替代特征的经典随机森林岩层分层统计表

(3)使用经典随机森林算法,特征集

表4基于属性特征和空间场景替代特征的经典随机森林岩层分层统计表

(4)使用经典随机森林算法,特征集

表5基于属性特征和空间度量关系替代特征的经典随机森林岩层分层统计表

(5)使用经典随机森林算法,特征集

表6基于属性特征、空间度量关系替代特征和空间场景替代特征的经典随机森林岩层 分层统计表

(6)使用空间随机树种森林算法,特征集FS={R,G,B,A,M,S},森林中有两种决策树,一种为经典决策树,一种为空间决策树,因此每棵决策树都包含前述第(5)部分 数据,决定当前决策树的算法;经典决策树中包含前述(1)、(2)部分数据,空间决策 树中包含第(1)、(4)部分数据。实验结果如表7、图20和图21所示;图20为保守预 测结果,保守验证精度为40.06%,图21为激进预测结果,激进验证精度为68.31%;一 般精度为54.57%。从结果可以看出,使用所有特征的经典随机森林算法能够进行一定 程度的分层,但每一层含有较多其它类别,若要实现岩层分层还需进行进一步处理。但 是,空间随机树种森林是经典决策树和空间决策树的结合,它的结果由经典决策树和空 间决策树共同决定。由于经典决策树和空间决策树在森林中的出现是随机的,只有森林 中决策树数量足够多时才可能满足1:1,而森林中实际上并不需要那么多树,因此它们 的比例是未知的,而实验1表明经典决策树不能进行岩层分层,若空间决策树可以进行 岩层分层,那么基于这两种树得到的空间随机树种森林算法是否能够用于分层并不能够 确定,这个算法得到的结果并不是稳定的。

表7基于属性特征、空间度量关系特征和空间场景特征的空间随机树种森林岩层分层 统计表

(7)使用完全空间随机森林算法,特征集

表8基于属性特征、空间度量关系特征和空间场景替代特征的完全空间随机森林岩层 分层统计表

(8)使用完全空间随机森林算法,特征集FS={R,G,B,A,M,S},每种特征根据自己的性质用于随机森林,因此每棵决策树都包含前述(1)、(2)、(4)部分数据。实验结 果如表9、图24和图25所示;图24为保守预测结果,保守验证精度为79.90%;图25 为激进预测结果,激进验证精度为99.74%;一般精度为89.98%。从结果可以看出,分 层效果很理想。这组实验与第7组实验的结果差异较小,差异主要集中在边界附近,而 它们的算法差异主要在空间场景特征的使用方法(空间场景特征的使用方法不同导致属 性特征在决策树中对应结点的深度也不同),因此可以推断:空间度量关系特征在极大 程度上决定了空间随机森林算法的类别预测效果,但在边界附近的体元类别主要受其它 特征影响。两组实验结果的激进精度完全相同,但实验8的保守精度高0.3%,一般精 度高0.33%,这说明空间场景特征根据其本质参与随机森林算法的运算结果好于空间场 景特征以经典决策树学习方法的特征选择方式参与随机森林算法的运算结果。

表9基于属性特征、空间度量关系特征和空间场景特征的完全空间随机森林岩层分层 统计表

在这8种对比实验中,根据每种特征自己的性质将其用于随机森林算法中的只有实 验5、实验6和实验8,这三种实验中,实验8的结果是最优的;其他5种对比实验与 实验8相比,实验8的结果也是最优的。将实验8的分层结果岩层分界线,与实际岩层 分界线进行对比(图26,蓝色表示实际岩层分界线,红色表示实验8确定的岩层分界线, 绿色为二者重叠部分),可以看到二者差异较小,表明了根据特征自己的性质将之用于 随机森林算法中,可以得到理想的岩层分层结果。

对实验8的保守验证结果和激进验证结果进行统计,可以得到表10和表11两个混淆矩阵,根据混淆矩阵可以得到表12的精度评价结果。

表10完全空间随机森林(实验8)的混淆矩阵(保守)

表11完全空间随机森林(实验8)的混淆矩阵(激进)

表12完全空间随机森林(实验8)的算法评价精度

对表10、表11和表12进行分析,可以得出以下结论:

(1)算法的总体预测效果理想。保守验证总体精度为79.8990%,Kappa系数为0.7508,表示刚好得到理想分类结果;激进总体精度为99.7427%,Kappa系数为0.9968, 表示分类效果极为理想;且一般分类精度为89.98%;因此,算法的总体预测结果是很 理想的;

(2)算法对类别3的预测效果最好;

(3)从精确率看,在保守验证中,其它类别都可能被预测为类别1、类别2、类别3、类别4或类别5,在这5种类别中,被错误预测为类别5的概率最大,被错误预测为类 别3的概率最小;不可能有其它类别被错误预测为类别6。在激进验证中,其它类别都 可能被预测为类别2、类别4或类别5,被错误预测概率差不多,不可能有其它类别被 错误预测为类别1、类别3和类别6;

(4)从召回率看,在保守验证中,每种类别都可能被预测为其它类别(类别6除外),尤其是类别1,被预测为其它类别的概率非常大,类别3被预测为其它类别的概率最小。 在激进验证中,类别1、类别5和类别6都可能被预测为其它类别,被错误预测概率差 不多,类别2、类别3和类别4都不可能被预测为其它类别;

(5)根据F-Measure综合分析,可以知道算法对类别3有极为理想的预测结果,对类别2和类别4有非常理想的预测结果,对类别5和类别6有较为理想的预测结果,对 类别1有一般的预测结果,因此实验8得到的岩层分层结果是理想的。

对8种实验进行综合分析,可以得出结论:经典决策树具有类别越多,错分概率越大的特点;相比于经典决策树和经典随机森林算法仅使用属性特征,引入空间特征的空 间决策树在很大程度上减小了这种错分概率。因此,本发明提出的完全空间随机森林算 法能够显著提高分类正确率,也就能显著提高对岩层正确分层的概率。空间随机森林算 法能够更好地对体元进行分类,并且这种用于露头地质体岩层分层的空间随机森林算法 是合理的。

本发明不局限于上述可选实施方式,任何人在本发明的启示下都可得出其它各种形式的方案,但不论在其结构上作何种变化,凡是落入本发明权利要求界定范围内的技 术方案,均落在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号