首页> 中国专利> 基于稀疏表示和空谱拉普拉斯图的高光谱数据降维方法

基于稀疏表示和空谱拉普拉斯图的高光谱数据降维方法

摘要

本发明公开了一种用于大规模高光谱数据的降维方法,主要用于解决传统流行学习信息单一和该类方法难以处理较大规模数据的问题。其实现步骤为:1.从大规模的高光谱数据中选择一定量的数据作为训练样本;2.对训练样本进行空谱拉普拉斯图的构造;3.对拉普拉斯矩阵进行特征分解得到训练样本的低维表示;4.利用训练样本及其低维表示构造高维字典和低维字典;5.计算剩余高光谱数据在高维字典上的稀疏表示系数;6.将该稀疏表示系数与低维字典进行相乘,得到剩余数据的低维表示;7.整合训练样本与剩余数据的低维表示得到完整的降维数据。本发明提升了流行降维的效果,可用于处理大规模的高光谱数据。

著录项

  • 公开/公告号CN104318243A

    专利类型发明专利

  • 公开/公告日2015-01-28

    原文格式PDF

  • 申请/专利权人 西安电子科技大学;

    申请/专利号CN201410542949.4

  • 申请日2014-10-14

  • 分类号G06K9/62(20060101);

  • 代理机构61205 陕西电子工业专利中心;

  • 代理人王品华;朱卫星

  • 地址 710071 陕西省西安市太白南路2号

  • 入库时间 2023-12-17 04:14:53

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-26

    授权

    授权

  • 2015-02-25

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20141014

    实质审查的生效

  • 2015-01-28

    公开

    公开

说明书

技术领域

本发明属于数据处理技术领域,涉及高光谱数据的前期处理,主要目的是为了减少高 光谱数据的维数,从而降低后期数据处理方法的计算复杂度,同时尽可能提升其性能。该 方法可以被应用于大规模的高光谱数据聚类或分类中。

背景技术

数据降维处理在数据处理中起着很大的作用,许多维数过高的数据在处理之前都会进 行降维处理,一方面可以降低计算量,另一方面还可以从原有特征中挖取更有用的特征, 提升后期算法的处理效果。光谱数据随着成像设备的光谱分辨率的不断提高,数据的维数 也是越来越高,数据降维必不可少,同时,随着设备的发展,空间分辨率也在不断提高, 数据的规模也在不断的增大,如何处理大规模的高光谱数据也成为非常关键的一个问题。

现有的数据降维方法很多,常用的如:主成分分析PCA,线性判别分析LDA,局部 保持投影LPP,拉普拉斯嵌入。主成分分析及线性判别分析方法简单实用,但是适合于线 性数据,对于非线性的数据处理效果不是很好。以往研究表明,高光谱数据中存在着流形 结构,线性方法并不能完全高光谱的数据背景。流形学习针对于非线性数据,利用图嵌入 的方法捕捉数据的空间结构,将数据映射到具有同样空间结构的低维流行空间中,从而保 持数据间的分布结构。

目前流形学习降维的方法有不少,如:

2000年Tenenbaum与Silva在《Science》上提出了ISOMAP,这个方法是利用非线性 的局部变量信息学习数据集的全局集合结构,使用了测地距离来度量高维空间中的样本点 距离,通过建立原数据的测地线距离与降维数据空间的空间距离的对等关系完成数据降维。 该方法保证流形上的空间结构在低维流行空间中依然存在,但是当选择较大邻域时会出现 短路现象。

2000年Roweis和Saul提出了了局部线性嵌入法(Locally Linear Embedding,LLE), 该方法的主要思想是具有低维子流形结构的数据集,原空间与低维空间中的点的邻域结构 关系式不变的。该方法很好的保留了邻接点间的关系,使每个点的邻接权值保持不变,但 对于等距流形,嵌入效果不是很好。

2003年M.Belkin与P.Niyogi提出了拉普拉斯特征映射LE,该方法的出发点为:高 维空间中离得很近的点投影到低维空间中的像应该也会离得很近。该方法处理分类问题很 好,但是权值计算所使用的heat kernel中的参数对嵌入结构有很大影响。

上述方法有两个统一的缺陷:(1)这些方法中很重要的步骤就是图的构造,当数据规模非 常大的时候,图的存储及后期的计算都是非常困难的,一般的流形学习方法无法处理大规 模数据;(2)普通的流形学习方法,并没有考虑到高光谱数据中所存在的空间结构,只是 单纯的考虑其谱间的邻域关系,导致对高光谱数据降维效果不理想。

发明内容

本发明的目的在于克服上述已有技术的缺点,提出了一种基于稀疏表示和空谱拉普拉 斯图的高光谱数据降维方法,以提高高光谱数据降维的效果,便于将流行学习能推广到大 规模的高光谱数据中。

本发明的技术方案是:从大规模的高光谱数据中选择一定量的数据作为训练样本,对 所选训练样本进行空谱拉普拉斯图的构造,对拉普拉斯矩阵进行特征分解得到训练样本的 低维表示;利用高维训练样本及其低维表示构造高维字典和低维字典,将剩余的高光谱数 据在高维字典上进行稀疏表示,得到对应的稀疏表示系数;将该稀疏表示系数与低维字典 进行相乘,得到剩余高光谱数据的低维表示,整合训练样本与剩余高光谱数据的低维表示 得到整体数据的低维表示。其具体步骤包括如下:

(1)从一幅高光谱图像数据I中选择n个数据点作为高维的训练样本,高光谱数据维 数为p,n的数值由高光谱图像数据的规模确定,取整体数目的10%以上;

(2)对所选高维训练样本进行空谱拉普拉斯图G的构造:

(2a)构造谱间图G1:

使用谱信息散度SID作为训练样本点间的距离度量,计算第i个训练样本与其它训练 样本间的距离,i=1,…,n,并对这些距离值进行由小到大排序,选择距离最小的N个样本 作为第i个训练样本点的N近邻,N=6;

根据第i个训练样本点的N近邻确定第i个训练样本点与其它训练样本点的连接关系: 若第j个训练样本点在第i个训练样本点的N近邻中,则将第j个训练样本点与第i个训练 样本点连接,并计算该连接边的权值反之,第j个训练样本点与第i个训练 样本点不连接,W′ij=0,其中x,y分别为第i个训练样本点与第j个训练样本点所对应的 光谱向量,参数t根据实际数据调试确定;

(2b)构造空间图G2:

比较第i个训练样本点与其它训练样本点的二维坐标,i=1,…,n,确定其它训练样本点 是否在第i个训练样本点的K邻域中,若第j个训练样本点在第i个训练样本点的K邻域 内,将第i个训练样本点与第j个训练样本点进行连接,反之第i个训练样本点与第j个训 练样本点不连接,邻域参数K=11,该参数表示以第i个训练样本点为中心的11*11的邻域 区域;

确定连接边的权值:将11*11的邻域划分为内邻域和外邻域,内邻域为以第i个训练 样本点为中心的5*5的区域,外邻域为除去内邻域的剩余邻域区域;如果第j个训练样本 点在第i个训练样本点的内邻域中,则连接边的权值为W″ij=1,如果第j个训练样本点在第 i个训练样本点的外邻域中,则连接边的权值W″ij=0.8;若第i个训练样本点与第j个训练 样本点间不存在连接,则W″ij=0;

(2c)将谱间图G1和空间图G2进行合并操作,保留这两个图中的所有连接边,得到 空谱拉普拉斯图G,得到空谱拉普拉斯图G的权值矩阵为W,W=W'+W″,计算拉普拉 斯矩阵L,L=D-W,其中D为由W的行或列求和得到的向量作为对角线元素的对角矩阵;

(3)对拉普拉斯矩阵L和对角矩阵D进行广义特征值分解,取最小r个特征值对应 的特征向量作为训练样本所对应的低维表示TR;

(4)构造高维空间与低维空间的对偶字典:将n个p维的训练样本作为高维字典HD, 将n个训练样本对应的r维表示TR作为低维字典LD,这两个字典的原子间存在一一对应 的关系;

(5)对剩余高光谱数据进行稀疏表示求解,得到剩余高光谱数据在高维字典HD上的 稀疏表示系数:Θ=[θ1,...,θs,...,θm];

(6)将剩余高光谱数据的稀疏表示系数Θ与低维字典LD相乘,得到剩余高光谱数据 的r维表示RR=LD*Θ;

(7)结合训练样本的r维表示TR,得到整个高光谱数据的r维表示IR=[TR;RR]。

本发明具有如下优点:

1)本发明由于在构造谱间图时使用谱信息度量SID来度量光谱数据的相似度,能更 加准确的描述光谱数据间的光谱域邻域结构;

2)本发明由于在构造空间谱时使用了分层邻域结构,使得空间域邻域结构更加精细;

3)本发明由于采用谱间图和空间图共同构成拉普拉斯图,所以能更好的表示高光谱 数据的流行结构;

4)本发明由于使用稀疏表示的方法来模拟高维空间与低维空间的对应关系,从部分 高光谱数据的低维表示中学习得到完整高光谱数据的低维表示,使得流行学习降维方法不 再受到数据规模的影响,可将其应用于处理大规模的高光谱数据中。

实验证明,本发明通过构造空谱拉普拉斯图,提升了高光谱数据降维的效果,通过使用 训练样本及其低维表示来表示高维空间和低维空间,利用稀疏表示学习得到剩余的高光谱数 据的低维表示,打破了流行学习对数据规模的限制,可将其应用到更大规模的数据中。

附图说明

图1是本发明的整体实现流程图;

图2是本发明仿真所用到的数据的位置坐标图。

具体实施方式

参照图1,本发明的具体实现步骤如下:

步骤1,从一幅高光谱图像数据I中选择n个数据点作为高维的训练样本,高光谱数据 维数为p,n的数值由高光谱图像数据的规模确定,取整体数目的10%以上。

步骤2,通过对训练样本进行分析,构造空谱拉普拉斯图G。

(2a)构造谱间图G1:

(2a.1)谱信息散度SID是一种光谱数据间的光谱相似度的度量,与一般的欧氏距离相 比较,能够更好的捕获光谱数据间的相似性,因此使用谱信息散度SID作为谱间图的距离度 量,使谱间图能更准确捕获训练样本点间的相似关系。谱信息散度SID的定义如下:

SID(x,y)=D(x||y)+D(y||x),

其中:x,y为光谱数据中的光谱向量,均为p维列向量,p等于光谱数据的光谱数目, y=(y1,...,yp)T,y所对应的概率向量为q=(q1,...,qi,...,qp)T,其中i=1,…,p, x=(x1,...,xp)T,x所对应的概率向量为e=(e1,...,ej,..,ep)T,其中j=1,…,p,上式 中D(x||y)和D(y||x)分别由下式计算得到:

D(x||y)=Σl=1pelDl(x||y)Σl=1pellog(elql)

D(y||x)=Σl=1pqlDl(x||y)Σl=1pqllog(qlel)

构造谱间图需要确定每个训练样本与其它训练样本间的关系,针对第i个训练样本, 计算该训练样本与其它训练样本间的距离,并对这些距离值进行由小到大排序,选择距离 最小的N个样本作为第i个训练样本点的N近邻,近邻参数N的值可以根据具体的实验数 据进行设置,本实验中设置N=6;

(2a.2)根据第i个训练样本点的N近邻确定第i个训练样本点与其它训练样本点的连接 关系:若第j个训练样本点在第i个训练样本点的N近邻中,则将第j个训练样本点与第i 个训练样本点连接,并计算该连接边的权值反之,第j个训练样本点与第i 个训练样本点不连接,W′ij=0,其中x,y分别为第i个训练样本点与第j个训练样本点所 对应的光谱向量,参数t根据实际数据调试确定,本实例中设置t=0.01;

(2b)构造空间图G2:

(2b.1)构造空间图来表示训练样本点间的空间结构,由于每个高光谱数据都具有自 己的空间坐标,可以通过比较光谱数据的空间坐标来分析它们之间的空间结构。比较第i 个训练样本点与其它训练样本点的二维坐标,确定其它训练样本点是否在第i个训练样本 点的K邻域中,若第j个训练样本点在第i个训练样本点的K邻域内,将第i个训练样本 点与第j个训练样本点进行连接,反之第i个训练样本点与第j个训练样本点不连接,邻域 参数K表示以第i个训练样本点为中心的K*K的邻域区域,该邻域参数K取值为奇数, 如:3、7、9、11、21等,本实验中设置K=11;

(2b.2)使用邻域分层的方法来确定空间图的连接边权值,通过对空间邻域中的数据点进 行更细的划分,将空间结构关系表现的更加准确:

将K*K的邻域划分为内邻域和外邻域,内邻域为以第i个训练样本点为中心的K1*K1 的区域,K1<K,本实例中设置K1=5,外邻域为除去内邻域的剩余邻域区域;

如果第j个训练样本点在第i个训练样本点的内邻域中,则连接边的权值为W″ij=1,如 果第j个训练样本点在第i个训练样本点的外邻域中,则连接边的权值W″ij=0.8;若第i个 训练样本点与第j个训练样本点间不存在连接,则W″ij=0;

(2c)将谱间图G1和空间图G2进行合并操作,得到空谱拉普拉斯图G,该图G中 不仅包含光谱域的信息还包含了空间域的信息,该空谱拉普拉斯图G的权值矩阵为: W=W'+W″,计算拉普拉斯矩阵:L=D-W,其中D为由W的行或列求和得到的向量作为 对角线元素的对角矩阵。

步骤3,对拉普拉斯矩阵L和对角矩阵D进行广义特征值分解,对角矩阵D的逆矩阵 存在,将L与D的广义特征值问题转化为D-1L的一般特征值问题,通过特征值分解得到n 个特征值λ12,...,λn,n为方阵D-1L的行数,这n个特征值按照从小到大的顺序排列,即: λ1<λ2,...,<λn,以及对应的特征向量u1,u2,...,un,取最小的r个特征向量值对应的特征向量 u1,u2,...,ur作为训练样本的r维表示TR,r表示降维后的数据维数,该参数可以根据实验数 据设置,本实例中r=4。

步骤4,构造高维字典和低维字典,训练样本中的数据点作为高维字典HD的原子, 训练样本的r维表示TR中的数据点作为低维字典LD的原子,高维字典与低维字典的原子 间保持一一对应的关系,将高维字典原子看作高维空间的基原子,高维字典即代表了整个 高维空间,同样,低维字典代表了整个低维空间。

步骤5,通过稀疏表示的方法确定剩余的高光谱数据在高维空间中的表示;剩余高光 谱数据在高维字典HD上的稀疏表示系数:Θ=[θ1,...,θs,...,θm],θs为第s个数据点的稀疏表 示系数,s=1,...,m,m为剩余高光谱数据的个数,通过最小化下式中的目标函数,得到解 向量θ,使稀疏表示系数θs等于该解向量θ:

θs=argminθ||xs-HD*θ||22+β*||θ||1,

其中,xs为第s个数据点对应的光谱向量,||*||2为向量的2范数,||*||1为向量的1范 数,β为模型调节参数,在本实例中设置β=0.1。

对上式中θ的求解,已有很多的成熟算法,最小绝对值收缩选择算子LASSO是其中使用非 常广泛的一种求解方法,该方法是1996年由Robert Tibshirani提出,通过对表示系数 中的某些系数原子进行收缩操作,并将其它的系数原子设置为0,从而保留下更重要的系 数原子,在本实例中使用了SparseLab实验室工具包中的lasso函数来进行求解。

步骤6,将剩余高光谱数据的稀疏表示系数Θ与低维字典LD相乘,得到剩余高光谱 数据的r维表示RR=LD*Θ,由于高维字典和低维字典的原子之间存在一对一的关系,因 此,高维空间中的稀疏表示关系在低维空间中依然保持,可通过稀疏表示系数与低维字典 计算得到剩余数据的低维表示。

步骤7,结合训练样本的r维表示TR,得到整个高光谱数据的r维表示IR=[TR;RR]。 本发明的效果可以通过仿真实验具体说明:

1.实验条件

实验所用微机CPU为Intel i3 3.2GHz内存4GB,编程平台是MatlabR2010a。实验中 采用的数据为高光谱图像数据,是1992年由AVIRIS传感器在印第安拉州拍摄的 Indian_Pines高光谱图像数据,该图像尺寸为145×145,一共有220个波段,剔除噪声严 重的20个波段,剩余200个波段。实验中所使用数据为原数据的部分数据,具体情况见 表1,该实验数据的位置坐标图见图2,图中黑色的位置代表实验数据的空间位置。

表1

2.实验内容

使用本发明的方法在不同训练样本比率下对高光谱数据进行降维,然后再对降维后的 数据进行K-mean聚类,计算聚类准确度ACC,训练样本的选择比率包含:10%,20%, 30%,40%,K-mean聚类中的类别参数设置为4。

为了验证方法的有效性,对原始的高光谱数据和经PCA降维后的数据进行K-mean聚 类作为对比实验;此外,为证明本发明中所用到的空谱拉普拉斯图对降维效果的影响,用 以欧式距离作为距离度量的谱间N近邻图和使用不分层9*9邻域的空间图分别替换空谱拉 普拉斯图进行实验。

聚类准确度ACC定义如下:

ACC=cnn+m*100%,

其中,cn为正确聚类的数据个数,n为训练样本的个数,m为剩余高光谱数据的个数。

3.实验结果

分别对原始数据、使用PCA方法和使用本发明方法对原始数据进行降维后的数据进行 K-mean聚类,实验结果见表2。

表2

Method Original PCA 10% 20% 30% 40% ACC(%) 68.1679 67.7714 75.3348 77.3998 78.4705 78.3117

表2中Original表示对原始数据进行K-mean聚类,PCA表示对原始数据进行PCA降维 后进行K-mean聚类,10%、20%、30%、40%是流行学习所使用的训练样本比例,分别表示 本发明的方法在相应训练样本比例下对原始数据进行降维,然后再进行K-mean聚类。

通过表2可以看出:本发明的方法虽然只是通过对部分高光谱数据的进行流行降维学 习,可以得到比原始数据和使用PCA降维后的数据更好的聚类结果,由此可见,本发明的 方法可通过对部分数据进行流行学习,实现对大规模高光谱数据的降维。

分别使用欧式距离作为度量的谱间图和使用不分层空间邻域的空间图替换本发明中 的空谱拉普拉斯图对原数据进行降维,然后再进行K-mean聚类,实验结果见表3,

表3

Method 10% 20% 30% 40% SSLaplace 75.3348 77.3998 78.4705 78.3117 G_s 70.4935 71.3482 72.1639 73.6775 G_r 71.8352 73.0829 73.7398 74.2538

表3中SSLaplace表示本方法中所使用的空谱拉普拉斯图,G_s表示使用欧式距离作 为度量的谱间图,G_r表示邻域不分层的空间图。从表3中可以看出,本发明中使用的空 谱拉普拉斯图与传统欧式距离谱间图、不分层空间图相比降维效果更好。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号