法律状态公告日
法律状态信息
法律状态
2022-08-19
实质审查的生效 IPC(主分类):G06V10/764 专利申请号:2022104808267 申请日:20220505
实质审查的生效
技术领域
本发明属于多视图数据分类技术领域,具体涉及一种自适应图约束多视图线性判别分析方法、系统及存储介质。
背景技术
在许多实际应用中,多视图学习通常比单视图学习更加鲁棒。多视图学习的一个关键问题是如何有效利用来自不同特征集的信息,一种有效的方法是通过为这些特征集获取一个公共的子空间来融合信息,通常使用特征提取来实现该子空间。典型相关分析是多视图学习的经典工具,它通过使两个视图之间的互相关性最大化来为每个视图分别学习一个线性的投影矩阵。多视图典型相关分析是典型相关分析在多视图数据上的扩展,可用于处理多于两个视图的数据。
线性判别分析是最经典的有监督的降维算法之一,在降维过程中能够充分利用大量数据的先验标签信息,使每个类中的数据彼此接近,而不同类中的数据彼此远离。将多视图典型相关分析方法与线性判别分析方法相融合可以兼顾不同视图特征的线性提取以及利用标签信息进行有监督的分类学习。但是对于目前所提出的多视图数据分类方法来说,这些方法还存在以下一些不足之处,降低了多视图数据特征和降维的性能,进而降低分类的性能。
(1)对于多视图数据的分类问题,充分利用数据的标签信息,发掘出数据中的判别信息至关重要。从这个角度看,现有许多的多视图特征提取方法是无监督的,没有利用到数据的标签,且学习到的特征并没有保持原始数据的内部几何拓扑结构信息,导致了数据浪费。
(2)现有的有监督方法将特征的提取分为毫无关联的两个部分。这些方法先通过无监督的方式求得一个公共子空间,然后在这个公共子空间上用有监督的方法进行进一步提取。这样的方法在第一步求解公共子空间的过程中没有利用到数据的标签信息,可能导致学习到的公共子空间不是最优解。
(3)现有许多的多视图特征提取算法只在视图数量少、数据规模小的数据集上效果较好,在视图数量较多或数据规模较大时,会因为超参数过多或其他原因导致计算复杂度过大,从而使得处理这些大型数据集变得非常困难。
发明内容
本发明的目的在于针对上述现有技术中的问题,提供一种自适应图约束多视图线性判别分析方法、系统及存储介质,充分利用数据的标签等判别性信息来提高特征提取性能。
为了实现上述目的,本发明有如下的技术方案:
第一方面,提供一种自适应图约束多视图线性判别分析方法,包括以下步骤:
获取多视图的公共低维表征和各个视图的投影矩阵;
利用公共低维表征自适应的学习一个能够反应数据内在分布的图来约束学习过程;
利用线性判别的方法学习最佳投影矩阵;
通过最佳投影矩阵对测试集多视图数据进行特征提取,将特征提取的结果输入到KNN分类系统中完成分类任务。
作为本发明自适应图约束多视图线性判别分析方法的一种优选方案,通过最大化训练集多视图数据间的典型相关系数获取多视图的公共低维表征和各个视图的投影矩阵。
更进一步的,作为本发明自适应图约束多视图线性判别分析方法的一种优选方案,所述获取多视图的公共低维表征和各个视图的投影矩阵的步骤包括:
对输入数据所有视图的特征都标准化为0均值并通过标准差进行归一化,消除特征间单位和尺度差异的影响;
将输入的多视图数据通过随机线性特征映射到各视图共享的公共子空间,其中
式中,
作为本发明自适应图约束多视图线性判别分析方法的一种优选方案,所述利用线性判别的方法学习最佳投影矩阵的步骤包括:
基于最小二乘的线性判别分析利用大量数据的先验标签信息,使每个类中的数据彼此接近,不同类中的数据彼此远离,找到一个投影矩阵W最小化函数。
更进一步的,作为本发明自适应图约束多视图线性判别分析方法的一种优选方案,所述投影矩阵W最小化函数的计算表达式如下:
W=(SHS
式中,
更进一步的,作为本发明自适应图约束多视图线性判别分析方法的一种优选方案,所述利用公共低维表征自适应的学习一个能够反应数据内在分布的图来约束学习过程包括:
构建如下损失函数表达式:
式中,Y代表数据标签,α和γ用来平衡模型算法中MCCA和LDA的影响,L
所述通过最佳投影矩阵对测试集多视图数据进行特征提取的步骤包括,根据损失函数,对每个变量求出局部最优解,然后进行迭代优化,完成特征提取。
更进一步的,作为本发明自适应图约束多视图线性判别分析方法的一种优选方案,所述损失函数简化为如下表达式:
式中,
令J=2ZS
当偏置项b和公共子空间S固定时,关于投影矩阵W的损失函数为:
当投影矩阵W和公共子空间S固定时,关于偏置项b的损失函数为:
当投影矩阵W、偏置项b和公共子空间S固定时,关于转换矩阵U
当转换矩阵U
第二方面,提供一种自适应图约束多视图线性判别分析系统,包括:
数据获取模块,用于获取多视图的公共低维表征和各个视图的投影矩阵;
学习约束模块,用于利用公共低维表征自适应的学习一个能够反应数据内在分布的图来约束学习过程;
最佳投影矩阵学习模块,用于利用线性判别的方法学习最佳投影矩阵;
特征提取与分类模块,用于通过最佳投影矩阵对测试集多视图数据进行特征提取,将特征提取的结果输入到KNN分类系统中完成分类任务。
第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现如第一方面所述的自适应图约束多视图线性判别分析方法。
相较于现有技术,本发明至少具有如下的有益效果:
本发明提出的自适应图约束多视图线性判别分析方法既通过多视图典型相关分析利用了相似矩阵与标签信息之间的相关性,同时通过线性判别分析利用了未知标签数据的标签信息,能更好的发掘出数据中的判别信息从而使得提取方法是有监督的。并且根据局部距离为每个数据点分配最优的邻域来构造数据相似矩阵,使得学习到的特征保持原始数据的内部几何拓扑结构信息,避免了数据特征浪费。本发明将多视图典型相关分析和线性判别分析相结合并进行了统一的表达,多视图学习的特征提取方法比单视图特征提取方法更加适用于分类任务,而线性判别分析利用了未知标签数据的标签信息,同时考虑到图形诱导的公共源知识,最小化了期望的规范变量之间的距离,实现对多视图数据特征的融合提取和降维。
进一步的,本发明在特征提取中,根据局部最优解迭代更新转换矩阵、投影矩阵以及亲和矩阵等,提高了算法的稳定性和性能。本发明联合优化特征提取过程、自适应图约束优化过程以及引入KNN方法进行分类,提升了处理方法的性能。同时,本发明的方法还可以对新数据进行预测。本发明的提出提高了多视图数据分类方法的稳定性和特征提取性能。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。下面描述中的附图是本发明的一部分实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明实施例自适应图约束多视图线性判别分析方法流程图;
图2本发明实施例自适应图约束多视图线性判别分析系统结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。
基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,也都属于本发明保护的范围。
实施例1
请参阅图1,本发明的自适应图约束多视图线性判别分析方法,包括以下步骤:
S1、获取多视图的公共低维表征和各个视图的投影矩阵;
S2、利用公共低维表征自适应的学习一个能够反应数据内在分布的图来约束学习过程;
S3、利用线性判别的方法学习最佳投影矩阵;
S4、通过最佳投影矩阵对测试集多视图数据进行特征提取,将特征提取的结果输入到KNN分类系统中完成分类任务。
在一种可选的实施方式当中,步骤S1通过最大化训练集多视图数据间的典型相关系数获取多视图的公共低维表征和各个视图的投影矩阵。
更进一步的,步骤S1获取多视图的公共低维表征和各个视图的投影矩阵具体包括:
对输入数据所有视图的特征都标准化为0均值并通过标准差进行归一化,消除特征间单位和尺度差异的影响;
将输入的多视图数据通过随机线性特征映射到各视图共享的公共子空间,其中
式中,
在一种可选的实施方式当中,步骤S3利用线性判别的方法学习最佳投影矩阵包括:
基于最小二乘的线性判别分析利用大量数据的先验标签信息,使每个类中的数据彼此接近,不同类中的数据彼此远离,找到一个投影矩阵W最小化函数。
更进一步的,所述投影矩阵W最小化函数的计算表达式如下:
W=(SHS
式中,
在一种可选的实施方式当中,步骤S2利用公共低维表征自适应的学习一个能够反应数据内在分布的图来约束学习过程的步骤具体包括:
构建如下损失函数表达式:
式中,Y代表数据标签,α和γ用来平衡模型算法中MCCA和LDA的影响,L
更进一步的,将所述损失函数简化为如下表达式:
式中,
令J=2ZS
当偏置项b和公共子空间S固定时,关于投影矩阵W的损失函数为:
当投影矩阵W和公共子空间S固定时,关于偏置项b的损失函数为:
当投影矩阵W、偏置项b和公共子空间S固定时,关于转换矩阵U
当转换矩阵U
步骤S4所述通过最佳投影矩阵对测试集多视图数据进行特征提取的步骤包括:根据损失函数,对每个变量求出局部最优解,然后进行迭代优化,完成特征提取。
实施例2
本发明实施例的一种自适应图约束多视图线性判别分析方法,包括以下步骤:
给定数据集
可以证明线性判别分析和最小二乘回归是等价的,即将LDA表示为等价的LSR形式可以减少计算过程中的冗余问题,可以表示为:
在自适应图约束的多视图线性判别分析方法中,将多视图典型相关分析的MAXVAR表示法和最小二乘回归表达式相结合,同时利用输入数据的特征映射矩阵构造相似矩阵,可以得到的目标函数为:
其中,Y代表数据的标签,α和γ用来平衡模型算法中典型相关分析和线性判别分析的影响,A是与拉普拉斯矩阵L
首先求解W。公式(2)对W求导。令导数等于0,可求得W的表达式:
W=(SHS
式中:
公式(2)对b求导并令导数等于0,可求得b为:
对于U
式中:
令J为公式(5)对S
采用迭代优化的方式对提出的目标函数进行优化,对于提出的损失函数,对每个变量求出局部最优解,进而进行迭代优化,同时设计迭代算法可高效完成特征提取和分类问题。
实施例3
根据实施例2提出的自适应图约束多视图线性判别分析方法,执行如下步骤:
步骤一:加载数据集
步骤二:固定b和S,更新投影矩阵W。
步骤三:固定W和S,更新偏置项b。
步骤四:固定W和b,更新协方差矩阵S。
步骤五:通过协方差矩阵S计算得到U
步骤六:固定W,b,S,U
步骤七:重复步骤五至步骤六,直到W,b,S,U
步骤八:利用W,b,S,U
步骤九:用KNN算法对提取到的特征分类并计算分类结果。
步骤十:根据分类结果计算分类正确率(ACC)。
表1-6展示了本发明自适应图约束多视图线性判别分析方法在公开数据集上的实验结果。
表1 WebKB数据集上各方法的分类准确率(%)
表2 Handwritten digit数据集上各方法的分类准确率(%)
表3 AWA数据集上各方法的分类准确率(%)
表4 Caltech101-7数据集上各方法的分类准确率(%)
表5 Caltech101-20数据集上各方法的分类准确率(%)
表6 RUSWIDEOBJ数据集上各方法的分类准确率(%)
在表1中,k为KNN算法中的参数设置,最后一列是本发明对数据集进行有监督分类后的结果,如表1-6所示,在6个公开的数据集上对各方法进行测试,并与其他几种优秀的分类算法进行比较,结果能够验证本发明自适应图约束多视图线性判别分析方法的有效性。
实施例4
请参阅图2,本发明实施例提出一种自适应图约束多视图线性判别分析系统,包括:
数据获取模块1,用于获取多视图的公共低维表征和各个视图的投影矩阵;
学习约束模块2,用于利用公共低维表征自适应的学习一个能够反应数据内在分布的图来约束学习过程;
最佳投影矩阵学习模块3,用于利用线性判别的方法学习最佳投影矩阵;
特征提取与分类模块4,用于通过最佳投影矩阵对测试集多视图数据进行特征提取,将特征提取的结果输入到KNN分类系统中完成分类任务。
实施例5
本发明实施例提出一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述的自适应图约束多视图线性判别分析方法。
示例性的,所述存储器中存储的指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在计算机可读存储介质中,并由所述处理器执行,以完成本发明所述自适应图约束多视图线性判别分析方法。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在服务器中的执行过程。
所述电子设备可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述电子设备还可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器可以是中央处理单元(CentraL Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitaL SignaL Processor,DSP)、专用集成电路(AppLication Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieLd-ProgrammabLe Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可以是所述服务器的内部存储单元,例如服务器的硬盘或内存。所述存储器也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure DigitaL,SD)卡,闪存卡(FLash Card)等。进一步地,所述存储器还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述模块单元之间的信息交互、执行过程等内容,由于与方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
机译: 外部形状计算系统,外部形状计算方法,外部形状计算程序,具有存储在其中的外部形状计算程序的存储介质,场图生成系统,场图生成程序,存储场存储场和存储场场图生成方法
机译: 用于产生衰减校正图(ac)模型的系统,用于产生磁共振线圈(mr)的衰减校正图(ac)模型的方法,计算机可读介质,用于产生校正后的衰减核图像的方法,成像系统,库存储器中存储的衰减校正图(ac)模板的设置以及用于调整患者的衰减校正图(ac)的方法以校正核扫描数据中的衰减
机译: 使用存储的概念图数据生成程序为同一存储介质生成概念图数据和设备的方法以及通过存储的概念图检索程序和信息分布区域检索同一存储介质的概念图和设备的方法