首页> 中文学位 >一种新的多向数据分析方法—多重双线性分解及运用初步
【6h】

一种新的多向数据分析方法—多重双线性分解及运用初步

代理获取

目录

文摘

英文文摘

论文说明:缩略词表、基本数学符号表

声明

第一部分概述

一、前言

二、研究目的、意义、思路、步骤及内容

第二部分 多向数据分析基础

一、基本定义与符号

二、基本数学问题

三、现有多向数组分解模型

第三部分 多重双线性分解理论

一、基本定义

二、多重双线性分解模型

三、多重双线性分解解法

四、多重双线性分解算法

五、多重双线性分解特性

第四部分 模拟研究

一、模拟模型

二、结果与讨论

第五部分 实例研究

一、数据预处理

二、结果与讨论

第六部分 研究结论和将来的研究工作

一、研究结论

二、研究的特色和创新点

三、将来的研究工作

附录

综述 多向数组及其分解方法

参考文献

在读期间发表的论文

致谢

展开▼

摘要

多向数据成为众多研究领域中越来越常见的一种复杂数据类型,这主要归因于现代计算机的发展,各种测量手段的更新,以及研究对象认识的深入。多向数据通常是几组变量集按照相互交叉的组织形式,通过对其测量而获取的。这样的复杂数据类型具备多重维度,结构丰富而且复杂,难以使用矩阵对其予以描述等特点。多向数组是多向数据的数学描述形式。多向数组分析是分析多向数据的最为基础的数学工具之一。除此之外,在高阶统计理论方面,往往涉及到高阶统计量(高阶的矩、累积量、谱与倒谱等)均是多向数组。正如矩阵分析在传统多元分析中的地位一样,多向数组分析也成为高阶统计理论研究的基本数学工具和方法。因此,急需新的多向数组分析方法对这类复杂数据的内在的潜结构和相互关系进行探索性分析。
   作为多向数组分析重要部分的多向数组分解有三种最主要的方法,即,用于多向数组的二向奇异值分解(Singular Value Decomposition,SVD)、CANDECOMP-PARAFAC分解(Canonical Decomposition-Parallel Factor Analysis,PARAFAC)与TUCKER分解(Tucker's Decomposition,TUCKER)。然而,这三种均有各自的缺陷。如果多向数据本质上是多重线性的,那么,PARAFAC和TUCKER则可以提供比二向奇异值分解更为稳健、更具可解释性的模型。另外,PARAFAC数值计算通常并不太稳定,而TUCKER却不保证多向数组近似的唯一性。
   依据2004年美国数学学会召开的多向数组分解专题会议所提出的“理想”二向SVD扩展方法的几个重要特性,本文提出了一种新的多向数组分解模型。本文假定多向数据是由多重双线性结构生成的,各向对多向数据变异均有不同程度的贡献,可以分解成两个部分,其中一部分为各个向所能单独解释的部分,另外一部分则为各个向的交互所能解释的部分,并且,每个向所能解释的变异是线性可加的,并且与其它向相交互,这种交互只存在于同一成分中,不同成分中它们的交互则不存在。根据这些考虑,提出了具备双重双线性的多向数组分解模型。基于这一模型,本文进而提出了一种新的多向数组分解方法,称为多重双线性分解(MultipleBilinear Decomposition,MBD),它可以看作是二向奇异值分解到多向的一种自然扩展,并且,提出了一种非基于交替最小二乘的算法,此算法可以一步分解只提取一个成分,无需一次性地提取所有成分。
   从理论上来说,本文所提出的新方法具有三个重要的性质,包括载荷向量的正交性,闭式分解形式,以及变异的序列化分解等。这些性质暗示多重双线性分解算法具有数值稳定性。并且,类似于奇异值分解,多重双线性分解可以提供每步分解的所得到的成分的变异解释度。对于传统多向数组分解方法,如PARAFAC分解,TUCKER分解等,这三个重要性质是不具备的,或者,只是部分具备的。在理论上,多重双线性分解要优于传统的多向数组分解方法。从模型角度来说,多重双线性分解是矩阵奇异值分解的一种在更高向下更为合理的推广。
   基于多重双线性模型,本文所给出的非基于交替最小二乘(ALS)的MBD算法,此算法可以一步分解只提取一个成分,可以序列地逐步对多向数组进行分解。由此,可以推测本文所给出的MBD算法更容易实现,也更易保证其算法数值的稳定性。
   为了验证多重双线性分解方法的效能,设计了一个以正交PARAFAC模型为标准模型的Monte Carlo模拟试验,以载荷向量与其真值的相似度和模型拟合精度作为评价标准。在模拟试验中,随着误差水平的增高,双重双线性分解与PARAFAC分解所得的载荷向量相似度的中位数逐步下降,而其相应的四分位数间距则先增大后减小。但是,在各种误差水平下,就中位数而言,MBD所估计的载荷向量相似度均不小于PARAFAC;就标准差而言,MBD的结果均不大于PARAFAC结果。需要特别注意的是,如若误差水平为0,新方法与PARAFAC等价。另外,就模型拟合精度而言,MBD模型拟合于多向数据的精度均要高于PARAFAC模型。这些结果表明,在载荷向量估计的精确度和稳定性,以及模型的拟合程度方面,多重双线性分解均要优于PARAFAC,即使新方法没有直接使用多重线性的先验信息。另外,由于新方法的分解方式为序列式的,因而,可以认为新方法是PARAFAC的一种更优的备择方法。
   本文将多向数组分解方法引入到公共卫生研究领域之中。以女中学生营养监测为例,针对女中学生贫血血液生化指标进行分析,以一项青春期女中学生健康调查资料作为实例,从青春期发育特点和营养性贫血的角度,从成分的变异解释度和载荷向量的解释性两个方面,对新方法与传统多向数组分解方法之一的PARAFAC分解进行系统比较。从成分的变异解释度来看,无论是正常组,还是营养性贫血组,MBD前两个成分的变异解释均要高于PARAFAC前两个成分的变异解释度。这说明MBD对多向数据的拟合程度要高于PARAFAC。从载荷向量的解释性上来看,相较于PARAFAC分解而言,多重双线性分解的分析结果更加切合于现有青春期女性发育特点和营养性贫血诊断标准。这说明新方法的可解释性要强于PARAFAC。从实用的角度来可以说,与PARAFAC分解相比较,双重双线性分解是一种更优的多向数组分解方法。
   综上所述,在多向数据分析中,与传统多向数组分解方法相比较,多重双线性分解在理论性质、模拟参数估计和模型可解释性等方面均具有较好的特性,更适于探索多向数据中丰富而复杂的潜结构和相互关系,值得在易获取多向数据的众多领域进一步推广应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号