首页> 中国专利> 一种面向大数据的代谢组特征数据分析方法及其系统

一种面向大数据的代谢组特征数据分析方法及其系统

摘要

本发明公开一种面向大数据的代谢组特征数据分析方法及其系统,所述方法为:A、接收输入的代谢组特征数据,将其分割为多个数据块,并将该多个数据块映射送入映射规约框架中的各个运算节点中;B、利用计算智能方法同时对多个数据块上的加权权值进行优化;C、将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权权值并输出。本发明系统的数据分块处理机制降低了加权分析难度,有效提升了预测准确性。且并行化结构使系统可部署至多个计算节点,显著减少运算时间的同时能够保证系统的效率与稳定性。本系统应用的计算智能算法可有效地解决复杂的大规模优化问题。其预测准确性优于现有算法,从而实现可对目标生理状态进行更为有效的预估。

著录项

  • 公开/公告号CN104063631A

    专利类型发明专利

  • 公开/公告日2014-09-24

    原文格式PDF

  • 申请/专利权人 周家锐;华韵之;纪震;朱泽轩;曾启明;

    申请/专利号CN201410265541.7

  • 申请日2014-06-13

  • 分类号G06F19/10;

  • 代理机构深圳市君胜知识产权代理事务所;

  • 代理人王永文

  • 地址 518060 广东省深圳市南山区深圳大学办公楼549

  • 入库时间 2023-12-17 01:29:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-05-31

    未缴年费专利权终止 IPC(主分类):G06F19/10 授权公告日:20170718 终止日期:20180613 申请日:20140613

    专利权的终止

  • 2017-07-18

    授权

    授权

  • 2014-10-22

    实质审查的生效 IPC(主分类):G06F19/10 申请日:20140613

    实质审查的生效

  • 2014-09-24

    公开

    公开

说明书

技术领域

本发明涉及生物信息学领域,尤其涉及一种面向大数据的代谢组特征 数据分析方法及其系统。

背景技术

代谢物是生物体内完成代谢过程的小分子有机化合物总称,包含了丰 富的生理状态信息。代谢组学是代谢物的整体系统性研究方法,可有效揭 示代谢现象背后的生化机理。与传统研究方法相比,代谢组学被认为可更 全面地展示生命体的真实状态。因此获得了越来越多的重视,被广泛应用 于诸多科研与实用领域中。

代谢物经采集、检测获得的信号数据,称为代谢组特征数据,是代谢 组学的研究基本对象。通常使用机器学习方法对其进行分析,以挖掘其中 的生理状态信息。现有技术一般使用基于特征选择(Feature Selection)的机 器学习算法对代谢组特征数据进行分析,其主要包含两个部分:(1).使用 特征选择对输入数据进行降维运算,以厘清其中重要的特征信号以及其所 对应的代谢物质,并消除无关噪声,从而提升预测算法性能。目前常用的 特征选择方法包括主成份分析(Principal Component Analysis,PCA)、线性判 别分析(Linear Discriminant Analysis,LDA)以及最小冗余最大关联 (Minimum Redundancy Maximum Relevance,mRMR)选择等。(2).使用分类 /回归算法对降维后的数据进行预测学习,估计输入特征所可能产生的生 理结果,以指导后续医疗、科研等相关工作。目前常用的分类/回归算法 包括k-近邻算法(k-Nearest Neighbor,k-NN)、线性回归(Linear Regression)、 逻辑回归(Logistic Regression)以及支持向量机(Support Vector Machine, SVM)等。但由于代谢组特征数据一般都具有规模庞大、特征维度高、包 含大量噪声、以及特征信号与目标状态间呈非线性关系等特点。上述的传 统方法往往难以在合理运算时间内获得令人满意的学习结果。

特征加权分析(Feature Weighting)是特征选择当权值可取得[0,1]范围 内任意实数值时的泛化形式。与特征选择相比,特征加权更适合被用于代 谢组特征数据的分析:首先,现有研究表明,特征加权可获得比特征选择 更佳的预测效果提升能力,所形成的系统可对目标生理状态进行更为精确 的估计。其次,加权权值为连续数值,可更为准确地描述所对应代谢物信 号与目标状态间的具体关联,这一信息对后续相关研究具有重要价值。但 代谢组特征数据规模庞大、维度较高,其特征加权属于复杂的大规模多模 优化问题,难以使用传统数学方法进行处理。因此严重限制了其实际运用。

现有针对代谢组特征数据的机器学习算法,其主要缺陷在于:

其一,特征选择中的权值仅能取得{0,1}两个离散值,而无法对代谢物 信号的重要性差异进行更为精确的描述。例如,若两种代谢物质对目标生 理状态都具有影响,但其程度有所差别,则其所对应信号的权值也应各不 相同。影响较大的代谢物信号权值也应较大,反之亦然。但特征选择仅能 赋予0或1两种权值,难以描述此类差异性。导致重要的生物学信息丢失。

其二,特征加权算法中权值设定难度较大,目前缺少行之有效的解决 方法。特别是对于大数据上的特征加权,现有算法都难以进行有效处理, 而仅能近求解。从而严重影响了分析性能。

其三,现有机器学习技术主要针对小规模数据进行设计,并未考虑代 谢组特征的大数据情况。这往往造成面对庞大数据时,分类/回归算法性 能显著下降,运算时间指数增加。另外现有算法的运算复杂度较高,且架 构上难以并行化处理,导致无法在合理时间内对代谢组大数据进行有效分 析。

因此,现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足,本发明的目的在于提供一种面向大数据的 代谢组特征数据分析方法及其系统,旨在解决目前数据分析方法无法对代 谢组大数据进行快速有效分析的问题。

本发明的技术方案如下:

一种面向大数据的代谢组特征数据分析方法,其中,所述方法包括以 下步骤:

A、接收输入的代谢组特征数据,将其分割为多个数据块,并将该多个 数据块映射送入映射规约(MapReduce)框架中的各个运算节点中;

B、利用计算智能方法同时对多个数据块上的加权权值进行优化;

C、将优化后的多个数据块加权权值合并为整体代谢组特征数据的加权 权值并输出。

所述的面向大数据的代谢组特征数据分析方法,其中,所述代谢组特 征数据表示为代谢组特征数据集其中Fn=[f1,f2,…,fD] 为第n个特征矢量,N为数据集大小,D为特征矢量总维数;所述多个数据 块的数量为M,且每个数据块包含L=D/M个元素,设定系统总迭代次数 为K次。

所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤A具 体为:

A1、读取初始化迭代计数器k并对所读数值进行判断,当k=0时,构 造D维加权矢量W0,其值初始化为[0,1]范围内的随机值,当k>0时,将 上一次迭代的输出权值作为本次加权矢量的初始值,即Wk=Wk-1

A2、构造包含M个空集的数据块集以及包含所有索引值的索引矢量D=[1,2,3,…,D],并初始化数据块计数 器m=0。

A3、构造子索引矢量子加权矢量以及子特征矢量 集其中任意子特征矢量有并初始化块 内计数器l=0。

A4、从索引矢量D中随机选择一索引值d加入子索引矢量Im中,同时 将索引值d从D中移除,将加权矢量Wk在第d维上的权值wd加入子加权 矢量Wk,m,轮流取得代谢组特征数据集中每个特征矢量Fn,将其在第d 维上的特征信号值fd加入的第n个子特征矢量Fm,n

A5、更新块内计数器l=l+1,并判断l是否小于L,若是,则跳转至 步骤A2,若否,则执行步骤A6。

A6、添加当前数据块为并更新数据块计数器m=m +1。并判断m是否小于M,若是,则跳转至步骤A1,若否,则执行步骤 A7。

A7、将分割后的数据块集映射送入映射规约框架中的各个运算节点。

所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤A1之 前还包括:初始化迭代计数器k=0,

所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤B具 体为:

B1、针对数据块构造计算智能方法的进化种群ps, 其中每个寻优个体的候选解为L维矢量Xi,其中i=1,2,…,|ps|,该Xi值初 始化为Xi=Wk,m

B2、设置计算智能方法最大迭代次数为G,初始化迭代计数器g=0;

B3、计算进化种群ps中每个寻优个体的适应度函数值,并根据各寻优 个体的适应度函数值,使用计算智能方法优化进化种群ps;

B4、更新迭代计数器g=g+1,并判断g是否小于G,若是,则跳转至 步骤B3,若否,则执行步骤B5;

B5、将种群中最优个体的候选解Xbest作为优化取得的最佳子加权矢量 Wk,m,即

Wk,m=Xbest=argminXipsf(Xi);

B6、将子加权矢量Wk,m与子索引矢量Im构成键值对Pm=<Im:Wk,m>,作 为映射规约框架中映射过程的输出。

所述的面向大数据的代谢组特征数据分析方法,其中,所述计算智能 方法包括差分进化、粒子群优化或文化基因算法。

所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤B3中 计算进化种群ps中每个寻优个体的适应度函数值具体为:

B31、对于输入的第i个寻优个体,将其候选解矢量Xi作为子加权矢量 Wm

B32、将Wm与中的各子特征矢量Fm,n相乘以进行加权,当Wm中任 一权值wl小于预设阈值δ,则删除此维度上的对应代谢特征信号fl,实现降 维,最终形成加权子特征矢量F*m,n

Fm,n*=Fm,nWm={fl×wl|flFm,n,wlWm,wl>δ};

B33、将加权后的子特征矢量集合用于训练 机器学习分类/回归算法,获得分类/回归算法的预测准确率;

B34、将分类/回归算法的预测准确率作为当前个体Xi的适应度函数 值f(Xi)。

所述的面向大数据的代谢组特征数据分析方法,其中,所述步骤C具 体为:

C1、收集输出的所有M个键值对,构成键值对集合并对其进行规约处理;

C2、构造全零值的D维加权矢量Wk=[0,0,…,0]。初始化数据块计数 器m=0;

C3、取得键值对集合中的第m个键值对Pm=<Im:Wk,m>,初始化块 内计数器l=0;

C4、将子加权矢量Wk,m中第l维上的权值,添加至加权矢量Wk的第Im[l] 维上,即Wk={wd=Wk,m[l]|d=Im[l]},l=1,2,…,L;

C5、更新块内计数器l=l+1,判断l是否小于L,若是,则跳转至步 骤C4,若否,则执行步骤C6;

C6、更新数据块计数器m=m+1,判断m是否小于M,若是,则跳转 至步骤C3,若否,则执行步骤C7;

C7、更新迭代计数器k=k+1,判断k是否小于K,若是,则跳转至步 骤A,若否,则执行步骤C8;

C8、利用最终得到的加权矢量WK对输入代谢组特征数据集进行加权。

所述的面向大数据的代谢组特征数据分析方法,其中,利用最终得到 的加权矢量WK对输入代谢组特征数据集进行加权,而后将其用于训练机 器学习算法,获得整体的分类/回归预测准确率,将加权矢量WK与分类/ 回归预测准确率作为结果输出。

一种面向大数据的代谢组特征数据分析系统,其中,所述系统包括:

数据分割模块,用于接收输入的代谢组特征数据,将其分割为多个数 据块,并将该多个数据块映射送入映射规约框架中的各个运算节点中;

启发式加权模块,用于利用计算智能方法同时对经数据分割模块分割 后的多个数据块上的加权权值进行优化;

权值融合模块,用于将优化后的多个数据块加权权值合并为整体代谢 组特征数据的加权权值并输出。

有益效果:本发明提供一种面向大数据的代谢组特征数据分析方法及 其系统,该系统是针对代谢组特征大数据的特点所设计的基于MapReduce 框架的并行加权分析系统。一方面,系统的数据分块处理机制降低了加权 分析难度,有效提升了预测准确性。另一方面,系统的并行化结构意味着 系统可部署至多个计算节点(如多台计算机)同时处理,可显著降低整体运 算时间。此外,MapReduce框架可对各运算节点进行调度、调节与均衡, 保证系统的效率与稳定性。另外本系统所应用的计算智能算法可有效地解 决复杂的大规模优化问题。通过将其引入各启发式加权模块可获得更佳的 分析结果。其预测准确性优于其它现有特征加权、特征选择算法,可对目 标生理状态进行更为有效的预估。

附图说明

图1为本发明具体实施例中面向大数据的代谢组特征数据分析方法流 程图。

图2为本发明具体实施例中面向大数据的代谢组特征数据分析系统的 原理框图。

图3为本发明的面向大数据的代谢组特征数据分析系统的工作原理图。

图4为图1中步骤S100进行数据分割过程示意图。

图5为图1中步骤S200对数据块加权权值优化过程示意图。

图6为图1中步骤S300对优化后加权权值进行规约处理过程示意图。

具体实施方式

本发明提供一种面向大数据的代谢组特征数据分析方法及其系统,为 使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步 详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。

如图1所示的一种面向大数据的代谢组特征数据分析方法,其中,所 述方法包括以下步骤:

S100、接收输入的代谢组特征数据,将其分割为多个数据块,并将该 多个数据块映射送入映射规约框架中的各个运算节点中。

其中,设若输入的代谢组特征数据为代谢组特征数据集其中Fn=[f1,f2,…,fD]为第n个特征矢量,N为数据集大小,D为特征 矢量总维数;所述多个数据块的数量为M,且每个数据块包含L=D/M个 元素,设定系统总迭代次数为K次。

S200、利用计算智能方法同时对多个数据块上的加权权值进行优化。

S300、将优化后的多个数据块加权权值合并为整体代谢组特征数据的 加权权值并输出。

基于上述的方法,本发明还提供一种面向大数据的代谢组特征数据分 析系统,其中,所述系统如图2所示,其包括:

数据分割模块100,用于接收输入的代谢组特征数据,将其分割为多个 数据块,并将该多个数据块映射送入映射规约框架中的各个运算节点中。

启发式加权模块200,用于利用计算智能方法同时对经数据分割模块分 割后的多个数据块上的加权权值进行优化。

权值融合模块300,用于将优化后的多个数据块加权权值合并为整体代 谢组特征数据的加权权值并输出。

本发明的面向大数据的代谢组特征数据分析系统的工作原理如图3所 示:

S1、代谢组特征数据输入。

S2、数据分割模块分割数据。输入到数据分割模块后,由其对数据进 行分割形成数据块B1、数据块B2、…、数据块BM。将多个数据块映射送 入映射规约框架中的各个运算节点,即送入启发式加权模块。

S3、启发式加权模块优化加权权值。将经各启发式加权模块优化的数 据块加权权值送入权值融合模块。

S4、权值融合模块对各优化后加权权值进行规约。

S5、迭代是否完成,若否,则返回到步骤S2、若是,则执行步骤S6。

S6、输出加权矢量与分类/回归预测准确率。

较佳实施例中,所述步骤S100的数据分割过程如图4所示,其具体步 骤为:

⑴.初始化迭代计数器k=0。

⑵.读取初始化迭代计数器k并对所读数值进行判断,当k=0时,构 造D维加权矢量W0,其值初始化为[0,1]范围内的随机值:W0=[w1, w2,…,wD],wd=rand(0,1)。

⑶.当k>0时,将上一次迭代的输出权值作为本次加权矢量的初始值, 即Wk=Wk-1

⑷.构造包含M个空集的数据块集以及包含所有索引值的索引矢量D=[1,2,3,…,D],并初始化数 据块计数器m=0。

⑸.构造子索引矢量子加权矢量以及子特征矢量集 其中任意子特征矢量有并初 始化块内计数器l=0。

⑹.从索引矢量D中随机选择一索引值d加入子索引矢量Im中,同时 将索引值d从D中移除。

⑺.将加权矢量Wk在第d维上的权值wd加入子加权矢量Wk,m,轮流 取得代谢组特征数据集中每个特征矢量Fn,将其在第d维上的特 征信号值fd加入的第n个子特征矢量Fm,n

⑻.更新块内计数器l=l+1,并判断l是否小于L,若是,则跳转至 步骤⑷,若否,则执行步骤⑼。

⑼.添加当前数据块为并更新数据块计数器m=m +1。并判断m是否小于M,若是,则跳转至步骤⑶,若否,则执 行步骤⑽。

⑽.将分割后的数据块集映射送入映射规约框架中的各个运算节点。 常用映射规约框架包括Hadoop及Nokia Disco等。

进一步地,所述步骤S200对数据块加权权值优化过程如图5所示,其 具体为:

⑴.对于第m个并行运算的启发式加权模块,其输入数据块为

⑵.构造计算智能方法的进化种群ps,其中每个寻优个体的候选解 为L维矢量Xi,其中i=1,2,…,|ps|,该Xi值初始化为Xi=Wk,m

⑶.设置计算智能方法最大迭代次数为G,初始化迭代计数器g= 0。

⑷.计算进化种群ps中每个寻优个体的适应度函数值。

⑸.根据各寻优个体的适应度函数值,使用计算智能方法优化进化 种群ps。常用算法包括差分进化(Differential Evolution,DE)、粒子 群优化(Particle Swarm Optimization,PSO)以及文化基因算法 (Memetic Algorithm,MA)等。

⑹.更新迭代计数器g=g+1,并判断g是否小于G,若是,则跳 转至步骤⑷,若否,则执行步骤⑺。

⑺.优化完成后,将种群中最优个体的候选解Xbest作为优化取得的 最佳子加权矢量Wk,m,即

Wk,m=Xbest=argminXipsf(Xi).

⑻.将子加权矢量Wk,m与子索引矢量Im构成键值对Pm=<Im:Wk,m>, 作为映射规约框架中映射过程的输出。

较佳实施例中,所述步骤⑷还进一步包括:

a)、对于输入的第i个寻优个体,将其候选解矢量Xi作为子加权矢量 Wm

b)、将Wm与中的各子特征矢量Fm,n相乘以进行加权,当Wm中任一 权值wl小于预设阈值δ,则删除此维度上的对应代谢特征信号fl,实现降维, 最终形成加权子特征矢量F*m,n

Fm,n*=Fm,nWm={fl×wl|flFm,n,wlWm,wl>δ}

c)、将加权后的子特征矢量集合用于训练机 器学习分类/回归算法,获得分类/回归算法的预测准确率。在代谢组特 征数据的加权分析中,一般使用基于核方法(Kernel Methods)的支持向量 机与极限学习机(Extreme Learning Machine,ELM)等算法。

d)、将分类/回归算法的预测准确率作为当前个体Xi的适应度函数值f (Xi)。对于分类算法,准确率以分类错误率(Classification>

较佳实施例中,所述步骤S300对经优化的加权权值进行规约处理过程 如图6所示,其具体为:

⑴.收集输出的所有M个键值对,构成键值对集合并对其进行规约处理。

⑵.构造全零值的D维加权矢量Wk=[0,0,…,0]。初始化数据块计数器 m=0。

⑶.取得键值对集合中的第m个键值对Pm=<Im:Wk,m>,初始化块内 计数器l=0。

⑷.将子加权矢量Wk,m中第l维上的权值,添加至加权矢量Wk的第Im[l] 维上,即Wk={wd=Wk,m[l]|d=Im[l]},l=1,2,…,L。

⑸.更新块内计数器l=l+1,判断l是否小于L,若是,则跳转至步骤 ⑷,若否,则执行步骤⑹。

⑹.更新数据块计数器m=m+1,判断m是否小于M,若是,则跳转至 步骤⑶,若否,则执行步骤⑺。

⑺.更新迭代计数器k=k+1,判断k是否小于K,若是,则跳转至步骤 S100的细分步骤⑵,若否,则执行步骤⑻。

⑻.利用最终得到的加权矢量WK对输入代谢组特征数据集进行加权。

另外,利用最终得到的加权矢量WK对输入代谢组特征数据集进行加 权。而后将其用于训练机器学习算法,获得整体的分类/回归预测准确率, 其过程如步骤S200的细分步骤(4)的b)-d)步所示,最后将加权矢量WK与分 类/回归预测准确率作为结果输出。

本发明的系统相较于现有技术,其优势为:

第一,本系统是针对代谢组特征大数据的特点,基于映射规约框架的 并行加权分析系统。一方面,数据分块处理降低了加权分析难度,有效提 升了预测准确性。另一方面,并行化结构意味着本系统可部署至多个计算 节点(如多台计算机)同时处理,可显著降低整体运算时间。此外,映射规 约框架可对各运算节点进行调度、调节与均衡,保证系统的效率与稳定性。

第二,计算智能算法可为有效地解决复杂的大规模优化问题。通过将其 引入各启发式加权模块,用于优化子加权矢量,可获得更佳的分析结果。 实验数据表明,基于计算智能的权值设计方法,其预测准确性优于其它现 有特征加权、特征选择算法。可对目标生理状态进行更为有效的预估,从 而更好地指导后续生物、医学应用。

第三,优化获得的加权矢量中各权值数值,具体描述了对应代谢物信号 及其所代表的代谢物质,对所预测目标生理状态的相关程度。这一信息对 后续相关研究具有重要意义,可帮助厘清生物体代谢过程的背后机理。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术 人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应 属于本发明所附权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号