首页> 中文学位 >机器学习算法中变量选择方法及其在模式识别中的应用
【6h】

机器学习算法中变量选择方法及其在模式识别中的应用

代理获取

目录

声明

摘要

第一章 绪论

1.1 课题研究背景及意义

1.2 课题研究现状

1.3 本论文主要内容及结构安排

1.3.1 主要内容

1.3.2 结构安排

第二章 机器学习算法及相关知识介绍

2.1 机器学习算法在生物数据中的应用

2.1.1 模式识别简介

2.1.2 变量选择问题

2.2 机器学习算法概述

2.2.1 PLS基本原理的介绍

2.2.2 SPLS基本原理的介绍

2.2.3 SPLS-DA基本原理的介绍

2.2.4 弹性网络的介绍

2.2.5 Naive Bayesian分类器的介绍

第三章 基于PLS识别NSCLC子类分类特征基因及生存分析

3.1 引言

3.2 数据及预处理方法

3.2.1 数据

3.2.2 预处理方法

3.3 基于PLS的特征基因识别模型

3.4 Cox模型的介绍

3.5 模式识别模型评价方法

3.6 结果与讨论

3.6.1 基于GE数据和ME数据的特征基因

3.6.2 GE分类模型和ME分类模型比较

3.6.3 与已有NSCLC子类分类结果的比较

3.6.4 基于GE特征基因的病人生存分析

3.6.5 基于ME特征基因的病人生存分析

3.7 IPA分析及功能基因注释

3.7.1 特征基因的IPV分析

3.7.2 基因功能注释

3.8 本章小结

第四章 利用CNV数据建立模型识别NSCLC子类分类特征基因

4.1 引言

4.2 CNV数据与处理方法

4.2.1 CNV数据

4.2.2 预处理方法

4.3 模式识别模型及模型评价方法

4.3.1 识别特征基因

4.3.2 模式识别模型

4.3.3 模型评价方法

4.4 结果

4.4.1 特征基因及特征基因的特征统计

4.4.2 特征基因区分NSCLC样本与正常样本

4.5 讨论

4.5.1 与已发表区分ADC与SCC结果比较

4.5.2 已知重要致癌基因和具有统计生物意义基因

4.5.3 合并三个基因集对NSCLC子类分类

4.6 本章小结

第五章 基于ESDA模型识别snoRNAs

5.1 引言

5.2 数据集与特征提取方法

5.2.1 数据集

5.2.2 特征提取方法

5.3 构建ESDA模型

5.4 ESDA模型评价方法

5.5 结果

5.5.1 与SnoReport模型比较

5.5.2 与其他常用分类器比较

5.5.3 验证ESDA

5.5.4 重要特征分析

5.6 讨论

5.7 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

发表论文和参加科研情况说明

致谢

展开▼

摘要

随着人类获取信息能力的飞速发展,机器学习算法在科研和工程的各个领域得到了广泛的应用,涉及到化工生产统计过程控制、考古学的文本识别、社会和刑侦领域的指纹和图像识别以及生物医学领域的基因组信息研究等。面对日益增加的大数据,迫切需要高效和高准确率等综合性能较好的变量选择方法,以删除信噪比低和冗余变量的干扰,提高机器学习算法在模式识别领域的精度和效率。我们以非小细胞肺癌(non-small cell lung cancer,NSCLC)亚型的组织学和人类细胞中的snoRNAs的识别为背景,探讨不同的变量选择方法来提高分类精度。
  随着生物信息技术高速发展,已经运用高通量技术得到大量的生物医学实验数据,如何利用机器学习算法来研究生物数据,解决生物模式识别问题是目前的当务之急。非小细胞肺癌子类主要是肺腺癌(lung adenocarcinoma,ADC,58.8%)和鳞状细胞癌(squamous cell carcinoma,SCC,31.2%),识别非小细胞肺癌子类组织学分类的特征基因对非小细胞肺癌的机理分析和治疗方案选择极其重要;为了研究ADC与SCC各种不同特性的关键机理,我们联合弹性网络、最小二乘和贝叶斯分类器等算法基于TCGA数据库中三种数据(基因表达数据、甲基化数据和拷贝变异数据)建立分类器识别特征基因集。
  对于snoRNAs(small nucleolar RNA)来说,识别snoRNAs对了解snoRNAs和其他RNA等生物生命活动有着重要的意义。首先利用多种特征提取算法从有限的基因序列中提取尽可能多的信息,之后利用弹性网络等变量选择算法选取高信息含量特征进行模式识别。
  与已有的研究结果比较表明,本文中的方法无论在速度和精度上都具有很大的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号