首页> 中文学位 >基于正规化回归模型的医疗诊断数据挖掘应用研究
【6h】

基于正规化回归模型的医疗诊断数据挖掘应用研究

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本论文的研究内容

1.4 本文的组织框架

1.5 本章小结

2 相关技术研究

2.1 医疗数据挖掘过程

2.2 数据挖掘功能

2.2.1 关联分析

2.2.2 分类

2.2.3 回归分析

2.2.4 聚类分析

2.3 数据预处理

2.3.1 数据预处理的任务

2.3.2 特征选择

2.4 本章小结

3 基于正规化回归模型的数据预处理过程

3.1 正规化回归模型

3.1.1 正规化的意义

3.1.2 正规化的原理

3.2 基于正规化回归模型的特征筛选方法

3.2.1 基于单一组学的特征筛选方法

3.2.2 基于多组学数据变量筛选方法

3.3 岭回归

3.4 基于岭回归分析数据预处理过程

3.4.1 岭迹分析

3.4.2 岭参数k值的选择

3.4.3 岭回归做变量选择

3.5 本章小结

4 优化随机森林算法

4.1 随机森林模型建立

4.1.1 随机森林算法

4.1.2 随机森林模型建立过程

4.2 OSNR-RF模型建立

4.2.1 问题描述与算法设计

4.2.2 综合评价指标提取

4.3 本章小结

5 基于正规化回归模型的医疗诊断数据挖掘

5.1 实验环境

5.2 基于正规化回归模型的数据分析

5.2.1 实验数据概述

5.2.2 基于岭回归分析的数据预处理过程

5.3 实验结果展示与分析

5.3.1 训练集对组合分类模型准确率的影响研究

5.3.2 基于Bagging抽样倍数的准确率影响研究

5.3.3 随机森林效率提升研究

5.3.4 OSNR-RF算法实验过程和分析

5.4 本章小结

结论

致谢

参考文献

攻读学位期间的研究成果

展开▼

摘要

数据挖掘方法是一种有效的信息抽取和发现方法,这种方法是把数据从医院的数据库系统中提取出来,然后对提取出的数据进行分析评估,找到数据中隐藏的价值,为医疗诊断提供科学依据。
  对于数据挖掘算法中的随机森林算法(Random Forest,RF)具有可以处理非线性、高维度数据集的优点,因此在很多的领域中得到了广泛的应用。然而,RF算法存在着两个问题:第一,对该算法提出的改进方法都没有得到理论证明从而不能用于实际应用中;第二,对RF算法效率提升的改进仍然有很多不足之处。根据上述存在问题本文分别做出相应分析,提出了一种基于最优抽样倍数和不放回抽样的随机森林算法(OptimalSampling Times and No Release Random Forest Algorithm,OSNR-RF),对提出的优化算法的合理性进行实验验证。论文主要内容如下:
  首先,介绍数据挖掘的基本理论知识,说明数据预处理是数据挖掘工作中必不可少的一步,并且详细介绍数据预处理方法中的特征选择算法。同时介绍正规化回归模型以及该模型中的岭回归(Ridge Regression,RR)模型,正规化回归模型具有预测准确率高、模型可解释性强的特点,同时RR模型本身具有无偏性、有效性、相合性和渐进正态性等优良的参数估计性质,采用RR模型对数据做变量选择;其次,对随机森林算法做简要介绍,研究训练集样本量的改变以及抽样方法的改进对原始算法的影响。
  经过一系列的实验验证得出:
  (1)改变随机森林的抽样倍数,提出并证明了随着抽样倍数的改变随机森林算法分类的错误率也在降低,经过反复的实验证明了在最优的重复抽样区间(取N<n<2N)中,算法的分类准确率得到了提高;
  (2)采用不放回随机抽样方法替代原始随机森林算法的有放回随机抽样方法减少了随机森林算法的运行时间,使得时间效率得到提高。将前面两个改进思想综合起来提出了OSNR-RF算法,本文不仅从理论上进行证明它的合理性,同时进行了实验验证,结果表明该算法具有更高的分类效率。
  最后,实验验证数据集采用了UCI上的标准数据集和某妇幼保健院乳腺癌数据集,数据预处理部分采用RR模型解决数据多重共线性的问题。使用OSNR-RF算法对处理过的数据集进行实验,在分类精度和训练效率上分别进行了对比,做详细的性能测试,通过对比得出,OSNR-RF算法在分类性能上有所提升,综合性能更加稳定。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号