基于正规化回归模型的医疗诊断数据挖掘应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

数据挖掘方法是一种有效的信息抽取和发现方法，这种方法是把数据从医院的数据库系统中提取出来，然后对提取出的数据进行分析评估，找到数据中隐藏的价值，为医疗诊断提供科学依据。
　　对于数据挖掘算法中的随机森林算法(Random Forest，RF)具有可以处理非线性、高维度数据集的优点，因此在很多的领域中得到了广泛的应用。然而，RF算法存在着两个问题:第一，对该算法提出的改进方法都没有得到理论证明从而不能用于实际应用中;第二，对RF算法效率提升的改进仍然有很多不足之处。根据上述存在问题本文分别做出相应分析，提出了一种基于最优抽样倍数和不放回抽样的随机森林算法(OptimalSampling Times and No Release Random Forest Algorithm，OSNR-RF)，对提出的优化算法的合理性进行实验验证。论文主要内容如下:
　　首先，介绍数据挖掘的基本理论知识，说明数据预处理是数据挖掘工作中必不可少的一步，并且详细介绍数据预处理方法中的特征选择算法。同时介绍正规化回归模型以及该模型中的岭回归(Ridge Regression，RR)模型，正规化回归模型具有预测准确率高、模型可解释性强的特点，同时RR模型本身具有无偏性、有效性、相合性和渐进正态性等优良的参数估计性质，采用RR模型对数据做变量选择;其次，对随机森林算法做简要介绍，研究训练集样本量的改变以及抽样方法的改进对原始算法的影响。
　　经过一系列的实验验证得出:
　　(1)改变随机森林的抽样倍数，提出并证明了随着抽样倍数的改变随机森林算法分类的错误率也在降低，经过反复的实验证明了在最优的重复抽样区间(取N＜n＜2N)中，算法的分类准确率得到了提高;
　　(2)采用不放回随机抽样方法替代原始随机森林算法的有放回随机抽样方法减少了随机森林算法的运行时间，使得时间效率得到提高。将前面两个改进思想综合起来提出了OSNR-RF算法，本文不仅从理论上进行证明它的合理性，同时进行了实验验证，结果表明该算法具有更高的分类效率。
　　最后，实验验证数据集采用了UCI上的标准数据集和某妇幼保健院乳腺癌数据集，数据预处理部分采用RR模型解决数据多重共线性的问题。使用OSNR-RF算法对处理过的数据集进行实验，在分类精度和训练效率上分别进行了对比，做详细的性能测试，通过对比得出，OSNR-RF算法在分类性能上有所提升，综合性能更加稳定。

著录项

作者
梁靖涵;
展开▼
作者单位

兰州交通大学;

展开▼
授予单位兰州交通大学;
学科计算机技术
授予学位硕士
导师姓名吴辰文,崔杰;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类医院自动化管理;
关键词
医疗诊断; 数据挖掘; 正规化回归; 随机森林算法;

相似文献

中文文献
外文文献
专利

1. 基于数据挖掘的在线医疗诊断系统 [J] . 林震 . 电脑与信息技术 . 2016,第006期
2. 基于数据挖掘技术的辅助医疗诊断研究 [J] . 吴炜 ,杨梅瑰 ,唐飞岳 . 医学信息学杂志 . 2010,第012期
3. 基于关联规则的数据挖掘在医疗诊断中的应用 [J] . 张萌 ,梁正 ,祝思清 . 山东科学 . 2008,第001期
4. 基于虚拟机的轻量级医疗诊断系统的应用研究 [J] . 包敬海 ,龚文锋 ,黄安甲 . 计算机应用研究 . 2010,第004期
5. 基于数据挖掘的互联网众筹成功进度分位数回归模型 [J] . 邱瑾 ,张淑楠 . 统计与信息论坛 . 2018,第002期
6. 基于线性回归模型累积法在外测数据处理中的应用研究 [C] . 吴晓露 ,宋仔标 ,刘代志 . 第二届国家安全地球物理年会暨学术研讨会 . 2006
7. 数据挖掘技术在医疗诊断中的应用研究 [A] . 郭彩杏 . 2019

基于正规化回归模型的医疗诊断数据挖掘应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅