技术领域
本发明涉及大数据分析预测技术领域,特别是涉及一种基于医疗数据的充血性心衰风险预测方法、系统及设备、存储介质。
背景技术
充血性心衰也称为慢性的心功能不全,各种原因各种的心脏疾病导致的这种结果,比如长期的冠心病、心肌缺血、长期的高血压、心肌炎,风湿性心脏病等这种情况,都会表现为最后的慢性心功能不全这些表现。目前基于人工的心衰分类,不仅耗时、费力,而且诊断结果容易受到诸多主观人为因素的影响。随着现代科学技术不断进步与发展,人工智能、大数据也被不断发现其潜能,提高了医疗数据收集的效率。
在收集到的数据中使用随机森林的算法和模型所得出的预测模型适用于医疗保健领域的各种临床风险评估。临床风险评估工具提供了关于一个人患疾病或遇到临床事件的机会的信息,这对于教育病人和医疗保健提供者监测健康状况的发展是有用的。
然而,真实世界的医疗数据本质上不仅有噪声,且具有异质性,严重倾斜,包含数百个相关或有时相关的属性;另外这些数据驻留在多个数据库中,如单个emr、实验室和成像系统、医生笔记、医疗函件、索赔、CRM系统和医院财务部门服务器。在医疗保健领域,收集、集成和分析如此庞大、复杂和嘈杂的数据是一项具有挑战性的任务。因此,医疗保健信息系统可以被视为大数据的一种形式,不仅因为其庞大的数量,也因为其复杂性和多样性,这使得传统的数据仓库解决方案非常繁琐,不适合大规模的数据探索和建模。
发明内容
本发明提供一种基于医疗数据的充血性心衰风险预测方法、系统及设备、存储介质,以满足结合机器学习技术实现有效的、自动化的充血性心力衰竭患者预设时间内,例如30天内再入院风险预测。
为实现上述技术目的,达到上述技术效果,本发明提供了一种基于医疗数据的充血性心衰风险预测方法,所述预测方法包括,
收集充血性心力衰竭患者的医疗数据作为平面文件存储在Hadoop文件系统的各个节点,调用Hive命令创建数据表,结构化所述医疗数据;
采用Cassandra管理基于Hadoop的开源数据库;
利用Mahout作为算法库使用随机森林算法预测充血性心力衰竭患者预设时间段再入院风险。
进一步地,所述预测方法包括,
加载训练数据到Hadoop文件系统中;
将原始数据预处理为可分类数据,通过选择预测器和目标变量识别每个变量类型,将每个向量类型编码为向量;
在Mahout算法库中选择随机森林算法进行分类及预测变量。
进一步地,所述向量类型包括数值型、类别型、文本型。
进一步地,所述预测方法还包括,
对不同格式的所述医疗数据进行预处理去噪,以再入院为目标值的训练数据提取特征,并通过向量化转换成模型训练使用的特征向量;
利用随机森林算法整理出预测模型;
以再入院为目标值的测试数据对训练完成的预测模型进行评估。
进一步地,在随机森林算法中,产生独立随机向量θ
在随机森林算法中,泛化误差为式(1):
PE
其中,下标X和Y是随机向量,表示概率在X,Y空间上,mg是边缘函数,衡量随机向量的平均投票数超过其他任何输出的平均投票数的程度;
边界函数定义为式(2):
mg(X,Y)=av
其中,I为指示函数,衡量单个分类器准确性和分类器之间相关性的两个参数分别是强度和相关性;随机特征的随机森林通过在每个节点上选择一小组输入变量随机形成。
作为本发明实施例的又一方面,提供一种基于医疗数据的充血性心衰风险预测系统,所述预测系统包括,
预处理模块,用于收集充血性心力衰竭患者的医疗数据作为平面文件存储在Hadoop文件系统的各个节点,调用Hive命令创建数据表,结构化所述医疗数据;
管理模块,用于采用Cassandra管理基于Hadoop的开源数据库;
预测模块,用于利用Mahout作为算法库使用随机森林算法预测充血性心力衰竭患者预设时间段再入院风险。
作为本发明实施例的再一方面,提供一种充血性心衰风险预测设备,所述预测设备包括:存储器、处理器,通信总线以及存储在所述存储器上的基于医疗数据的充血性心衰风险预测程序,
所述通信总线用于实现处理器与存储器间的通信连接;
所述处理器用于执行所述基于基于医疗数据的充血性心衰风险预测程序,以实现如上述任一项所述的基于医疗数据的充血性心衰风险预测方法的步骤。
作为本发明实施例的再一方面,提供一种存储介质,所述存储介质上存储有基于医疗数据的充血性心衰风险预测程序,所述基于医疗数据的充血性心衰风险预测程序被处理器执行时实现如上述任意一项所述基于医疗数据的充血性心衰风险预测方法的步骤。
本发明实施例至少部分实现了如下技术效果:
本发明利用Hadoop作为大数据框架,使用Hive作为基于Hadoop的开源数据库,使用Cassandra开源大数据工具来加快数据提取过程,再利用Mahout作为算法库使用随机森林来实现充血性心力衰竭患者30天内再入院风险预测模型。结合机器学习技术实现有效的、自动化的充血性心力衰竭患者30天内再入院风险预测,不仅可以提高诊断效率,还能为医生提供更加客观、准确的风险预测结果,具有重要的临床应用价值。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所记载的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例基于医疗数据的充血性心衰风险预测方法流程图;
图2为随机森林原理图;
图3为本发明又一实施例基于医疗数据的充血性心衰风险预测方法流程图;
图4为本发明一实施例基于医疗数据的充血性心衰风险预测系统的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。
在一个实施例中,如图1所示,提供了一种基于医疗数据的充血性心衰风险预测方法,所述预测方法包括,
S11收集充血性心力衰竭患者的医疗数据作为平面文件存储在Hadoop文件系统的各个节点,调用Hive命令创建数据表,结构化所述医疗数据;
S12采用Cassandra管理基于Hadoop的开源数据库;
S13利用Mahout作为算法库使用随机森林算法预测充血性心力衰竭患者预设时间段再入院风险。
在本实施例中,利用Hadoop作为大数据框架,使用Hive作为基于Hadoop的开源数据库,使用Cassandra开源大数据工具来加快数据提取过程;然后利用Mahout作为算法库使用随机森林来实现充血性心力衰竭患者30天内再入院风险预测模型。
Hadoop是一种流行的开源map-reduce实现,它被用作在商品硬件上存储和处理超大数据集的替代方案。Hadoop被设计成从单个服务器扩展到数百个计算节点,每个计算节点在Hadoop中提供本地计算和存储能力。但是,Hadoop没有提供查询功能。因此,可以提供一个基于MapReduce解决方案的处理框架来模拟一个可伸缩的数据仓库;为了实现这一目标,本发明使用Hive作为基于Hadoop的开源数据仓库解决方案,Hive支持使用类似sql的声明性语言HiveQL来表达查询,这些查询被编译成map-reduce作业,然后在Hadoop上执行。此外,HiveQL允许用户在查询中插入自定义mapreduce脚本。
优选地数据收集整理的步骤可以包括:医疗数据(如原始患者事件日志)或结构化电子医疗记录数据可以作为平面文件存储在各个节点上,这样就可以访问(也就是加载)到HDFS(Hadoop文件系统)中;手动调用Hive命令来创建合适的表并开发模式,这样数据才能被结构化并被适当地查询。
Cassandra是另一个流行的开源大数据工具,用于分布式数据管理,本实施例利用它来加快数据提取过程,与Hive相比,Cassandra提供了具有可调一致性的结构化键值存储。由于其环形架构,它具有大规模的可扩展性。数据复制到多个节点,防止节点故障造成数据丢失。Cassandra还提供了灵活的无模式数据建模,它提供了传统RDBMS表布局的组织方式,并结合了没有严格结构要求的灵活性和强大功能。
随机森林是一种多树预测器组合的分类方法,每棵树都依赖于随机选择的向量在森林中以相同的方式分布的一个值。其中随机森林的原理图参考图2。
优选地,所述预测方法包括,
加载训练数据到Hadoop文件系统中;
将原始数据预处理为可分类数据,通过选择预测器和目标变量识别每个变量类型,将每个向量类型编码为向量;这是Mahout分类器所要求的输入样式。
在Mahout算法库中选择随机森林算法进行分类及预测变量。即选择分类算法。Mahout中的算法都具有可伸缩性。在本专利中,首先使用随机森林,因为它可以适用于所有类型的预测变量。此外,它有很高的培训开销,因此对于R等传统工具来说成本很高,但它提供了复杂而有趣的分类,并且比其他技术更好地处理数据中的非线性和条件关系。
在一个实施例中,所述向量类型包括数值型、类别型、文本型。
在一个实施例中,所述预测方法还包括,
对不同格式的所述医疗数据进行预处理去噪,以再入院为目标值的训练数据提取特征,并通过向量化转换成模型训练使用的特征向量;
利用随机森林算法整理出预测模型;
以再入院为目标值的测试数据对训练完成的预测模型进行评估。
在本实施例中,通过医疗数据训练预测模型,并对模型进行评估,具体步骤参考附图3。
在一个实施例中,在随机森林算法中,会产生一个独立于以前的随机向量θ
在随机森林算法中,泛化误差为式(1):
PE
其中,下标X和Y是随机向量,表示概率在X,Y空间上,mg是边缘函数,衡量随机向量的平均投票数超过其他任何输出的平均投票数的程度;
边界函数定义为式(2):
mg(X,Y)=av
其中,I为指示函数,衡量单个分类器准确性和分类器之间相关性的两个参数分别是强度和相关性;随机特征的随机森林通过在每个节点上选择一小组输入变量随机形成。
基于同一发明构思,本发明实施例还提供了一种基于医疗数据的充血性心衰风险预测系统、充血性心衰风险预测设备及存储介质,其所解决问题的原理与前述实施例的基于医疗数据的充血性心衰风险预测方法相似,因此该基于医疗数据的充血性心衰风险预测系统、充血性心衰风险预测设备及存储介质的实施可以参见前述实施例的方法的实施,重复之处不再赘述。
在一个实施例中,如图4所是,提供一种基于医疗数据的充血性心衰风险预测系统,所述预测系统包括,
预处理模块11,用于收集充血性心力衰竭患者的医疗数据作为平面文件存储在Hadoop文件系统的各个节点,调用Hive命令创建数据表,结构化所述医疗数据;
管理模块12,用于采用Cassandra管理基于Hadoop的开源数据库;
预测模块13,用于利用Mahout作为算法库使用随机森林算法预测充血性心力衰竭患者预设时间段再入院风险。
在一个实施例中,提供一种充血性心衰风险预测设备,所述预测设备包括:存储器、处理器,通信总线以及存储在所述存储器上的基于医疗数据的充血性心衰风险预测程序,
所述通信总线用于实现处理器与存储器间的通信连接;
所述处理器用于执行所述基于基于医疗数据的充血性心衰风险预测程序,以实现如上述任一项所述的基于医疗数据的充血性心衰风险预测方法的步骤。
在一个实施例中,提供一种存储介质,所述存储介质上存储有基于医疗数据的充血性心衰风险预测程序,所述基于医疗数据的充血性心衰风险预测程序被处理器执行时实现如上述任意一项所述基于医疗数据的充血性心衰风险预测方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
机译: 基于面部的驾驶风险预测模型的方法,基于面部的驾驶风险预测方法及相关设备
机译: 基于大数据的风险预测方法,装置,服务器和存储介质
机译: 基于智能风险标志模式模型的能源植物实时风险标志预测方法和系统