首页> 中国专利> 一种重症监护病房中脓毒症预测系统、存储介质及设备

一种重症监护病房中脓毒症预测系统、存储介质及设备

摘要

本发明属于医疗数据挖掘的技术领域,提供了一种重症监护病房中脓毒症预测系统、存储介质及设备。其中,该系统包括数据预处理模块,其用于获取待监测者在重症监护病房中的医疗监护数据,并对其进行预处理;特征选择及提取模块,其用于按时间顺序接收预处理后的医疗监护数据并从接收的数据中进行特征选择和特征提取;脓毒症预测模块,其用于通过网络变换将时间序列转化为特征向量,并基于特征向量与当前时间戳信息输入至训练完成的脓毒症预测模型中,预测出发生脓毒症的概率;其中,脓毒症预测模型由多个分类器并联而成,最终预测出的发生脓毒症的概率为多个分类器的输出概率的均值。

著录项

  • 公开/公告号CN113871009A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 山东师范大学;

    申请/专利号CN202111137716.2

  • 申请日2021-09-27

  • 分类号G16H50/30(20180101);G16H50/70(20180101);G06K9/62(20060101);

  • 代理机构37221 济南圣达知识产权代理有限公司;

  • 代理人张庆骞

  • 地址 250014 山东省济南市历下区文化东路88号

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明属于医疗数据挖掘的技术领域,尤其涉及一种重症监护病房中脓毒症预测系统、存储介质及设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

最新的调查研究表明,全球每年约有3150万人患有脓毒症,其中超过600万人死于脓毒症,并且在重症监护病房(ICU)中脓毒症发病率和死亡率更高,死亡人数约占总人数的三分之二。脓毒症的治疗费用也在逐年升高,据统计,脓毒症在美国每年花费近170亿美元,在英国每年花费近25亿英镑的高昂医院护理费用。2016年欧洲重症学会与美国重症学会联合发布了脓毒症诊断标准(Sepsis-3),对脓毒症的定义为:因宿主对感染的反应失调而导致的危及生命的器官功能障碍。此外,随着抗生素治疗的延迟,死亡率会显著增加,例如在感染性脓毒症休克的情况下,抗生素治疗每延迟一小时,死亡风险就会增加约10%。因此,早期发现脓毒症,并及时治疗,对于改善ICU中脓毒症的死亡率至关重要。

重症监护病房中ICU多参数监护仪24小时产生约500MB数据,由于设备数据存储时间短,缺少专门的数据分析,有临床意义的医疗数据被大量丢弃。目前重症监护病房中缺乏对于脓毒症的时间序列数据分析方法,而且在早期的重症监护病房中,使用评分指标来监测ICU患者的病情发展,对于脓毒症监测,通常使用序贯器官衰竭评估(SOFA)和全身炎症反应综合征评估(SIRS)。然而,脓毒症的发展是一种动态过程,评分标准可能并不总是符合要求,导致这些评分标准的不确定性。

发明内容

为了解决上述背景技术中存在的技术问题,本发明提供一种重症监护病房中脓毒症预测系统、存储介质及设备,其根据数据挖掘的方法充分利用ICU中的各项数据特征,能够根据时间变化,动态调整预警信息,具有预测速度快、预测准确度高的显著效果。

为了实现上述目的,本发明采用如下技术方案:

本发明的第一个方面提供一种重症监护病房中脓毒症预测系统,其包括:

数据预处理模块,其用于获取待监测者在重症监护病房中的医疗监护数据,并对其进行预处理;

特征选择及提取模块,其用于按时间顺序接收预处理后的医疗监护数据并从接收的数据中进行特征选择和特征提取;

脓毒症预测模块,其用于通过网络变换将时间序列转化为特征向量,并基于特征向量与当前时间戳信息输入至训练完成的脓毒症预测模型中,预测出发生脓毒症的概率;

其中,脓毒症预测模型由多个分类器并联而成,最终预测出的发生脓毒症的概率为多个分类器的输出概率的均值。

本发明的第二个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:

获取待监测者在重症监护病房中的医疗监护数据,并对其进行预处理;

按时间顺序接收预处理后的医疗监护数据并从接收的数据中进行特征选择和特征提取;

通过网络变换将时间序列转化为特征向量,并基于特征向量与当前时间戳信息输入至训练完成的脓毒症预测模型中,预测出发生脓毒症的概率;

其中,脓毒症预测模型由多个分类器并联而成,最终预测出的发生脓毒症的概率为多个分类器的输出概率的均值。

本发明的第三个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如下步骤:

获取待监测者在重症监护病房中的医疗监护数据,并对其进行预处理;

按时间顺序接收预处理后的医疗监护数据并从接收的数据中进行特征选择和特征提取;

通过网络变换将时间序列转化为特征向量,并基于特征向量与当前时间戳信息输入至训练完成的脓毒症预测模型中,预测出发生脓毒症的概率;

其中,脓毒症预测模型由多个分类器并联而成,最终预测出的发生脓毒症的概率为多个分类器的输出概率的均值。

与现有技术相比,本发明的有益效果是:

本发明按时间顺序接收预处理后的医疗监护数据并从接收的数据中进行特征选择和特征提取,通过网络变换将时间序列转化为特征向量,并基于特征向量与当前时间戳信息输入至训练完成的脓毒症预测模型中,预测出发生脓毒症的概率;其中,脓毒症预测模型由多个分类器并联而成,最终预测出的发生脓毒症的概率为多个分类器的输出概率的均值,充分利用了重症监护病房中的各项数据特征,能够根据时间变化,动态调整预警信息,具有预测速度快、预测准确度高的显著效果。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1是本发明实施例一种重症监护病房中脓毒症预测系统结构示意图。

图2是本发明实施例的重症监护病房中脓毒症预测原理图;

图3是本发明实施例的LightGBM模型总体结构框架图;

图4是本发明实施例的重症监护病房中脓毒症监护特征表。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

如图1所示,本实施例提供了一种重症监护病房中脓毒症预测系统,其具体包括如下模块:

(1)数据预处理模块,其用于获取待监测者在重症监护病房中的医疗监护数据,并对其进行预处理。

例如:在重症监护病房中的医疗监护数据包括8个生命体征指标、26个实验室指标和6个人口统计学指标等40个特征指标,每小时记录一次数据指标的时间戳。图4给出了重症监护病房中脓毒症监护特征表,该表中记录了重症监护病房中内的医疗监护数据。

其中,所述预处理包括对获取的待监测者在重症监护病房中的医疗监护数据进行归一化处理,进行缺失值的填充以及异常值的筛选和替换。使用随机正态分布和多邻域缺失值插补的方法对缺失值进行填充。

具体地,由于获取的ICU(重症监护病房)数据中包含数据异常、数据缺失、数据的格式不统一等问题,首先需要对获取的数据格式进行归一化处理,然后再进行缺失值的填充以及异常值的筛选和替换。

缺失值在原始临床数据集中很常见,在ICU数据中,由于化验时间和采样间隔较长,造成时间序列数据缺失,这给临床数据分析带来了障碍。

其中,数据预处理的具体步骤为:

计算每一个特征变量所对应的方差与标准差,设定阈值(例如:0.2-0.8中的任一值),超出阈值则定义为数据异常值,需要进行过滤处理;

根据autoimpute包使用随机正态分布和多邻域缺失值插补的方法对ICU临床数据集的缺失值进行填充;

最后把数据单位调整为统一单位,数据格式转化为时间序列数据。

其中,autoimpute是一个用于分析和实现插补方法的python包。

(2)特征选择及提取模块,其用于按时间顺序接收预处理后的医疗监护数据并从接收的数据中进行特征选择和特征提取。

其中,基于多次特征选择,从预处理后的医疗监护数据中选择出最优的多组特征数据。根据主成分分析和非负矩阵分解进行脓毒症的特征提取。

由于获取的数据特征种类较多且有部分数据缺失率较高,首先去除数据缺失率超过设定阈值的特征。例如:数据缺失率阈值设定为0.9,即如果数据缺失率达到0.9,则去除该项特征。

然后使用scikit-learn机器学习库中的feature_selection进行初步特征选择,可根据不同的选择方法,进行多次特征选择,直至选择出最优的多组特征数据

每种特征选择方法都会给出特征关联度的排名,根据多种排名的综合结果,再依据数据集的多种(比如:40种)特征,可选择与脓毒症关联程度高的前n(比如:n为20)个特征数据。

采用支持向量机(SVC)的方法进行递归特征消除(RFE)和交叉验证,给定一个为特征分配权重的外部估计器(例如,线性模型的系数),RFE的目标是通过递归考虑越来越小的特征集来选择特征,最后进行特征排名。

在递归特征消除(RFE)中,通过特征分配权重的外部估计器(如,线性模型的系数),首先,估计器在初始特征集上进行训练,每个特征的重要性通过feature_importances属性来进行筛选,该属性就表示每个特征与脓毒症结果的关联程度,根据feature_importances来对特征数据的重要性进行排名。

需要说明的是,也可采用其他特征选择,本领域技术人员可根据实际情况来具体选择。比如:

方案1:基于ANOVA中F值的单变量特征选择,使用方差分析中的F值来计算每个特征与脓毒症结果的联系;

方案2:基于交叉验证和支持向量机的递归特征消除,通过召回率、准确度、精确度、AUC等宏观标志来确定特征与脓毒症结果的关联程度,并将关联度小的特征进行消除;

方案3:基于随机森林的特征选择,通过训练10棵决策树来对数据集进行分类,最终选择的是在特征子集中出现最频繁的特征。

特征选择与特征提取的具体步骤为:

使用scikit-learn库实现基本特征选择,根据支持向量机(SVC)进行递归特征消除(RFE)和交叉验证,给定一个为特征分配权重的外部估计器(例如,线性模型的系数),RFE的目标是通过递归考虑越来越小的特征集来选择特征,最后进行特征排名。对于特征提取,根据主成分分析(PCA)和非负矩阵分解(NMF)进行关于脓毒症的主要特征提取。PCA利用样本协方差矩阵的特征向量来获得新的因子,该矩阵表示最高特征值相关联的特征向量组成的子集合,能够产生最小化平方误差的重构特性。

(3)脓毒症预测模块,其用于通过网络变换将时间序列转化为特征向量,并基于特征向量与当前时间戳信息输入至训练完成的脓毒症预测模型中,预测出发生脓毒症的概率。

其中,脓毒症预测模型由多个分类器并联而成,最终预测出的发生脓毒症的概率为多个分类器的输出概率的均值。

在具体实施中,每个分类器均由LightGBM模型和贝叶斯优化器,LightGBM模型利用贝叶斯优化器来避免过拟合。

在训练脓毒症预测模型中,使用网格搜索来寻找脓毒症预测模型的性能最佳参数。

在训练脓毒症预测模型中,按时间顺序接收经预处理后的医疗数据,通过网络变换将时间序列转化为特征向量。这些特征向量与当前时间戳信息一起输入LightGBM梯度增强算法,以学习与脓毒症相关的特征组合,最终得出患者的风险评分。通过将时间信息与特征向量一起输入到LightGBM算法,使用一种带深度限制的leaf-wise策略来生长树进行脓毒症的分类任务,通过选取具有最大delta loss的叶节点来生长。每次从当前所有叶子中找到具有最大分裂增益的叶子节点进行迭代分裂。相比level-wise生长策略,在同样的分裂次数下,leaf-wise的误差更低、效率更高。

基于多特征融合的改进LightGBM算法通过直方图算法替换了传统的Pre-Sorted算法,将连续特征离散化为k个特征值,同时构造一个宽度为k的直方图。遍历数据时,根据离散化后的值作为索引进行累计统计,然后遍历寻找最优分类值。

在训练脓毒症预测模型的过程为:

首先进行训练集和测试集的划分,进行10次交叉验证,以验证LightGBM的性能,通过训练将模型过度拟合降至最低。在训练集上进行模型推导和模型参数的优化,在测试集上进行模型的评估。基于多特征融合的改进LightGBM模型和贝叶斯优化算法进行脓毒症的预测分类,并通过贝叶斯优化器和梯度优化来确定回归值的截止阈值。

当脓毒症数据较少时,leaf-wise可能会造成过拟合。所以,LightGBM可以利用贝叶斯优化算法中额外的参数来限制树的深度并避免过拟合,从而加速训练流程并减少内存使用。首先,在贝叶斯优化算法中选择高斯过程作为先验函数来表示被优化函数的分布假设。其次,构建一个最大概率提升器作为采集函数,用于从模型后验分布中确定下一个需要评估的点。然后超参数的搜索空间从图结构转换为树形结构,并且使用非参数估计取代参数估计,在效率和精度上都获得更好的收益。

在训练脓毒症预测模型中,采用真实结果与预测结果之间的二元交叉熵作为损失函数。

本实施例通过贝叶斯优化算法中ROC曲线和混淆矩阵确定脓毒症阈值,在LightGBM中特征向量作为回归值需要确定它的截止阈值,防止模型训练的过拟合,影响模型精度,

LightGBM(Light Gradient Boosting Machine)是一个快速实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式处理,可以快速处理海量数据。考虑到LightGBM不易过度拟合,且对异常值较为敏感,该模型在早期对所有变量都采用了正向缺失补偿,采用真实结果与预测结果之间的二元交叉熵作为损失函数。

下面比较了LightGBM模型和序贯器官衰竭评分(SOFA)、修正早期预警评分(MEWS)、全身炎症反应综合征评分(SIRS)和简化急性生理评分(SAPS)的脓毒症分类性能,并从中学习脓毒症的临床特征表现。为了提高训练效果,我们将90%的原始脓毒症数据随机分成多个相等不相交的子数据集,然后,使用每个子数据集来训练多个LightGBM分类器。此外,由于脓毒症和非脓毒症数量之间的不平衡问题,我们使用随机欠采样技术分别平衡每个子数据集的数据。最后,使用几何均值对多个分类器的输出进行整合。

例如:在初步设定中分类模块包含5个分类器,这样的依据是避免某一个分类器产生过拟合对模型整体精度产生影响,在输出时使用几何均值来平均分类器的输出。

根据gradient-free算法计算预测得分最大化的回归值来进行模型的优化,根据计算接受者操作特征曲线下面积(AUROC)、精确召回率曲线下面积(AUPRC)、灵敏度和特异性来评估模型预测性能。在训练模型的同时进行参数的最优化处理,对分类器的分类结果进行评价,如果分类评价结果不满足所设定的阈值,将重新输入到分类器进行再次分类,直至满足分类评价要求,然后输出分类结果,如图2和图3所示。

实施例二

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:

获取待监测者在重症监护病房中的医疗监护数据,并对其进行预处理;

按时间顺序接收预处理后的医疗监护数据并从接收的数据中进行特征选择和特征提取;

通过网络变换将时间序列转化为特征向量,并基于特征向量与当前时间戳信息输入至训练完成的脓毒症预测模型中,预测出发生脓毒症的概率;

其中,脓毒症预测模型由多个分类器并联而成,最终预测出的发生脓毒症的概率为多个分类器的输出概率的均值。

实施例三

本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如下步骤:

获取待监测者在重症监护病房中的医疗监护数据,并对其进行预处理;

按时间顺序接收预处理后的医疗监护数据并从接收的数据中进行特征选择和特征提取;

通过网络变换将时间序列转化为特征向量,并基于特征向量与当前时间戳信息输入至训练完成的脓毒症预测模型中,预测出发生脓毒症的概率;

其中,脓毒症预测模型由多个分类器并联而成,最终预测出的发生脓毒症的概率为多个分类器的输出概率的均值。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号