首页> 中国专利> 一种用于识别慢性阻塞性肺疾病急性加重的系统

一种用于识别慢性阻塞性肺疾病急性加重的系统

摘要

本发明公开了一种用于识别慢性阻塞性肺疾病急性加重的系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存有以下模块:数据特征处理模块,用于接收呼吸科就诊数据进行特征处理,生成应用于识别模块的数据;识别模块,用于接收数据特征处理模块发送的数据,并预测目标病人是否处于慢性阻塞性肺疾病急性加重期。利用本发明,可以在减少检查时间的同时,提高识别慢性阻塞性肺疾病急性加重的效率。

著录项

  • 公开/公告号CN112652391A

    专利类型发明专利

  • 公开/公告日2021-04-13

    原文格式PDF

  • 申请/专利权人 浙江大学温州研究院;

    申请/专利号CN202011486949.9

  • 发明设计人 吴健;姜晓红;应豪超;杜邦;

    申请日2020-12-16

  • 分类号G16H50/20(20180101);G16H50/70(20180101);G06K9/62(20060101);

  • 代理机构33224 杭州天勤知识产权代理有限公司;

  • 代理人彭剑

  • 地址 325006 浙江省温州市瓯海区凤南路26号

  • 入库时间 2023-06-19 10:35:20

说明书

技术领域

本发明属于计算机辅助诊断技术领域,尤其是涉及一种用于识别慢性阻塞性肺疾病急性加重的系统。

背景技术

慢性阻塞性肺疾病(chronic obstructive pulmonary diseases,COPD)是一种具有气流阻塞特征的慢性支气管炎和(或)肺气肿,可进一步发展为肺心病和呼吸衰竭的常见慢性疾病。与有害气体及有害颗粒的异常炎症反应有关,致残率和病死率很高,全球40岁以上发病率已高达9%~10%。目前在我国的总患病人口约有1亿左右,其中40岁以上人群慢性阻塞性肺疾病患病率为13.7%,明显是高于国际的平均水平的。60岁以上的患病率超过27%,其中,男性的患病率是女性的2.2倍。如见慢性阻塞性肺疾病已然成为了与高血压、糖尿病等量齐观的最常见的慢性病,造成巨大的社会和经济负担。而慢性阻塞性肺疾病的急性加重期是绝大多数慢性阻塞性肺疾病患者死亡的独立危险因素,其防治水平直接影响患者的生存。因此针对慢性阻塞性肺疾病急性加重的判断是尤为重要的,及时判断患者处于急性加重期,就能降低患者死亡的风险。

慢阻肺本身具有明显的异质性,其急性加重的诱因也复杂多样。50%~70%是由感染引起,包括呼吸道细菌、病毒、非典型病原体等感染,其他引起慢阻肺症状加重的因素包括吸烟、环境污染、吸入过敏原、外科手术、应用镇静药物、维持治疗中断,以及气胸、胸腔积液、肺栓塞、充血性心力衰竭、心律失常等肺内外合并症或并发症。

流行病学调查表明,上呼吸道病毒感染是慢性阻塞性肺疾病急性加重(acuteexacerbation of chronic obstructive pulmonary disease,AECOPD)最早、最常见的诱发因素,约占50%左右,常见病毒为鼻病毒/肠病毒、流感病毒和呼吸道合胞病毒等,人偏肺病毒和博卡病毒较少见。2020年的慢性阻塞性肺疾病急性加重抗感染治疗中国专家共识提到,一项纳入19项研究总共1728例AECOPD患者的系统综述显示鼻/肠病毒(16.39%)、呼吸道合胞病毒(9.90%)和流感病毒(7.83%)是最常见的病毒。国内有研究报道流感病毒在AECOPD患者分离率较高,可能与流感疫苗接种率低有关。2017年慢性阻塞性肺疾病全球创议(global initiative for chronic obstructive lung disease,GOLD)报告指出病毒感染(是)AECOPD的主要触发因素,而且比细菌感染诱发的AECOPD更严重,持续时间长,且易反复发作。约25%的AECOPD住院患者存在病毒和细菌混合感染,其病情重,住院时间长。此外细菌感染、非典型病原体感染、与真菌感染和非感染性因素都是十分多间的,类似与非感染性因素中的如吸烟、空气污染、吸入变应原等都是诱发急性加重的重要因素。慢性阻塞性肺疾病患者只要不注意以上的诱发源,就会从慢性阻塞性肺疾病平稳期转至急性加重期。

慢性阻塞性肺疾病急性加重期定义为呼吸症状急性恶化,导致需要额外的治疗。慢性阻塞性肺疾病急性加重期是一种临床除外诊断,临床和/或实验室检查没有发现其他可以解释的特异疾病,它的主要症状是气促加重,常伴有喘息、胸闷、咳嗽加剧、痰量增加、痰液颜色和/或黏度改变以及发热等。此外,可出现心动过速、呼吸急促、全身不适、失眠、嗜睡、疲乏、抑郁和精神紊乱等非特异性症状。

目前,慢性阻塞性肺疾病急性加重期的诊断完全依赖于临床表现。即患者主诉症状的突然变化(基线呼吸困难、咳嗽、和/或咳痰情况)超过日常变异范围。一般需要通过常规实验室检查、胸部影像学检查、动脉血气分析、肺功能测定、心电图(ECG)和超声心动图(UCG)、血液生化检查以及痰培养及药物敏感试验等才能确定是否处于急性加重期。但是这对于急性加重这种可能致死的情况,检查这么多项目是很困难的,如何快速有效且准确的判断慢性阻塞性肺疾病患者是否处于急性加重期,是当前极为重要的研究点。

人工智能是目前新兴的计算机技术,它所探究的是如何使计算机去做过去只有人才能做的智能工作,并能做的更好。使用人工智能中的计算机辅助诊断技术方法,进行慢性阻塞性肺疾病急性加重期识别,可以通过患者较少的检查信息,快速且准确的判断患者是否处于慢性阻塞性肺疾病急性加重期。该方法克服了病患需要检查多个项目耗时耗力并增加死亡风险的问题,又能有效地判断患者的疾病。这项发明能帮助医生快速的判断患者的状态及时提出治疗方案,降低慢性阻塞性肺疾病急性加重带来的死亡风险。

发明内容

本发明提供了一种用于识别慢性阻塞性肺疾病急性加重的系统,可以在减少检查时间的同时,提高识别慢性阻塞性肺疾病急性加重的效率。

一种用于识别慢性阻塞性肺疾病急性加重的系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存有以下模块:

数据特征处理模块,用于接收呼吸科就诊数据进行特征处理,生成应用于识别模块的数据;

识别模块,用于接收数据特征处理模块发送的数据,并预测目标病人是否处于慢性阻塞性肺疾病急性加重期。

数据特征处理模块在接收呼吸科就诊数据之前,先通过对病人的就诊信息和现病史内的关键词进行筛查,筛查的关键词包括:咳嗽、咳痰、呼吸困难、气促、气急、呼吸不畅、呼吸不顺、喘息、气喘、胸闷、发热、气紧、乏力、纳差、胃口不好、睡眠差、消瘦、体重下降,存在上述关键词的病人的数据会被纳入。

所述的呼吸科就诊数据包括呼吸科检验数据和呼吸科肺功能报告。其中,呼吸科检验数据的特征包含血常规CRP所有检验特征;呼吸科肺功能报告的特征包含病人性别、年龄、身高、体重以及肺功能报告内的所有特征,同时根据肺功能报告内的结论,剔除包含“舒张试验阳性”的数据。

所述的特征处理包括数据缺失值填充和统一数据量纲。

所述的识别模块分为两个算法层,第一层是多个基学习器,由完成特征处理的数据作为原始的输入;第二层是一个分类学习器,以第一层基学习器的输出向量作为训练集进行再训练,进行结果分类;两个算法层通过一个完整的STACKING集成,对需要预测的目标病人是否处于慢性阻塞性肺疾病急性加重期进行分类。

第一层是多个基学习器包括逻辑回归模型、随机森林模型、朴素贝叶斯模型、决策树模型以及XGBoost模型。

逻辑回归模型是一种广义线性回归,是分类模型,并常用于二分类。用于描述自变量x和因变量Y之间的关系,或者自变量X对因变量Y的影响程度,并对因变量Y进行预测;逻辑回归的预测函数:

式中,x是输入,θ

朴素贝叶斯模型是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y;朴素贝叶斯分类器公式:

式中,P(Y=C

随机森林模型,是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

决策树模型,决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。

XGBoost模型,是一个树集成模型,他将K(树的个数)个树的结果进行求和,作为最终的预测值。

与现有技术相比,本发明具有以下有益效果:

1、本发明通过将数据进行筛查,特征处理生成可应用于识别算法的数据,将其输入分为两层的算法模型中。第一层用多个分类模型对数据进行特征提取,再将得到的特征作为第二层分类器的输入,输出的结果用于判断患者是否处于慢性阻塞性肺疾病急性加重期。是一种让计算机使用人工智能的方式自主判断患者是否处于慢性阻塞性肺疾病急性加重期的系统。

2、本发明的系统只需要患者检查血常规和肺功能即可,能更有效的应用于现实场景,提高判断的效率,在减少检查时间的同时,提高识别急性加重的效率,从而能有效地降低慢性阻塞性肺疾病急性加重带来的死亡风险。

附图说明

图1为本发明一种用于识别慢性阻塞性肺疾病急性加重的系统结构示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。

如图1所示,一种用于识别慢性阻塞性肺疾病急性加重的系统,包括计算机存储器、计算机处理器以及存储在计算机存储器中并可在计算机处理器上执行的计算机程序,计算机存储器中存有以下模块:

数据特征处理模块,用于接收呼吸科就诊数据进行特征处理,生成应用于识别模块的数据;

识别模块,用于接收数据特征处理模块发送的数据,并预测目标病人是否处于慢性阻塞性肺疾病急性加重期。

本发明系统在工作时包括以下步骤:

步骤一:生成可应用于识别模块的数据。

步骤二:将生成的数据输入识别慢性阻塞性肺疾病急性加重的识别模块,预测目标病人是否处于慢性阻塞性肺疾病急性加重期。

具体的,在数据特征处理模块中,生成可应用于识别模块的数据,其中可应用于识别模块的数据包含呼吸科检验数据和呼吸科肺功能报告的详细数据信息。

进一步地,在数据特征处理模块中,生成可应用于识别算法的数据,包括:

获取指定的呼吸科就诊数据;

从指定的呼吸科就诊数据中,通过指定的特征ID,提取得到呼吸科就诊检验和肺功能报告的详细数据信息。

从指定的呼吸科就诊数据中,对提取得到的呼吸科就诊检验和肺功能报告的详细数据信息进行特征工程。包括数据缺失值填充和统一数据量纲。

进一步地,在识别模块的算法层中,将完成特征处理的数据作为算法层的输入,预测目标病人是否处于慢性阻塞性肺疾病急性加重期,包括:

算法层分为两层,第一层是多个基学习器,由完成特征处理的数据作为原始的输入。第二层的模型则是以第一层基学习器的输出作为训练集进行再训练。

通过一个完整的STACKING集成,对需要预测的目标病人是否处于慢性阻塞性肺疾病急性加重期进行分类。

进一步地,通过就诊信息和现病史,获取进一步筛选的呼吸科就诊数据,包括:

通过就诊信息和现病史内的关键词对就诊数据进行进一步的筛查,包括:咳嗽、咳痰、呼吸困难、气促、气急、呼吸不畅、呼吸不顺、喘息、气喘、胸闷、发热、气紧、乏力、纳差、胃口不好、睡眠差、消瘦、体重下降。存在上述关键词的数据会被纳入。

进一步地,通过指定的特征ID,提取得到所述的呼吸科就诊检验和肺功能报告的详细数据信息,包括:

呼吸科检验数据特征包含血常规CRP所有检验特征。

呼吸科肺功能报告特征包含病人性别、年龄、身高、体重以及肺功能报告内的所有特征。同时根据肺功能报告内的结论,剔除包含“舒张试验阳性”的数据。

识别模块的算法层中,第一层的多个基学习器包括逻辑回归模型、随机森林模型、朴素贝叶斯模型、决策树模型以及XGBoost模型。

具体的,逻辑回归模型,是一种广义线性回归,是分类模型,并常用于二分类。逻辑回归分析用来描述自变量x和因变量Y之间的关系,或者说自变量X对因变量Y的影响程度,并对因变量Y进行预测。逻辑回归地预测函数:

结果h

随机森林模型,是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。随机森林算法流程如下:

1.用N来表示训练用例(样本)的个数,M表示特征数目。

2.输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。

3.从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并用未抽到的用例(样本)作预测,评估其误差。

4.对于每一个节点,随机选择m个特征,决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征,计算其最佳的分裂方式。

5.每棵树都会完整成长而不会剪枝,这有可能在建完一棵正常树状分类器后会被采用)。

朴素贝叶斯模型,是以贝叶斯原理为基础,使用概率统计的知识对样本数据集进行分类。朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y。朴素贝叶斯分类器公式:

决策树模型,决策点代表决策问题,用方案分枝代表可供选择的方案,用概率分枝代表方案可能出现的各种结果,经过对各种方案在各种结果条件下损益值的计算比较,为决策者提供决策依据。一般决策树使用信息增益作为选择的标准。

信息熵表示的是不确定度。均匀分布时,不确定度最大,此时熵就最大。当选择某个特征对数据集进行分类时,分类后的数据集信息熵会比分类前的小,其差值表示为信息增益。信息增益可以衡量某个特征对分类结果的影响大小。

假设在样本数据集D中,混有c种类别的数据。构建决策树时,根据给定的样本数据集选择某个特征值作为树的节点。在数据集中,可以计算出该数据中的信息熵:

其中D表示训练数据集,c表示数据类别数,Pi表示类别i样本数量占所有样本的比例。对应数据集D,选择特征A作为决策树判断节点时,在特征A作用后的信息熵的为Info(D),计算如下:

其中k表示样本D被分为k个部分。信息增益表示数据集D在特征A的作用后,其信息熵减少的值。对于决策树节点最合适的特征选择,就是Gain(A)值最大的特征公式如下:

Gain(A)=Info(D)-Info

XGBoost模型,是一个树集成模型,他将K(树的个数)个树的结果进行求和,作为最终的预测值。即:

进一步地,第二层的模型则是以第一层基学习器的输出作为训练集进行再训练,包括:

使用一个简单的分类学习器,将第一层多个模型的输出的向量作为第二层的输入,进行结果分类,输出结果。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号