首页> 中国专利> 一种急性缺血性卒中临床表型构建方法、关键生物标志物筛选方法及其应用

一种急性缺血性卒中临床表型构建方法、关键生物标志物筛选方法及其应用

摘要

本发明提供了一种急性缺血性卒中临床表型构建方法、关键生物标志物筛选方法及其应用,属于生物信息学技术领域。本发明基于多组学数据和数据驱动下挖掘急性缺血性卒中临床表型的方法,实现患者临床结局及治疗反应性评估的机器学习算法,并将其应用于急性缺血性卒中的患者风险分层及辅助治疗决策,形成了有效的临床评估工具。本发明还筛选一组急性缺血性卒中预后关键生物标志物,可以根据不同病理生理学机制对患者进行准确预测疾病风险,其优势在于应用机器学习的方法在大量数据中挖掘可靠的关键生物标志物,使构建的预测模型在实现高度精准预测的同时,也便于在临床中应用。

著录项

  • 公开/公告号CN113851216A

    专利类型发明专利

  • 公开/公告日2021-12-28

    原文格式PDF

  • 申请/专利权人 首都医科大学附属北京天坛医院;

    申请/专利号CN202111114266.5

  • 申请日2021-09-23

  • 分类号G16H50/20(20180101);G16H50/70(20180101);G16B20/00(20190101);G16B40/00(20190101);

  • 代理机构11569 北京高沃律师事务所;

  • 代理人薛红凡

  • 地址 100070 北京市丰台区南四环西路119号

  • 入库时间 2023-06-19 13:26:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-13

    发明专利申请公布后的驳回 IPC(主分类):G16H50/20 专利申请号:2021111142665 申请公布日:20211228

    发明专利申请公布后的驳回

说明书

技术领域

本发明属于生物信息学技术领域,具体涉及一种急性缺血性卒中临床表型构建方法、关键生物标志物筛选方法及其应用。

背景技术

脑血管病是严重威胁人类健康与生命的重大疾病,已成为全球性致死、致残的主要病因之一,其中急性缺血性卒中(acute ischemic stroke,AIS)作是最为常见的类型。缺血性卒中二级预防措施包括抗栓治疗、控制血压、控制血糖和降低胆固醇治疗等对降低卒中复发风险、改善预后至关重要。然而,有证据表明部分缺血性卒中患者在接受指南推荐的规范化二级预防治疗后仍存在较高卒中复发风险。上述证据表明现有的二级预防措施不能满足所有脑血管病患者的有效风险管理,亟待发现新的能够有效对缺血性卒中患者进行风险分层管理的工具,通过个体化精准管理进一步改善卒中患者预后。现有卒中风险评价多采用传统危险因素等临床信息作为主要评价内容对缺血性卒中进行风险分层,包括卒中预后评估工具I(SPI-I)、SPI-II、Essen卒中风险评分、California风险评分以及ABCD评分系统等,然而,传统的评分及预测模型信度及效度有限,在外部队列的泛化性能较差。

临床表型是描述患者个体差异的单一或一组疾病属性,与临床结局(如治疗反应、复发、死亡等)密切相关,是研究疾病风险的重要基础。缺血性卒中是一种复杂的、多因素疾病,目前尚缺乏基于多个生物标志物的急性缺血性卒中临床表型研究,如何发现有效的生物标志物,构建能够实现疾病预后风险分层、反应疾病病理生理学机制以及治疗反应性的缺血性卒中临床表型是实现缺血性卒中精准诊疗亟待解决的问题。

发明内容

有鉴于此,本发明的目的在于提供一种急性缺血性卒中临床表型构建方法、关键生物标志物筛选方法及应用。

本发明提供了一种急性缺血性卒中临床表型的构建方法,包括以下步骤:

1)对急性缺血性卒中病例的临床信息、影像信息和血液检测指标共92个特征进行数据整理;

2)采用信息增益和轻量级梯度提升学习方法从92个特征中选取与疾病预后相关的排名前30的特征;

3)将步骤2)中筛选的30个特征基于最大化贝叶斯信息准则进行聚类分析,根据BIC最小的数值确定最佳聚类数,确定分为4个临床表型;

4)将步骤2)中筛选的30个特征,采用高斯混合模型进行无监督聚类分析,得到4个聚类簇;

5)比较步骤4)中4个聚类簇的临床信息、血液检测指标及临床结局差异,得到4个临床表型。

优选的,所述临床结局包括卒中复发、复合血管事件、不良功能结局和死亡。

本发明提供了所述构建方法获得的4个临床表型,包括以糖代谢、脂代谢异常为主要特征的临床表型1、以炎症、肾功能异常为主要特征的临床表型2、以小动脉闭塞为主要特征的临床表型3和以同型半胱氨酸代谢异常为主要特征的临床表型4。

本发明提供了一种基于机器学习的急性缺血性卒中预后相关的关键生物标志物筛选方法,包括以下步骤:

将所述构建方法中筛选的30个特征使用信息增益和LightGBM算法优化筛选,得到关键生物标志物。

本发明提供了一种急性缺血性卒中预后关键生物标志物,当特征仅涉及临床信息和血液检测指标时,关键生物标志物包括以下指标中的一种或几种:谷丙转氨酶、超敏C反应蛋白、γ-谷氨酰转肽酶、中性粒细胞计数、肌酐、甘油三酯、空腹血糖、甲基丙二酸和脂蛋白(a)。

优选的,当特征还涉及影像信息时,所述关键生物标志物还包括梗死体积。

本发明提供了所述关键生物标志物在构建急性缺血性卒中预后风险预测模型中的应用。

本发明提供了一种基于所述关键生物标志物的急性缺血性卒中预后风险预测模型的构建方法,包括以下步骤:

基于所述急性缺血性卒中预后关键生物标志物,通过LightGBM机器学习构建预测模型。

本发明提供了所述构建得到的急性缺血性卒中预后风险预测模型在非治疗目的的预测急性缺血性卒中患者的疾病风险和/或治疗反应性评估中的应用。

优选的,所述预测急性缺血性卒中患者的疾病风险是利用疾病预后风险预测模型将患者分类到所述4个临床表型中;

所述治疗反应性评估是分析不同临床表型对强化他汀治疗的反应性。

本发明提供的急性缺血性卒中临床表型的构建方法,基于多组学数据和数据驱动下挖掘急性缺血性卒中临床表型,整合多组学数据构建急性缺血性卒中深度临床表型,实现患者临床结局及治疗反应性评估的机器学习算法,可将构建的临床表型应用于急性缺血性卒中的患者风险分层及辅助治疗决策,形成了有效的临床评估工具。

本发明提供了一种急性缺血性卒中预后关键生物标志物,当特征仅涉及临床信息和血液检测指标时,关键生物标志物包括以下指标中的一种或几种:谷丙转氨酶、超敏C反应蛋白、γ-谷氨酰转肽酶、中性粒细胞计数、肌酐、甘油三酯、空腹血糖、甲基丙二酸和脂蛋白(a)。本发明筛选得到的预后关键生物标志物,可以根据不同病理生理学机制将患者进行准确的风险分层,其优势在于应用机器学习的方法在大量数据中挖掘可靠的生物标志物,最终应用少数关键的生物标志物构建预测模型,在实现高度精准预测的同时,也便于在临床中应用。

附图说明

图1为临床表型特征,其中临床表型1以糖代谢(空腹血糖)、脂代谢(甘油三酯)异常为主要特征;临床表型2以炎症(超敏C反应蛋白、中性粒细胞)、肾功能(肌酐)异常为主要特征;临床表型3无显著异常特征;临床表型4以同型半胱氨酸代谢(甲基丙二酸)异常为主要特征;

图2为临床表型预后风险差异,在推导队列(A-D)以及验证队列(E-H)中,与表型3相比,表型2的卒中复发、复合血管事件、全因死亡以及不良功能结局的风险均最高,表型1以及表型4均有不同程度风险增高;

图3为模型性能,9个生物标志物(A)以及10个生物标志物(B)构建的预测模型均能实现准确的表型分类;

图4为蒙特·卡罗随机模拟方法比较不同临床表型对强化他汀治疗的反应性,在推导队列(A~C)和验证队列(D~F)中,表型2对强化他汀治疗的反应性良好。

具体实施方式

本发明提供了一种急性缺血性卒中临床表型的构建方法,包括以下步骤:

1)对急性缺血性卒中病例的临床信息、影像信息和血液检测指标共92个特征进行数据整理;

2)采用信息增益和轻量级提升学习方法从92个特征中选取与疾病预后相关的排名前30的特征;

3)将步骤2)中筛选的30个特征基于最大化贝叶斯信息准则进行聚类分析,根据BIC最小的数值确定最佳聚类数,确定分为4个临床表型;

4)将步骤2)中筛选的30个特征,采用高斯混合模型进行无监督聚类分析,得到4个聚类簇;

5)比较步骤4)获得的4个聚类簇的临床信息、血液检测指标及临床结局差异,得到4个临床表型。

本发明对急性缺血性卒中病例的临床信息、影像信息和血液检测指标共92个特征进行数据整理。

在本发明中,所述临床信息、影像信息和血液检测指标共92个特征包括人口学特征、临床症状及体征、血液成分、凝血功能、肝肾功能、炎症标志物、糖代谢、脂代谢、同型半胱氨酸代谢、肠道菌群代谢产物、梗死影像特征、颅内外血管狭窄等,具体见表1。

表1本发明涉及的92个特征

得到92个特征后,本发明采用信息增益和轻量级提升学习方法从92个特征中选取与疾病预后相关的排名前30的特征。

在本发明中,与疾病预后相关的排名前30的特征具体见表2。

表2与疾病预后相关的排名前30的特征

得到30个特征后,本发明将筛选的30个特征基于最大化贝叶斯信息准则,根据BIC最小的数值确定最佳聚类数,确定分为4个临床表型。

在本发明中,所述最大化贝叶斯信息准则的计算公式见公式I,最低的BIC为最佳拟合模型。

BIC=-2ln(L)+ln(n)×k 公式I。

得到4个最佳聚类数后,本发明将筛选的30个特征,采用高斯混合模型进行无监督聚类分析,得到4个聚类簇,即4个临床表型。

本发明对高斯混合模型进行聚类的方法没有特殊限制,采用本领域所熟知的高斯混合模型聚类方法即可。

得到4个聚类簇后,本发明比较获得的4个聚类簇的临床信息、血液检测指标及临床结局差异,得到4个临床表型。

在本发明中,通过Kruskal-Wallis-H检验、卡方检验等统计学方法比较4个聚类簇的临床信息、血液检测指标的中位数(四分位数间距)差异;采用Cox回归风险比(HR)、比值比(OR)及95%置信区间比较临床结局差异,P<0.05认为具有显著差异。

在本发明中,所述临床结局优选包括卒中复发、复合血管事件、不良功能结局和死亡。所述不良功能结局优选指改良Rankin量表[modified Rankin scale,mRS]3~6分。

通过上述构建方法获得的4个临床表型,包括以糖代谢、脂代谢异常为主要特征的临床表型1、以炎症、肾功能异常为主要特征的临床表型2、以小动脉闭塞为主要特征的临床表型3和以同型半胱氨酸代谢异常为主要特征的临床表型4。4个临床表型可区分具有不同生物标志物、反映不同病理生理学机制的临床表型。4个临床表型中生物标志物差异具体见表3和图1。以临床表型3作为参照,临床表型2的3个月卒中复发(校正风险比[adjustedhazard ratio,aHR]1.89,95%置信区间[confidence interval,CI]1.38~2.57),复合血管事件(aHR1.98,95%CI 1.46~2.68),死亡(aHR 12.92,95%CI6.95~24.02)以及不良功能结局(校正比值比[adjusted odds ratio,aOR]3.61,95%CI 2.96~4.39,p<0.001)风险均显著增加;临床表型4的3个月卒中复发(aHR 1.77,95%CI 1.45~2.16,p<0.001),复合血管事件(aHR 1.79,95%CI1.47~2.18,p<0.001),死亡(aHR 4.18,95%CI 2.32~7.55,p<0.001)和不良功能结局(aOR 2.31,95%CI 2.04~2.61,p<0.001)风险显著增加;临床表型1的3个月临床结局风险无显著差异,但是1年卒中复发(aHR 1.23,95%CI1.04-1.45,p=0.014),复合血管事件(aHR 1.24,95%CI 1.06-1.46,p=0.008),和不良功能结局(aOR1.35,95%CI 1.19-1.53,p<0.001)风险显著增加。4个临床表型的临床结局差异具体见图2中A~D。

本发明提供了一种基于机器学习的急性缺血性卒中预后相关关键生物标志物的筛选方法,包括以下步骤:

将所述构建方法中筛选的30个特征使用信息增益和LightGBM算法优化筛选,得到关键生物标志物。

在本发明中,所述优化筛选的数目优选为9~10个。使用信息增益和LightGBM算法优化筛选排名前10的特征。

在本发明中,当特征仅涉及临床信息和血液检测指标时,关键生物标志物由谷丙转氨酶、超敏C反应蛋白、γ-谷氨酰转肽酶、中性粒细胞计数、肌酐、甘油三酯、空腹血糖、甲基丙二酸和脂蛋白(a)共9种生物标志物形成。当特征还涉及影像信息时,所述关键生物标志物还包括梗死体积,形成10个生物标志物组成的关键生物标志物。

本发明还提供了所述关键生物标志物在构建急性缺血性卒中预后风险预测模型中的应用。

本发明提供了一种基于所述关键生物标志物的急性缺血性卒中预后风险预测模型的构建方法,包括以下步骤:

基于所述急性缺血性卒中预后关键生物标志物,通过LightGBM机器学习构建预测模型。

在本发明中,所述LightGBM机器学习构建预测模型后,优选还包括采用十折交叉验证,通过受试者工作曲线下面积(area under the receiver operatingcharacteristic curves,AUC)评估模型性能。

在本发明中,构建的急性缺血性卒中预后风险预测模型的预测方法,优选如下:

当待预测患者的病例信息仅涉及涉及血液标志物与临床信息,则执行基于9个生物标志物构建的预测模型,模型性能见图3中A;

当待预测患者的病例信息同时包含影像信息、血液标志物与临床信息,则执行基于10个生物标志物构建可准确实现风险分层的预测模型,模型性能见图3中B。

本发明提供了所述构建得到的急性缺血性卒中预后风险预测模型在非治疗目的的预测急性缺血性卒中患者的疾病风险和/或治疗反应性评估中的应用。

在本发明中,所述预测急性缺血性卒中患者的疾病风险优选是利用疾病预后风险预测模型将患者分类到所述4个临床表型中。将其应用于外部验证队列,疾病预后风险预测结果具体见图2中E~H。

在本发明中,所述治疗反应性评估优选是分析不同临床表型对强化他汀治疗的反应性。所述分析的方法优选为通过蒙特·卡罗(Monte Carlo method)随机模拟方法比较不同表型亚类对强化他汀治疗的反应性。

下面结合实施例对本发明提供的一种急性缺血性卒中临床表型构建方法、关键生物标志物筛选方法及应用进行详细的说明,但是不能把它们理解为对本发明保护范围的限定。

实施例1

1.急性缺血性卒中人群

采用第三次中国国家卒中登记(The Third China National Stroke Registry,CNSR-III)自2015年8月至2018年3月,在中国22个省、4个直辖市的201家医院连续招募缺血性卒中或TIA患者。共入组15166例患者作为推导队列,前瞻性地收集临床数据,完成基线脑成像,包括脑MRI和脑血管成像,采集基线血样,检测血液指标,并且完成患者3个月、6个月及1年的临床结局随访,随访结局包括卒中复发、改良Rankin量表(modified Rankinscale)、死亡等。

1)入组标准:

①年龄≥18岁。

②发病至入组时间≤7天。

③临床经头部影像学CT或MRI诊断明确的急性缺血性卒中。

④签署知情同意书。

2)排除标准:

①心源性卒中、存在高风险心源性危险因素。

②合并肿瘤、急性感染性疾病或明确存在其他特殊病因导致的缺血性卒中。

2.特征选取及预处理

1)人口学特征:年龄、性别、吸烟、饮酒、高血压、糖尿病、高脂血症等。

2)临床症状及体征:NIHSS评分、心率、收缩压、舒张压等。

3)常规实验室检查:血常规、凝血功能、心肌酶、生化电解质、肝肾功能、HCY、叶酸、维生素B12等。

4)炎症生物标志物:超敏C反应蛋白(hs-CRP)、白介素1受体拮抗剂(IL-1RA)、白介素6(IL-6)、白介素6受体(IL-6R)、单核细胞趋化蛋白-1(MCP1)、人几丁质酶3样蛋白1(YKL40)等;

5)糖代谢:空腹血糖、糖化血红蛋白、糖化白蛋白、AGEs、esRAGE、sRAGE、胰岛素、C肽等;

6)脂代谢:总胆固醇、HDL-C、LDL-C、甘油三酯、脂蛋白(a)、PCSK9、载脂蛋白-A1(Apo-AI)、Apo-AII、Apo-B、Apo-CII、Apo-CIII、Apo-E等;

7)肠道菌群代谢产物:胆碱(Choline)、甜菜碱(Betaine)、三甲胺N-氧化物(TMAO)、肉碱(Carnitine)、三甲基赖氨酸(TML)、磷酸胆碱(Choline phosphate)等;

8)急性梗死影像特征:利用DWI、ADC原始图像,基于前期已建立的深度学习模型分割急性梗死病灶获得梗死体积、梗死数量等影像特征。

9)颅内外血管评价:由专业神经科及放射科医师双盲评价脑磁共振血管造影(magnetic resonance angiography,MRA)、头颈CT血管造影(computed tomographyangiography,CTA)等颅内外血管检查,获得颅内外血管狭窄特征,包括症状性颅内动脉狭窄、症状性颅外动脉狭窄以及狭窄严重度(<50%;50-99%;闭塞)等。

数据整理最终获得共92个特征,对数据进行标准化、归一化等处理。基于信息增益和LightGBM模型选取与疾病预后相关的排名前30的特征。结果见表2。

表2与疾病预后相关的排名前30的特征

3.聚类分析

1)确定最佳聚类数量

使用基于有限混合模型的聚类,最大化贝叶斯信息准则(Bayesian informationcriterion,BIC)。最低的BIC为最佳聚类数,并在方程式I中计算,其中n是数据点的数目,k是估计的参数数目。

BIC=-2ln(L)+ln(n)×k公式I。

BIC引入了一个对模型中参数数量的惩罚项,从而选择更适合的模型。无论使用何种方程式,目标都是最小化BIC的绝对值。

2)高斯模型(GMM)聚类分析

GMM是一种概率聚类方法,假设所有的数据样本X都是由K个混合的多元高斯分布生成的。

①初始化K高斯分布:随机选择K个对象来表示每个簇的平均值(中心)。对每个分量k设置πk,μk和Σk的初始值。

②E step:根据当前的πk、μk、Σk计算后验概率γ(Znk)。

定义分量数目K,对每个分量k设置πk,μk和Σk的初始值,然后计算对数似然函数。

③M step:根据E step中计算的γ(znk)更新每个聚类的πk、μk、Σk。

④计算对数似然函数。

⑤重复步骤②和③,直到算法收敛。

根据每个对象属于每个簇的概率,将该对象分配给概率最高的簇。

使用bootstrappedreplicates对聚类算法进行1000次重复,以获得稳定的模型。

4.比较获得的4个聚类簇的临床信息、血液检测指标及临床结局(包括:卒中复发、复合血管事件、不良功能结局(改良Rankin量表[modified Rankin scale,mRS]3-6分)和死亡)差异,得到4个临床表型,可区分具有不同生物标志物、反映不同病理生理学机制的临床表型。临床表型1以糖代谢、脂代谢异常为主要特征;临床表型2以炎症、肾功能异常为主要特征;临床表型3以小动脉闭塞为主要特征;临床表型4以同型半胱氨酸代谢异常为主要特征。4个临床表型中生物标志物差异具体见附表3。

以临床表型3作为参照,临床表型2的3个月卒中复发(校正风险比[adjustedhazard ratio,aHR]1.89,95%置信区间[confidence interval,CI]1.38-2.57),复合血管事件(aHR1.98,95%CI 1.46-2.68),死亡(aHR 12.92,95%CI 6.95-24.02)以及不良功能结局(校正比值比[adjusted odds ratio,aOR]3.61,95%CI 2.96-4.39,p<0.001)风险均显著增加;临床表型4的3个月卒中复发(aHR 1.77,95%CI 1.45-2.16,p<0.001),复合血管事件(aHR 1.79,95%CI 1.47-2.18,p<0.001),死亡(aHR 4.18,95%CI 2.32-7.55,p<0.001),和不良功能结局(aOR 2.31,95%CI 2.04-2.61,p<0.001)风险显著增加;临床表型1的3个月临床结局风险无显著差异,但是1年卒中复发(aHR 1.23,95%CI1.04-1.45,p=0.014),复合血管事件(aHR 1.24,95%CI 1.06-1.46,p=0.008),和不良功能结局(aOR1.35,95%CI 1.19-1.53,p<0.001)风险显著增加。4个临床表型的临床结局差异具体见图2中A~D。

实施例2

一种基于机器学习的急性缺血性卒中预后相关的关键生物标志物筛选方法

基于信息增益和轻量级提升(Light Gradient Boosting Machine,LightGBM)学习方法选取预后相关特征;

若所诉疾病病例信息仅涉及血液标志物与临床信息,则选择9种预后相关的关键生物标志物(谷丙转氨酶、超敏C反应蛋白、γ-谷氨酰转肽酶、中性粒细胞计数、肌酐、甘油三酯、空腹血糖、甲基丙二酸和脂蛋白(a));

若所诉疾病病例信息同时包含影像信息、血液标志物与临床信息,则选择10种预后相关的关键生物标志物(梗死体积、谷丙转氨酶、超敏C反应蛋白、γ-谷氨酰转肽酶、中性粒细胞计数、肌酐、甘油三酯、空腹血糖、甲基丙二酸和脂蛋白(a))。4个临床表型中关键生物标志物差异具体见图1、表3。

实施例3

一种基于生物标志物的疾病风险预测模型构建方法

利用实施例2筛选的关键生物标志物,通过LightGBM构建预测模型,并进行十折交叉验证,通过受试者工作曲线下面积(area under the receiver operatingcharacteristic curves,AUC)评估模型性能。

若所诉疾病病例信息仅涉及血液标志物与临床信息,则执行步骤1.1);

若所诉疾病病例信息同时包含影像信息、血液标志物与临床信息,则执行步骤1.2)。

其中,步骤1.1)基于9个生物标志物构建可准确实现风险分层的预测模型,模型性能见图3中A。

步骤1.2)基于10个生物标志物构建可准确实现风险分层的预测模型,模型性能见图3中B。

在2496例独立验证队列中进行验证,利用预测模型将疾病患者归类到不同临床表型,比较验证队列中4个临床表型的预后差异,与推导队列具有较高的一致性,疾病预后风险预测结果具体见图2中E~H。证实该模型可以实现较好的疾病预后风险分层。

实施例4

分析深度表型与卒中复发风险的相关性

比较不同表型亚组患者3个月、6个月及1年的卒中复发风险的差异。使用Cox比例风险回归模型评估复发风险,并报告95%CI的风险比(HR)。并进一步分析高卒中复发风险组的关键表型特征。

实施例5

治疗反应性评估

通过蒙特·卡罗(Monte Carlo method)随机模拟方法比较不同表型亚类对强化他汀治疗的反应性。

结果见图4。在原始基线数据中,强化他汀可使0.01%的患者收益,76.69%可能无效,23.30%可能有害。在推到队列中改变临床表型2的比例最高可使获益人群增加至6.1%,有害人群降低至0.22%(图4中A,D)。在验证队列中改变表型2的比例最高可使获益人群增加至87.51%(图4中B),有害人群降低至0.00%(图4中E)。改变临床表型1、临床表型2及临床表型4对治疗反应性无显著影响(图4中C和F)。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

表3 4个临床表型的特征比较

注:*P<0.05,以临床表型3作为参照;#筛选的10个关键生物标志物。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号