首页> 中国专利> 基于病理及活体组织临床诊断大数据的疾病类型判别方法

基于病理及活体组织临床诊断大数据的疾病类型判别方法

摘要

本发明公开了一种基于病理及活体组织临床诊断大数据的疾病类型判别方法,该方法包含:通过质谱仪厂家工作站或者数据转换功能完成质谱仪数据到质谱成像数据的转换,基于人体的内源性代谢物质谱数据以及化合物检索匹配算法,通过代谢物化合物数据库实现对质谱图中内源性化合物的自动化标注和定性分析,通过大数据方式对庞大、复杂的人体代谢组质谱成像样本进行有效管理和开展数据挖掘及建模,从而汇集人类疾病质谱成像数据,进行质谱成像的自动化数据处理及分析,采用不同类型的质谱成像数据,生成设计的机器学习算法,用于为用户完成样本分类、疾病标志物自动发现、疾病预测模型与分型模型训练及维护、模型训练算法筛选及优化、模型发布和应用。

著录项

  • 公开/公告号CN112863665A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利权人 质美(北京)生物科技有限公司;

    申请/专利号CN202110045051.6

  • 发明设计人 田润涛;

    申请日2021-01-13

  • 分类号G16H50/20(20180101);G06T7/00(20170101);G06K9/62(20060101);G06N20/00(20190101);G01N21/84(20060101);G01N27/62(20210101);

  • 代理机构11210 北京纽乐康知识产权代理事务所(普通合伙);

  • 代理人田磊

  • 地址 100010 北京市朝阳区高碑店乡半壁店村惠河南街1111号1层135

  • 入库时间 2023-06-19 11:06:50

说明书

技术领域

本发明涉及人工智能的大数据疾病分析技术领域,具体来说,涉及一种基于病理及活体组织临床诊断大数据的疾病类型判别方法。

背景技术

质谱分析技术是精密仪器分析领域的最前沿技术之一,近年来在临床检测领域也得到了快速发展,临床质谱应用范围广阔,可在生化免疫、药物代谢、微生物、病理诊断、分子等多领域对传统方法学进行替代,譬如与基因测序相比,质谱适用于各类分子的检测,包括核酸、多肽等生物大分子和代谢产物、激素、维生素等生物小分子,以及微量无机元素,能实现上千种标志物的同时定性和定量,与现有方法相比,具有检测效率高、标志物覆盖广、分析成本低,以及分析过程自动化程度高等优点,目前国内外质谱在临床检测的应用仍处于起步阶段,应用主要集中在基于液相色谱串联质谱的药物浓度监测、新生儿缺陷筛查、维生素和激素检测等项目上,从检测指标的深度和广度而言相对仍属于早期阶段。

利用质谱实现分子成像最早是由范德堡大学(Vanderbilt University)的Richard Caprioli等在1997年提出的,分子成像(molecular imaging)是运用影像学手段显示组织水平、细胞和亚细胞水平的特定分子,反映活体状态下分子水平变化,对其生物学行为在影像方面进行定性和定量研究的科学,质谱成像技术在医学研究、生物学研究、药物研究等诸多领域有着巨大的价值,已经成为质谱研究的一大热点,基于MALDI、AP-MALDI、DESI、SIMS等离子源的质谱成像技术飞速发展,通过高分辨质谱仪所采集的单个MSI样品数据通常达到数GB乃至上百GB规模,如何针对携带着海量信息的质谱图像进行高通量、高精度的数据处理和人工智能识别变得愈发困难,此外,还存在各类商业化仪器所获得的原始数据兼容性较差,以及通用型高性能工作站软件的匮乏等问题,因此,相关数据处理软件技术已成为目前 MSI 以及 MSI 原位代谢组学分析技术发展和推广过程中亟待突破的热点领域。

作为最新一代的分子诊断及精准医学检测技术,基于代谢组学的质谱成像技术可一次性获得与疾病发生、发展进程相关性的人体至少2000个生物标志物定性、定量信息及其空间分布信息,代谢组学数据量庞大且解析复杂,加之人群个体差异巨大,必须借助人类代谢组大数据挖掘和机器学习建模的方式,实现疾病早筛和早诊智能模型的系列化开发,谷歌公司认为,要攻克重大疾病如癌症、以及老龄化社会相关问题,必须利用大数据相关技术,谷歌的经验证明,在现有技术条件下,将样本数量扩大100倍甚至更高,则预测结果将发生质的改变,因此,建立人体代谢组大数据系统,通过标准化的数据采集、管理和挖掘模式扩大样本分析规模,实现围绕质谱成像数据的高精度机器学习模型的开发和应用,是当前本领域亟需突破的关键技术瓶颈之一。

在质谱成像与临床医学诊断的结合研究中,对病理组织及活体组织的分子影像识别是质谱成像一个重要领域,随着现代医学科学技术的飞速发展,各种先进的设备在疾病诊断中广泛应用,但最终的诊断仍依靠病理诊断及病理学家的经验判别,其中苏木精-伊红(H&E)病理切片染色是目前主流的病理诊断方法,但组织内构成蛋白质的氨基酸的种类复杂,染色液的pH值、HE切片质量的好坏等因素也都会直接影响病理诊断结论,而依靠专业人员制备大量优质的切片非常困难,更遑论需要富有经验的病理学家对HE染色切片进行专业的病理信息解读,此外,手术中的冰冻病理诊断也是目前临床常用的肿瘤等的辅助诊断方式,同样存在结果不可靠,误诊率较高等缺点,以肿瘤等为代表的重大疾病的病理诊断为例,随着检查手段及方法的不断提高,癌症诊断的正确率逐渐提高,但仍有很大一部分肿瘤不具备典型的影像学特点,诊断困难,常规诊断需要临床、影像及病理三结合,其中,病理诊断对治疗方案的选择起着关键作用,穿刺活检是获取病理诊断的主要途径,但是穿刺以及手术中的冰冻病理取样不可避免的会造成患者潜在的出血及神经损伤等高危风险,因此利用质谱成像技术进行术前、术中、术后的病理及活体组织的辅助诊断,可较好的替代现有影像学及病理检查手段,因此基于(癌症)病理及活体组织大数据的质谱成像分析方法可发挥积极作用,因此利用质谱成像技术开展非染色的病理检测及组织活体检测,并结合疾病大数据建模的方式开展对于疾病分型的人工智能判别和预测,从而代替HE病理染色技术及术中冷冻病理诊断等方法,为医学临床的疾病与病理诊断提供最新的基于质谱成像技术的智能化解决方案。

综上所述,基于病理及活体组织质谱成像大数据的分析机制和人工智能方法的缺乏,目前已成为制约其在疾病分型预测、数字化医疗和精准医疗中进一步发展的关键问题,本申请提出了通过对质谱成像分析对病理及活体组织信息的深度挖掘和特征提取,以大样本方式开展质谱成像数据的机器学习和模式识别,从而形成基于样本数据库的一站式、自动化的模型训练和预测机制,该预测机制将质谱成像分析和临床需求紧密结合,为以癌症为代表的重大疾病的分型预测,术前、术中、术后辅助分析,以及精准用药方案等人类健康领域的重要应用方向,提供大数据技术支撑和系统解决方案。

发明内容

针对相关技术中的上述技术问题,本发明提出一种基于病理及活体组织临床诊断大数据的疾病类型判别方法,能够解决现有技术中携带海量信息的质谱图处理困难的技术问题,以及填补本领域高性能质谱成像工作的空白。

为实现上述技术目的,本发明的技术方案是这样实现的:一种基于病理及活体组织临床诊断大数据的疾病类型判别方法,该方法包含以下步骤:

S1 质谱仪器数据交换,通过质谱仪厂家工作站或者数据转换功能完成质谱仪数据到质谱成像数据的转换,支持导入各主流质谱仪器厂家的质谱数据;

S2 代谢物化合物数据库,基于人体的内源性代谢物质谱数据以及化合物检索匹配算法,通过代谢物化合物数据库实现对质谱图中内源性化合物的自动化标注和定性分析,其中,所述代谢物化合物数据库能够匹配多种化合物检索算法,进一步包含:分析条件精准匹配、动态加合离子匹配、质谱同位素匹配、保留时间匹配、一级质谱匹配、二级质谱匹配、离子淌度匹配、代谢通路匹配、非靶向匹配;

S3 质谱成像代谢组学组织样本数据库,该数据库由临床生物样本库及实验动物模型生物样本库组成,通过大数据方式对庞大、复杂的人体代谢组质谱成像样本进行有效管理和开展数据挖掘及建模,从而收载人类疾病质谱成像数据;

S4 质谱成像数据处理工作站,进行质谱成像的自动化数据处理及分析,该工作站用于数据导入预处理、质谱图像重建、质谱目标选区提取、光学图像匹配、质谱图像定量分析;

S5质谱成像数据机器学习算法,采用不同类型的质谱成像数据,根据所设计的质谱成像数据机器学习算法,用于实现基于病理及活体组织样本分类、疾病标志物自动发现、疾病预测模型与疾病分型模型训练及维护、模型训练算法筛选及优化、未知样本预测、模型发布与应用。

进一步地,所述S2中代谢物化合物数据库,进一步包含:

通过标准代谢物质谱信息实物的检测结果,测定2000个代谢物的质谱信息,并排除外源性化合物的干扰,对代谢物化合物数据库进行动态编辑和扩充,运用大数据匹配的方式,提高代谢物化合物数据库与多种化合物检索算法精准匹配,以及精准化、自动化的化合物解析。

进一步地,所述S3中临床生物样本库及实验动物模型生物样本库收载质谱成像数据进一步包含:

S3.1 收载靶向及非靶向代谢组学质谱成像原始数据及标注结果,以及代谢组学的位置信息;

S3.2 代谢组学质谱成像数据与代谢物化合物数据库进行无缝关联,进行便捷的自动化化合物标注;

S3.3 质谱成像代谢组学组织样本数据库与质谱成像数据处理工作站建立无缝数据交换,完成一站式分析及数据建模的开展。

进一步地,所述S4中质谱成像数据处理工作站进一步包含:

S4.1 数据导入预处理,用于输入质谱图像导入文件序列,设置样品有关参数,所述质谱图像导入包含:图像分辨率、切片厚度、切片物理尺寸、质谱数据通道类型、连续型质谱数据类型峰检测、积分处理,其中积分处理参数包含:斜率、最小峰强度、强度积分方式、质荷比统计方式;

S4.2 质谱图像重建,获取原始质谱成像数据中按照指定的离子提取范围和方式对2D及3D质谱图像进行空间重构,并进行可视化渲染;

S4.3 质谱目标选区提取,提供多种提取工具,提取工具包含固定区域大小,以及手动自由选择套索工具、以流动蚂蚁线的形式动态显示当前选择区域、自动显示所选择的多个选区及对应的质谱图,并保存到数据库中进行查询及比较分析;

S4.4 光学图像匹配,用于生成质谱成像数据处理工作站与质谱图像相匹配的样品组织切片光学图像,以及HE病理染色光学图像的同步比较分析,通过缩放、平移或旋转光学图片控制锚点,对光学图片的对齐状态进行精准调节;

S4.5质谱图像定量分析,基于质谱成像数据机器学习算法,用于免同位素标记的目标化合物,在组织切片内各器官中分布浓度的定量计算和校正。

进一步地,所述S4.2质谱图像重建选择参数,进一步包含:

S4.2.1质谱图像重建选择参数包含:质谱图像分辨率渲染模式选择、质谱成像伪色彩渲染种类选择、变量预处理方式选择、离子成像图层及其叠加显示模式选择、多质谱图像窗口的独立显示及编辑、质谱及光学图像的叠加显示及同步缩放;

S4.2.2 根据目标区域的自由选取、目标区域的平均质谱图获取,动态离子像图生成、质谱图像背景扣除功能。

进一步地,所述S5质谱成像数据机器学习算法,进一步包含:

S5.1模型训练算法筛选及优化,基于上述多元统计分析、化学计量学及人工智能算法,实现质谱数据的全自动机器学习;

S5.2疾病预测模型与疾病分型模型训练及维护,用户选择并导入质谱成像数据库中的样本,并结合质谱成像数据机器学习算法进行模型的训练;

S5.3 模型开发和应用,根据导出的独立文件进行发布,并安装于目标计算机上,或通过API接口的方式,调用云端服务程序,发送检测数据并返回模型预测结果。

进一步地,所述S5.1中模型训练算法进一步包含:

S5.1.1 聚类分析,根据获得的质谱成像数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇进行分析;

S5.1.2方差分析,通过分析不同来源的质谱成像数据变异对总变异的贡献大小,从而确定可控因素对分析结果影响力的大小;

S5.1.3主成分分析,通过线性投影的方式将高维数据进行投影降维处理,得到样本数据的最大方差,该方式是无监督式的降维算法,计算时算法对样本数据矩阵进行奇异值分解处理;

S5.1.4偏最小二乘分析,用于多元数据特征分析,以及直接定量分析和模式识别运算;

S5.1.5正交偏最小二乘分析,用于多元数据特征分析以及模式识别运算, 获取系数向量及载荷后,进行正交化处理。

进一步地,所述S5.2中疾病预测模型训练及维护进一步包含:

S5.2.1用户选择并导入质谱成像代谢组学组织样本数据库的临床生物样本库,并结合质谱成像数据机器学习算法进行模型的训练,训练完毕的模型通过交叉验证算法进行验证,并通过综合识别率给出所建立模型的质量,即模型泛化程度;

S5.2.2 用户通过调整临床生物样本库构成及数量,结合质谱成像数据机器学习算法参数优化方式,对疾病预测模型进行调整和完善。

本发明的有益效果:鉴于现有技术中存在的不足,本申请具有如下有益效果:

1) 通过构建由病理组织切片与活体组织样本质谱成像数据为核心的人体生物样本数字化标本库,采用大数据方式对人体质谱成像样本进行有效管理和开展数据挖掘及建模,极大便利了对于庞大、复杂的人类质谱成像样本管理的需要,并为组学数据挖掘和人工智能疾病分型模型的开发提供基础支持;

2) 实现了质谱成像数据分析流程的自动化、标准化及定量化,通过数据预处理、质谱图像重建、目标选区提取、光学图像匹配以及质谱成像含量测定方式,实现了针对质谱成像数据的高效和灵活的处理流程,使得对质谱成像数据的深入挖掘和利用较现有水平获得巨大提升;

3) 通过质谱成像技术可代替活检穿刺以及苏木精-伊红(H&E)病理染色诊断,并应用于临床术前、术中、术后的病理辅助诊断和疾病分型预测;

4)通过综合利用针对质谱成像数据特点的各类机器学习算法,实现了对于复杂质谱成像数据的一站式数据建模及各类疾病的人工智能分型和预测的应用场景的支持,通过这一基于质谱成像检测数据的自动化的疾病预测及分型模型开发系统,可实现包括样本分类、疾病标志物组发现,疾病分型模型训练,模型维护,未知样本预测等完整的疾病模型开发和应用,极大提升了当前临床质谱检测与人工智能的结合水平,促进了对于疾病发生、发展过程规律的深入认识,将对于重大疾病的筛查和疾病分型诊断,以及精准医学预判发挥积极的作用;

5)本申请是综合一体化系统的解决方案,提供了完善的质谱成像病理切片样品与代谢物数据库、数据处理流程以及机器学习算法库和模型管理,该系统通过数据交换接口提供对各类第三方质谱仪器的兼容,为科研、医疗及实验室等不同领域用户提供直观、友好和高度智能化、自动化的质谱成像数据分析工具和疾病模型开发及应用支持,实现了基于医疗大数据的疾病分型预测的一站式人工智能平台。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于病理及活体组织临床诊断大数据的疾病类型判别方法的代谢组学的组织样本数据库组成框图;

图2是根据本发明实施例所述的基于病理及活体组织临床诊断大数据的疾病类型判别方法的质谱成像定量分析流程框图;

图3是根据本发明实施例所述的基于病理及活体组织临床诊断大数据的疾病类型判别方法的质谱成像数据机器学习算法训练流程框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

如图 1-3所示,根据本发明实施例所述的基于病理及活体组织临床诊断大数据的疾病类型判别方法,该方法包括以下步骤:

步骤一,质谱仪器数据交换,用于质谱成像数据格式转换;

步骤二,代谢物化合物数据库,用于人体代谢物数据库的化合物自动标注;

步骤三,质谱成像代谢组学组织样本数据库,用于质谱成像代谢组学病理及活体组织样本数据库加工;

步骤四,质谱成像数据处理工作站,用于质谱图像重建与数据挖掘;

步骤五,质谱成像数据机器学习算法,用于疾病预测与疾病分型机器学习算法建模。

在本发明的一个具体实施例中,质谱仪器数据交换,通过质谱仪厂家工作站或者数据转换功能完成质谱仪数据到质谱成像数据的转换,支持导入各主流质谱仪器厂家的质谱数据;

在本发明的一个具体实施例中,代谢物化合物数据库,基于人体的内源性代谢物质谱数据以及化合物检索匹配算法,通过代谢物化合物数据库实现对质谱图中内源性化合物的自动化标注和定性分析,通过标准代谢物质谱信息实物的检测结果,测定2000个代谢物的质谱信息,并排除外源性化合物的干扰,对代谢物化合物数据库进行动态编辑和扩充,运用大数据匹配的方式,提高代谢物化合物数据库与多种化合物检索算法精准匹配,以及精准化、自动化的化合物解析;其中,所述代谢物化合物数据库能够匹配多种化合物检索算法,进一步包含:分析条件精准匹配、动态加合离子匹配、质谱同位素匹配、保留时间匹配、一级质谱匹配、二级质谱匹配、离子淌度匹配、代谢通路匹配、非靶向匹配;

分析条件精准匹配,根据记录每个代谢物检测时的液相色谱、质谱数据实验条件、仪器型号,离子源类型,以及保留时间,对待测样品与该数据库中的检测条件最接近的化合物进行精准匹配;

动态加合离子匹配,在动态加合离子类型和数量均不确定的情况下,采用正负加合离子的动态匹配方式,有效改善化合物的漏检和误检;

质谱同位素匹配,基于任意质谱分辨率数据的匹配,以及任意分子量化合物的同位素峰的模拟,提高不同仪器类型样品数据匹配时的兼容性;

保留时间匹配,结合样品测试时的色谱条件,对化合物保留时间进行窗口匹配,得到过滤色谱行为差异较大的干扰化合物对匹配结果的影响;

一级质谱匹配,完整收录了代谢物分子的准分子离子峰、碎片峰的裂解信息,并对每个碎片进行,化学式、结构式及碎片丢失信息在内的完整一级质谱信息的收录,用于实现代谢物精准匹配;

二级质谱匹配,根据化合物母离子的不同离子源,以及不同碰撞电压下的碎片裂解信息,对包括化学式、结构式及碎片丢失信息在内的完整二级质谱信息的收录,用于实现代谢物精准匹配;

离子淌度匹配,记录化合物碎片的离子淌度迁移率信息,用于区分各类同分异构及手性异构体,实现代谢物精准匹配;

代谢通路匹配,根据收载的全部已知人体代谢通路信息,对匹配化合物在代谢通路上下游的相关代谢产物进行匹配,符合条件的化合物将给予较高的匹配结果打分,从而提高代谢物匹配的精确程度;

非靶向匹配,对于缺乏实物标准品但具有显著意义和稳定质谱特征的未知代谢物,将其作为非靶向特征化合物进行收录,从而改善匹配结果的覆盖程度及可靠性,进一步提高代谢物匹配的精确程度。

在本发明的一个具体实施例中,质谱成像代谢组学组织样本数据库,该数据库由临床生物样本库及实验动物模型生物样本库组成,通过大数据方式对庞大、复杂的人体代谢组质谱成像样本进行有效管理和开展数据挖掘及建模,从而汇集人类疾病质谱成像数据,进一步包含:

其一,收载靶向及非靶向代谢组学质谱成像原始数据及标注结果,以及代谢组学的位置信息;

其二,代谢组学质谱成像数据与代谢物化合物数据库进行无缝关联,进行便捷的自动化化合物标注;

其三,质谱成像代谢组学组织样本数据库与质谱成像数据处理工作站建立无缝数据交换,完成一站式分析及数据建模的开展。

在本发明的一个具体实施例中,质谱成像数据处理工作站,进行质谱成像的自动化数据处理及分析,该工作站用于数据导入预处理、质谱图像重建、质谱目标选区提取、光学图像匹配、质谱图像定量分析,进一步包含:

数据导入预处理,用于输入质谱图像导入文件序列,设置样品有关参数,所述质谱图像导入包含:图像分辨率、切片厚度、切片物理尺寸、质谱数据通道类型、连续型质谱数据类型峰检测、积分处理,其中积分处理参数包含:斜率、最小峰强度、强度积分方式、质荷比统计方式;

质谱图像重建,获取原始质谱成像数据中按照指定的离子提取范围和方式对2D及3D质谱图像进行空间重构,并进行可视化渲染,质谱图像重建选择参数包含:质谱图像分辨率渲染模式选择、质谱成像伪色彩渲染种类选择、变量预处理方式选择、离子成像图层及其叠加显示模式选择、多质谱图像窗口的独立显示及编辑、质谱及光学图像的叠加显示及同步缩放,根据目标区域的自由选取、目标区域的平均质谱图获取,动态离子像图生成、质谱图像背景扣除功能;

质谱目标选区提取,提供多种提取工具,提取工具包含固定区域大小,以及手动自由选择套索工具、以流动蚂蚁线的形式动态显示当前选择区域、自动显示所选择的多个选区及对应的质谱图,并保存到数据库中进行查询及比较分析;

光学图像匹配,用于生成质谱成像数据处理工作站与质谱图像相匹配的样品组织切片光学图像,以及HE病理染色光学图像的同步比较分析,通过缩放、平移或旋转光学图片控制锚点,对光学图片的对齐状态进行精准调节;

质谱图像定量分析,基于质谱成像数据机器学习算法,用于免同位素标记的目标化合物,在组织切片内各器官中分布浓度的定量计算和校正。

在本发明的一个具体实施例中,质谱成像数据机器学习算法,采用不同类型的质谱成像数据,根据所设计的质谱成像数据机器学习算法,用于实现基于病理及活体组织样本分类、疾病标志物自动发现、疾病预测模型与疾病分型模型训练及维护、模型训练算法筛选及优化、未知样本预测、模型发布与应用;

首先,模型训练算法筛选及优化,基于上述多元统计分析、化学计量学及人工智能算法,实现质谱数据的全自动机器学习,模型训练算法进一步包含:

聚类分析,根据获得的质谱成像数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇进行分析;

方差分析,通过分析不同来源的质谱成像数据变异对总变异的贡献大小,从而确定可控因素对分析结果影响力的大小;

主成分分析,通过线性投影的方式将高维数据进行投影降维处理,得到样本数据的最大方差,该方式是无监督式的降维算法,计算时算法对样本数据矩阵进行奇异值分解处理;

偏最小二乘分析,用于多元数据特征分析,以及直接定量分析和模式识别运算;

正交偏最小二乘分析,用于多元数据特征分析以及模式识别运算, 获取系数向量及载荷后,进行正交化处理;

然后,疾病预测模型与疾病分型模型训练及维护,用户选择并导入质谱成像数据库中的样本,并结合质谱成像数据机器学习算法进行模型的训练,用户选择并导入质谱成像代谢组学组织样本数据库的临床生物样本库,并结合质谱成像数据机器学习算法进行模型的训练,训练完毕的模型通过交叉验证算法进行验证,并通过综合识别率给出所建立模型的质量,即模型泛化程度,用户通过调整临床生物样本库构成及数量,结合质谱成像数据机器学习算法参数优化方式,对疾病预测模型进行调整和完善。

其次,模型开发和应用,根据导出的独立文件进行发布,并安装于目标计算机上,或通过API接口的方式,调用云端服务程序,发送检测数据并返回模型预测结果。

为了方便理解本发明的上述技术方案,以下通过具体使用方式上对本发明的上述技术方案进行详细说明。

在具体使用时,根据本发明所述的基于病理及活体组织临床诊断大数据的疾病类型判别方法,首先,结合质谱分析与影像可视化特点的空间分子质谱成像,利用质谱成像分析数据通过质谱成像数据机器学习算法建立人类疾病的人工智能分型预测模型,本方法用于疾病代谢通路分析,疾病相关生物标志物组发现用途,并在癌症等重大疾病中作为代替活检穿刺以及苏木精-伊红(H&E)病理染色诊断的新技术,应用于临床术前、术中、术后的病理辅助诊断和疾病分型预测等精准医疗相应的人工智能辅助领域,以下通过对肺癌的基于质谱成像数据机器学习算法模型开发为例,对采用本方法从样本收集直至建立相应的肺肿瘤疾病临床分型及疾病预测模型的方式步骤加以说明;

样品收集:所有术后组织标本均在中国医学科学院北京协和医院和肿瘤研究所医院采集,包括52例肺癌组织和21例癌旁正常组织,采集到的样品在液氮中速冻,并在后续处理前储存在-80℃,冷冻样品在低温切片机上于-20℃切割为8μm厚度切片(德国徕卡显微系统有限公司),并解冻后固定于显微镜载玻片上(阳离子防脱载玻片,美国赛默飞世尔科技有限公司);

样品组织预处理:一组相邻的冰冻组织切片用丙酮固化,随后用苏木精-伊红染色进行病理染色检查,切片在-80℃下保存,并在分析前升温至室温,然后在干燥器中真空干燥30min;

质谱成像实验条件:略;

病理组织学的特征提取:原始质谱采样数据(.wiff)作为一个包含样本内源性代谢物信息的单独文件,以行扫描方式逐行采集,并导入本申请所开发的质谱成像数据分析系统,接下来,采用质谱图像重构技术绘制出标示组织切片轮廓和非靶向以及特定离子的空间分布的高分辨质谱图像;

在基于病理组织的可视化质谱图像中从目标区域提取质谱数据,通过借助HE染色光学图像中的病理特征为辅助进行目标范围选取,所提取的该区域的质谱图为当前选区中所有质谱像素点的平均值,从而更好地代表该区域的整体稳定特征;

基于化学计量学的生物标志物的筛选,选择区域的数据集被导入到本申请所开发的质谱成像建模软件中,并进行数据预处理,以减少背景干扰和人为因素对模型的影响,通过分析代谢物变量在不同疾病分型之间的组间协方差和相关性的s-plot进行差异性变量的选择,筛选获得模型中贡献最大的显著变化的代谢物作为潜在的肺肿瘤疾病分型生物标志物,其中,具有高协方差和高相关性的变量被优先选择,VIP值反映了各变量对分类的影响,此处仅考虑VIP值 > 1.5的变量,采用jack-knife法检验置信区间,选择非负得分的代谢物作为进一步的候选物,采用独立t检验(P<0.01),进一步筛选候选生物标志物,最后,根据生物标志物的离子重构质谱图像相对于组织切片中的病理组织空间分布的一致性进行判读,对质谱成像数据机器学习算法所筛选获得的质谱成像潜在生物标志物的可靠性进行最终验证;

疾病预测模型与疾病分型模型训练,选择一种模式识别算法,如偏最小二乘回归-判别分析(PLS-DA),结合挑选的训练集样品,对对齐后的样本矩阵进行模型训练,建立疾病分型模式判别模型,选择一种交叉验证方法对模型预测质量进行评价,结合输出结果中的模型误识率和拒识率,选择具有最高识别率的一组模型算法参数配置作为最优模型解,选择一批未参与模型训练的样品作为验证集,代入训练后的模型进行预测,以评估模型的泛化程度和对应的过拟合程度,并绘制模型ROC曲线和AUC曲线下面积值,对模型的灵敏度和特异性进行评估,通过模型训练和验证集测试符合要求的模型,即将该模型导出为预测模型文件,供独立调用或发给第三方用户进行模型更新。

在具体使用上,本申请的质谱成像综合数据分析以及基于质谱成像技术的疾病分型模型开发能力达到了国际领先水平,本申请所提出的基于临床生物样本库与实验动物模型生物样本库的病理组织切片及活体组织的质谱成像样本、质谱成像数据分析、疾病预测模型与疾病分型模型训练,以及模型应用等在内的质谱成像大数据分析架构下的相应分析系统已经完成了开发和测试。

本申请将质谱成像分析和临床病理诊断需求紧密结合,通过对质谱成像分析和病理组织的空间代谢组学分析技术所获取的人体病理代谢物信息的深度挖掘和机器学习,为重大疾病的临床分型预测,以及作为一种代替活检穿刺和苏木精-伊红病理染色诊断的新技术应用于临床术前、术中、术后的病理辅助诊断提供先进技术平台,从而为精准医疗领域提供了基于质谱成像技术的人工智能解决方案。

综上所述,借助于本发明的上述技术方案,实现了包括代谢物及人体病理组织与活体组织质谱成像数据库、质谱成像数据采集、疾病分型预测模型训练,以及模型应用在内的完整的基于质谱成像大数据的疾病分型的机器学习流程和相应的软件分析系统;实现了一种可替代苏木精-伊红等常规病理染色的方式,对病理组织切片进行基于人工智能的病理组织识别和疾病分型预测方法;实现了一种可替代临床穿刺活检及术中冷冻病理诊断的方式,降低取样环节对人体造成的潜在危害,并实现基于人工智能的实时的疾病分型预测方法;填补用于人体重大疾病分型判别的质谱成像病理大数据库系统的空白;填补用于病理及活体组织的疾病类型判别人工智能建模方法的空白;填补了对携带海量信息的质谱成像数据进行智能化机器学习的空白;填补用于专业高性能质谱成像数据处理的系统工作站的空白。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号