首页> 中国专利> 一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法

一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法

摘要

本发明公开了一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法,涉及疾病治疗技术领域。本发明发现多个m6A调控基因,如LRPPRC和RBM15B的表达水平与酒精相关性肝细胞癌的疾病进展以及预后风险显著相关,基于多个m6A调控基因构建的风险预测模型能够有效、准确地预测酒精相关性肝细胞癌的疾病进展和预后,相比与现有技术而言,本发明提供的风险预测模型更可靠,其预测结果更具有参考价值。

著录项

  • 公开/公告号CN113862371A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 广东乾晖生物科技有限公司;

    申请/专利号CN202111471624.8

  • 发明设计人 高毅;张悦;翁骏;曾繁鸿;

    申请日2021-12-03

  • 分类号C12Q1/6886(20180101);G16H50/50(20180101);G16B40/00(20190101);

  • 代理机构11463 北京超凡宏宇专利代理事务所(特殊普通合伙);

  • 代理人张金铭

  • 地址 510000 广东省广州市海珠区南边路38号大院自编7号楼102房

  • 入库时间 2023-06-19 13:30:50

说明书

技术领域

本发明涉及疾病治疗技术领域,具体而言,涉及一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法。

背景技术

肝癌是最常见的癌症之一,也是癌症相关死亡的第四大原因,全世界每年报告的病例超过85万例。肝细胞癌最常见的危险因素是病毒感染、酒精中毒和代谢综合征。酒精可显著增加细胞质mtDNA的释放,导致肝细胞凋亡和炎症。过量饮酒导致脂肪酸的合成,促进脂肪肝进展,导致肝硬化和肝癌。此外,慢性酒精摄入可引起活性氧物种和DNA损伤,进一步促进肿瘤干细胞相关基因突变的激活,导致A-HCC的预后不良,其死亡率是一般人群的4倍。

现有的肝细胞癌预测模型无法稳定准确地对肝细胞癌进行预测,鉴于此,特提出本发明。

发明内容

本发明的目的在于提供一种酒精相关性肝细胞癌疾病进展和预后风险的预测装置及其预测模型的训练方法。

本发明是这样实现的:

第一方面,本发明实施例提供了一种检测m6A调控基因表达水平的试剂在制备用于预测酒精相关性肝细胞癌疾病进展和/或预后风险的试剂盒中的应用,所述m6A调控基因包括LRPPRC和RBM15B中的至少一种。

第二方面,本发明实施例提供了一种预测酒精相关性肝细胞癌疾病进展和/或预后风险的试剂盒,其包括用于检测m6A调控基因表达水平的试剂;所述m6A调控基因包括如前述实施例所述的应用中的m6A调控基因。

第三方面,本发明实施例提供了一种酒精相关性肝细胞癌疾病进展和/或预后风险预测模型的训练方法,其包括:获取训练样本m6A调控基因表达水平的检测结果以及所述训练样本对应的标注结果,所述m6A调控基因包括如前述实施例所述的应用中的m6A调控基因;将所述训练样本的m6A调控基因表达水平的检测结果输入预先构建好的预测模型中,获取训练样本的预测结果;其中,所述预测模型用于根据样本m6A调控基因表达水平预测样本酒精相关肝细胞癌疾病进展和/或预后风险;基于所述标注结果和所述预测结果对构建的所述预测模型进行参数更新。

第四方面,本发明实施例提供了一种预测酒精相关性肝细胞癌疾病进展和/或预后风险的预测装置,其包括获取模块和预测模块。获取模块,用于获取待测样本m6A调控基因表达水平的检测结果;所述m6A调控基因包括如前述实施例所述的应用中的m6A调控基因;预测模块,用于将所述检测结果输入由前述实施例所述的训练方法训练好的酒精相关性肝细胞癌疾病进展和/或预后风险 预测模型中,获得待测样本的预测结果。

第五方面,本发明实施例提供了一种酒精相关性肝细胞癌疾病进展和/或预后风险预测模型的训练装置,其包括获取模块、处理模块和参数更新模块。获取模块,用于获取训练样本m6A调控基因表达水平的检测结果以及所述训练样本对应的标注结果,所述m6A调控基因包括如前述实施例所述的应用中的m6A调控基因;处理模块,用于将所述训练样本的m6A调控基因表达水平的检测结果输入预先构建好的预测模型中,获取训练样本的预测结果;其中,所述预测模型用于根据样本m6A调控基因表达水平预测样本酒精相关肝细胞癌疾病进展和/或预后风险;参数更新模块,用于根据所述标注结果和所述预测结果对构建的所述预测模型进行参数更新。

第六方面,本发明实施例提供了一种电子设备,所述电子设备包括处理器和存储器;所述存储器用于存储程序,当所述程序被所述处理器执行时,使得所述处理器实现如前述实施例所述的酒精相关性肝细胞癌疾病进展和/或预后风险预测模型的训练方法,或如下酒精相关性肝细胞癌疾病进展和/或预后风险的预测方法:获取待测样本m6A调控基因表达水平的检测结果;所述m6A调控基因包括如前述实施例所述的应用中的m6A调控基因;将所述检测结果输入由前述实施例所述的训练方法训练好的酒精相关性肝细胞癌疾病进展和/或预后风险预测模型中,获得待测样本的预测结果。

第七方面,本发明实施例提供了一种计算机可读介质,所述计算机程序被处理器执行时实现如前述实施例所述的酒精相关性肝细胞癌疾病进展和/或预后风险预测模型的训练方法,或如下酒精相关性肝细胞癌疾病进展和/或预后风险的预测方法:获取待测样本m6A调控基因表达水平的检测结果;所述m6A调控基因包括如前述实施例所述的应用中的m6A调控基因;将所述检测结果输入由前述实施例所述的训练方法训练好的酒精相关性肝细胞癌疾病进展和/或预后风险 预测模型中,获得待测样本的预测结果。

本发明具有以下有益效果:

本发明发现多个m6A调控基因(如LRPPRC和RBM15B)的表达水平与酒精相关性肝细胞癌的疾病进展以及预后风险显著相关,基于多个m6A调控基因构建的风险预测模型能够有效、准确地预测酒精相关性肝细胞癌的疾病进展和预后,相比与现有技术而言,本发明提供的风险预测模型更可靠,其预测结果更具有参考价值。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为实施例1中GeneMANIA的21个m6A相关基因的蛋白-蛋白相互作用;

图2为实施例1中KIAA1429、LRPPRC、RBM15B、YTHDF2的高低表达的生存差异分析;

图3为实施例1中具有累积分布函数的一致聚类模型,LASSO回归算法构建的用于计算风险分数的模型;

图4为实施例1中选择4个基因构建预测模型时,惩罚力度最大,误差值最小;

图5为实施例1中A-HCC患者的总生存曲线;

图6为实施例1中TCGA队列不同临床特征和时间预测准确率的ROC曲线;

图7为实施例1中TCGA队列风险预测模型对A-HCC的诊断敏感性高于常见的肝细胞癌诊断标志物(AFP,SERPINA1,TM6SF2和PNPLA3);

图8为实施例1中多变量列线图预测A-HCC患者的总生存时间。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。

本发明提供了检测m6A调控基因表达水平的试剂在制备用于预测酒精相关性肝细胞癌(A-HCC)疾病进展和/或预后风险的试剂盒中的应用,所述m6A调控基因包括LRPPRC和RBM15B中的至少一种。

在优选的实施方式中,所述m6A调控基因还包括KIAA1429和YTHDF2中的至少一种。

在优选的实施方式中,所述m6A调控基因包括LRPPRC、KIAA1429、RBM15B和YTHDF2中的至少三种。更有优选地,采用4个调控基因的组合更能有效且准确的实现对预测酒精相关性肝细胞癌疾病进展和/或预后风险的预测。

本发明发现多个m6A调控基因(如LRPPRC、KIAA1429、RBM15B和YTHDF2)的表达水平与酒精相关性肝细胞癌的疾病进展以及预后风险呈显著相关,基于多个m6A调控基因构建的风险预测模型能够有效、准确地预测酒精相关性肝细胞癌的疾病进展和预后,相比与现有技术而言,本发明提供的风险预测模型更可靠,其预测结果更具有参考价值。

本发明不对试剂的种类进行限定,只要满足能够检测上述m6A基因的表达水平即可,在可选的实施方式中,所述试剂为引物对、探针和芯片中的至少一种。

本文中的“表达水平”可以为RNA表达水平或蛋白表达水平。

本发明实施例还提供了一种预测酒精相关性肝细胞癌疾病进展和/或预后风险的试剂盒,其包括用于检测m6A调控基因表达水平的试剂,m6A调控基因和试剂的类型均可选自前述任意实施例或实施方式所述,在此不再赘述。

本发明实施例还提供了一种酒精相关性肝细胞癌疾病进展和/或预后风险预测模型的训练方法,其包括以下步骤:

获取训练样本m6A调控基因表达水平的检测结果以及所述训练样本对应的标注结果;其中,训练样本包括A-HCC患者样本以及健康样本,标注结果为样本对应的疾病进程或预后风险。疾病进程可以包括:是否患有疾病、疾病的等级和分期中的至少一种,预后风险包括预后总生存期。标注结果为训练样本对应的疾病进程以及预后风险结果。

将所述训练样本的m6A调控基因表达水平的检测结果输入预先构建好的预测模型中,获取训练样本的预测结果;其中,所述预测模型用于根据样本m6A调控基因表达水平预测样本酒精相关肝细胞癌的疾病进展和/或预后风险,所述m6A调控基因的选择可以同前述任意实施例,不再赘述。预测结果可以为预测模型输出的风险分数,或与风险分数对应的疾病进程以及预后风险。

基于所述标注结果和所述预测结果对构建的所述预测模型进行参数更新。

在优选的实施方式中,所述预测模型包括用于预测风险预测模块,风险预测模块优选采用LASSO算法,通过多个训练样本的m6A调控基因表达水平的检测结果,构建获得。优选地,训练样本的数量≥10,更优选为≥30。风险预测模块用于根据样本m6A调控基因表达水平,获取样本患有酒精相关性肝细胞癌的风险分数。

在优选的实施方式中,所述预测模型还包括生存期预测模块,用于根据患者的临床信息以及风险分数,获取样本的总生存期。

优选地,所述生存期预测模块包括能够根据样本的临床信息以及风险分数获取样本的总生存期的列线图;所述列线图是针对训练样本的临床信息以及风险分数进行多变量分析,根据多变量分析的结果绘制而成的。绘制列线图的样本量≥10,更优选为≥30。

当所述预测模型包括生存期预测模块时,所述预测模型能够根据风险预测模块输出的风险分数,对应获得待测样本的总生存期。

可选地,所述临床信息包括:年龄、性别、疾病等级以及疾病分期中的至少一种,优选为全部。在一些实施例中,当列线图的多变量包括年龄、性别、疾病等级以及疾病分期时,如果待测样本的这些临床信息不够完善,则可以通过一个已知所有临床信息的对照例,基于对照例的疾病等级以及疾病分期,通过比较风险分数,大致判断待测样本的疾病等级和/或疾病分期,从而获取待测样本对应的总生存期。如果待测样本的临床信息较为完善,基于本申请提供的预测模型,则可以精准有效地对患者的总生存期进行预测。本发明实施例还提供了一种预测酒精相关性肝细胞癌疾病进展和/或预后风险的预测装置,其包括获取模块以及预测模块。

其中,获取模块用于获取待测样本m6A调控基因表达水平的检测结果;所述m6A调控基因的选择可以同前述任意实施例,不再赘述。预测模块用于将所述检测结果输入由前述任意实施例所述的训练方法训练好的酒精相关性肝细胞癌疾病进展和/或预后风险预测模型中,获得待测样本的预测结果。

在优选的实施方式中,所述预测模型包括风险预测模块,所述风险预测模块通过将待测样本m6A调控基因表达水平的检测结果如下计算公式中,获取待测样本的风险分数:

计算公式为:风险分数=(Coef

优选地,所述Coef

更有选地,风险分数= (0.0648970639115386×KIAA1429)+(0.0370948653489106×LRPPRC) + (0.000459715556466468×RBM15B) + (0.0605157571421274×YTHDF2)。

所述风险预测模块通过学习多个患者与健康样本之间表达水平的差异,确定阈值,然后根据阈值判断样本处于何种状态,然后通过训练样本进行训练,提高预测的精准度和稳定性。

在优选的实施方式中,所述预测模型还包括生存期预测模块,生存期预测模块的具体信息和应用同前述任意实施例所述,在此不再赘述。当所述预测模型包括生存期预测模块时,所述获取模块还包括,获取样本的临床信息。

本发明实施例还提供了一种酒精相关性肝细胞癌疾病进展和/或预后风险预测模型的训练装置,其包括:获取模块、处理模块以及参数更新模块。

其中,获取模块,用于获取训练样本以及所述训练样本对应的标注结果;处理模块,用于将所述训练样本的m6A调控基因表达水平的检测结果输入预先构建好的预测模型中,获取训练样本的预测结果;其中,所述预测模型用于根据样本m6A调控基因表达水平预测样本酒精相关肝细胞癌疾病进展和/或预后风险,所述m6A调控基因的选择可以同前述任意实施例,不再赘述;参数更新模块,用于根据所述标注结果和所述预测结果对构建的所述预测模型进行参数更新。

可以理解的是,训练装置中模块的具体实施方式可以同前述任意对应实施例所述,在此不再赘述。

本发明实施例还提供了一种电子设备,所述电子设备包括处理器和存储器;所述存储器用于存储程序,当所述程序被所述处理器执行时,使得所述处理器实现如前述任意实施例所述的酒精相关性肝细胞癌疾病进展和/或预后风险 预测模型的训练方法,或如下酒精相关性肝细胞癌疾病进展和/或预后风险的预测方法:获取待测样本m6A调控基因表达水平的检测结果;所述m6A调控基因的选择可以同前述任意实施例,不再赘述;将所述检测结果输入由前述任意实施例所述的训练方法训练好的酒精相关性肝细胞癌疾病进展和/或预后风险预测模型中,获得待测样本的预测结果。

存储器可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器可以是一种集成电路芯片,具有信号处理能力。该处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在实际应用中,该电子设备可以是服务器、云平台、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant,PDA)、可穿戴电子设备、虚拟现实设备等设备,因此本申请实施例对电子设备的种类不做限制。

本发明实施例还提供了一种计算机可读介质,所述计算机可读介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意实施例所述的酒精相关性肝细胞癌疾病进展和/或预后风险预测模型的训练方法,或如下酒精相关性肝细胞癌疾病进展和/或预后风险的预测方法:获取待测样本m6A调控基因表达水平的检测结果;所述m6A调控基因的选择可以同前述任意实施例,不再赘述;将所述检测结果输入由前述任意实施例所述的训练方法训练好的酒精相关性肝细胞癌疾病进展和/或预后风险预测模型中,获得待测样本的预测结果。

计算机可读介质可以包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

一种预测酒精相关肝细胞癌(A-HCC)疾病进展和预后的m6A风险评估模型,该模型基于4个m6A候选基因(LRPPRC、KIAA1429、RBM15B和YTHDF2)RNA的表达水平,预测待测样本酒精相关肝细胞癌的疾病进展和/或预后风险。

该模型包括风险预测模块,风险预测模块LASSO算法构建,其通过以下计算公式计算待测样本的风险分数,计算公式如下:风险分数(Risk score)= (0.0648970639115386×KIAA1429)+(0.0370948653489106×LRPPRC) +(0.000459715556466468×RBM15B) +(0.0605157571421274×YTHDF2),公式中,KIAA1429为KIAA1429基因对应的表达值,LRPPRC为LRPPRC基因对应的表达值,RBM15B为RBM15B基因对应的表达值,YTHDF2为YTHDF2基因对应的表达值。

该预测模型的构建方法如下。

将167例The Cancer Genome Atlas (TCGA)数据库样本作为训练集,316例International Cancer Genome Consortium (ICGC)数据库样本作为验证集。其中,TCGA包括167例样本(117例A-HCC组和50例正常组),ICGC包括316例样本(114例A-HCC组和202例正常组)。利用STRING工具对样本中m6A基因和蛋白的相互作用进行检索(图1);在单变量Cox回归中选择具有统计学意义(p<0.05)的m6A基因,发现KIAA1429、LRPPRC、RBM15B和YTHDF2在A-HCC患者中具有生存差异(图2)。使用least absolute shrinkage and selectionoperator (LASSO)回归算法构建风险预测模型(图3),应用公式如下:

Risk score =

Lasso回归模型的构建在选择自变量时,对自变量的个数进行误差值分析结果见图4,其反映了自变量的选取和平均绝对值误差的变化情况,在部分可能异常(误差值)最小和保证模型精度的同时,选择4个自变量(m6A相关基因),降低了模型的复杂性。因此,采用4个调控基因构建的预测模型的惩罚力度最大,误差值最小。

通过Kaplan-Meier analysis预测临床患者的预后总生存时间(图5),且通过计算曲线下面积(AUC)进一步评估临床病理特征,该预测模型包含的4个m6A相关基因和临床病理变量在高低风险组的表达,与临床分期、分级密切相关(图6),进一步确定该模型的敏感性和可靠性。

此外,该模型对A-HCC的诊断敏感性高于常见的肝细胞癌诊断标志物(AFP,SERPINA1,TM6SF2以及PNPLA3)(图7);该预测模型还包括生存期预测模块,生存期预测模块结合各种可能存在的影响因素建立了多变量列线图,用于预测A-HCC患者的总生存期,列线图的具体构建包括:R软件中的rms程序包,提供了相应的函数功能,加载survival和rms程序包输入相应程序代码,打包数据,构建Cox比例风险回归模型,绘制列线图。根据患者具体情况,在每个变量上定位并向上画垂直线,记录对应的分数,将所有变量的分数合计为总分,再向下画垂直线,对应的是1、2、3年的生存率,结果参照图8。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号