首页> 中国专利> 基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法

基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法

摘要

本发明公开了一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法,包括:S1:对正常人与肺腺癌患者肺部细胞的转录本数据进行数据处理,筛选出差异表达基因;S2:使用EPIC计算肺腺癌组织中免疫细胞浸润的丰度,得到预后相关免疫细胞类型;根据预后相关免疫细胞类型,筛选出与预后相关免疫细胞类型相关的差异基因;S3:使用WGCNA对步骤S2得到的与预后相关免疫细胞类型相关的差异基因进行聚类分析,将其分为若干个聚类模块;S4:对包含基因最多且聚类效果最好的聚类模块进行蛋白质互作分析,筛选3‑6个肺腺癌候选基因;S5:对步骤S4得到的肺腺癌候选基因进行生存分析,得到肺腺癌潜在预后生物标志物。

著录项

  • 公开/公告号CN113140258A

    专利类型发明专利

  • 公开/公告日2021-07-20

    原文格式PDF

  • 申请/专利权人 上海海事大学;

    申请/专利号CN202110467905.X

  • 发明设计人 陈湫扬;孔薇;

    申请日2021-04-28

  • 分类号G16B35/20(20190101);G16B40/00(20190101);G16B50/00(20190101);

  • 代理机构31323 上海元好知识产权代理有限公司;

  • 代理人贾慧琴;包姝晴

  • 地址 201306 上海市浦东新区临港新城海港大道1550号

  • 入库时间 2023-06-19 11:54:11

说明书

技术领域

本发明涉及生物信息技术领域,具体涉及一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法。

背景技术

肺癌是世界上最常见的恶性肿瘤之一,由于其高发病率和高死亡率而危及生命。由于其独特的生物学行为,肺腺癌(LUAD)的个体化治疗也成为治疗的热点。尽管目前免疫治疗取得了很大进展,但LUAD患者的预后仍然很差。众所周知,大多数癌症如果在早期诊断出来是可以被治愈的,目前已有影像遗传学、生物标志物等方法用于早期筛查和治疗。越来越多的证据表明,肿瘤微环境的免疫浸润与LUAD患者的免疫治疗和总体生存率息息相关。

肿瘤微环境(TME)是肿瘤发生过程中的复杂的内部环境,由浸润的免疫细胞、间质成纤维细胞、活性介质和肿瘤细胞等组成。在肿瘤免疫基因组学研究中,肿瘤微环境在LUAD的生长、发展和转移中起着重要作用。

传统的研究大多使用免疫组织化学(IHC)和流式细胞术(FCM)等方法来评估肿瘤中浸润的免疫细胞的组成,但这些方法有其局限性。此类方法依赖于对细胞表面标记物的识别,而免疫亚群的代表性标记可能会在其他细胞类型中表达,且流式细胞术需要分解组织,可能会导致细胞丢失或结果失真。而解卷积法可以定量地估计细胞类型的相对分数,并且已通过流式细胞分选术可以很好地验证,其中CIBERSORT、TIMER都使用解卷积来估计细胞丰度。CIBERSORT使用v-支持向量回归来推断22种不同免疫细胞的浸润丰度。尽管CIBERSORT在消除噪声和准确性方面优于以前的算法,但由于回归分析的统计共线性效应,CIBERSORT很容易估计偏差。CIBERSORT提供了可以在样本和细胞类型之间进行比较的分数,但仍然不是细胞分数。而TIMER使用线性最小二乘回归估计6个免疫细胞的丰度,其可以通过筛选免疫标签基因并去除高表达基因来消除偏差效应。但是,缺点是最终的估计值未标准化至总和为1。TIMER能提供以任意单位表示的分数,但仅当与同一组中的其他样本进行比较时才有意义。

与以往量化免疫细胞的方法不同,EPIC可以估计免疫细胞和癌细胞的比例,并可以提供代表细胞分数的绝对评分,还可以在样本间和样本内进行比较。而且,EPIC可以分析成纤维细胞、内皮细胞以及未表征细胞的丰度。此外,基于免疫细胞浸润肿瘤微环境的作用,CIBERSORT和TIMER尚未在人类患者的实体瘤中得到验证,而EPIC曾在来自四个黑素瘤患者的淋巴结的RNA-seq数据进行过测试(Racle J,de Jonge K,Baumgaertner P,SpeiserDE,Gfeller D.Simultaneous enumeration of cancer and immune cell types frombulk tumor gene expression data.Elife.2017Nov 13;(6):e26476)。

发明内容

本发明的目的是提供一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法,筛选出与肺腺癌免疫浸润相关的潜在预后生物标志物,为肺腺癌的免疫疗法提供帮助。

为了达到上述目的,本发明提供了一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法,包括下述步骤:

S1:获得正常人与肺腺癌患者肺部细胞的转录本数据,对所述转录本数据进行数据处理,筛选出差异表达基因;

S2:使用EPIC计算肺腺癌组织中免疫细胞浸润的丰度,得到预后相关免疫细胞类型;根据所述预后相关免疫细胞类型,从步骤S1得到的差异表达基因中,筛选出与预后相关免疫细胞类型相关的差异基因;

S3:使用WGCNA对步骤S2得到的与预后相关免疫细胞类型相关的差异基因进行聚类分析,将其分为若干个聚类模块;

S4:对包含基因最多且聚类效果最好的聚类模块进行蛋白质互作分析,比较蛋白质之间的相互作用的强度,筛选3-6个肺腺癌候选基因;

S5:对步骤S4得到的肺腺癌候选基因进行生存分析,得到肺腺癌潜在预后生物标志物。

可选的,所述步骤S1中,获得正常人与肺腺癌患者肺部细胞转录本数据的方法包括:从TCGA数据库中下载。

可选的,所述步骤S1中,对转录本数据进行数据处理包括:

(1)数据过滤,去除数值为0的转录本数据;

(2)使用RESM对过滤后的转录本数据进行定量处理;

(3)分离mRNA矩阵;

(4)基因表达差异分析。

可选的,所述基因表达差异分析通过edgeR实现,差异表达基因的筛选标准为|log

可选的,所述差异表达基因是指:与肺腺癌患者相比,正常人肺部细胞中上调表达的基因。

可选的,所述步骤S4中,肺腺癌候选基因为5个。

可选的,所述方法还包括:验证步骤,所述验证步骤是指将步骤S4筛选得到的肺腺癌潜在预后生物标志物在GEPIA数据库中进行验证。

可选的,所述肺腺癌潜在预后生物标志物为GNG7和ADRB2。

相比于现有技术,本发明的有益效果是:

本发明通过EPIC算法定量估计样本间和样本内不同细胞类型的相对分数,通过比较TIMER算法和EPIC算法定量免疫细胞丰度的结果,发现EPIC所能筛选得出的预后相关的免疫细胞比TIMER要多。同时,本发明通过WGCNA聚类具有相似生物过程的基因,深度分析基因之间的相互作用,筛选出预后高度相关的基因。

附图说明

图1为本发明基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法的流程图。

图2为本发明正常样本和肿瘤样本中7种免疫细胞浸润丰度箱线图;图2的A为正常样本和肿瘤样本中B细胞免疫细胞浸润丰度箱线图;图2的B为正常样本和肿瘤样本中CD8

图3为本发明使用TIMER得到的6种免疫细胞浸润丰度的箱线图。

图4为本发明与B细胞和CD8

图5为本发明WGCNA聚类得到的包含基因最多且聚类效果最好的模块的KEGG通路分析图。

图6为本发明WGCNA聚类得到的包含基因最多且聚类效果最好的模块的PPI蛋白质互作网络结果图。

图7为本发明多变量Cox风险回归模型的构建;图7的A为本发明高风险组和低风险组的K-M生存曲线图;图7的B为预后模型的ROC曲线图。

图8为本发明五个中枢基因表达水平对LUAD患者预后的影响;图8的A为GNG7的表达水平对LUAD患者预后的影响;图8的B为ADRB2的表达水平对LUAD患者预后的影响;图8的C为EDN1的表达水平对LUAD患者预后的影响;图8的D为ADCY4的表达水平对LUAD患者预后的影响;图8的E为CAV1的表达水平对LUAD患者预后的影响。

图9为本发明使用GEPIA数据库验证GNG7和ADRB2可以用作LUAD的预后标志物;图9的A为正常样本下GNG7组织的表达水平的箱形图;图9的B为与TCGA正常数据匹配的ADRB2组织表达的箱形图;图9的C为GNG7的Kaplan-Meier曲线;图9的D为ADRB2的Kaplan-Meier曲线。

具体实施方式

以下结合附图和实施例对本发明的技术方案做进一步的说明。

本发明提供了一种基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法,包括下述步骤:

S1:获得正常人与肺腺癌患者肺部细胞的转录本数据,对所述转录本数据进行数据处理,筛选出差异表达基因;

S2:使用EPIC计算肺腺癌组织中免疫细胞浸润的丰度,得到预后相关免疫细胞类型;根据所述预后相关免疫细胞类型,从步骤S1得到的差异表达基因中,筛选出与预后相关免疫细胞类型相关的差异基因;

S3:使用WGCNA对步骤S2得到的与预后相关免疫细胞类型相关的差异基因进行聚类分析,将其分为若干个聚类模块;

S4:对包含基因最多且聚类效果最好的聚类模块进行蛋白质互作分析,比较蛋白质之间的相互作用的强度,筛选3-6个肺腺癌候选基因;

S5:对步骤S4得到的肺腺癌候选基因进行生存分析,得到肺腺癌潜在预后生物标志物。

本发明通过EPIC算法定量估计样本间和样本内不同细胞类型的相对分数,通过WGCNA聚类具有相似生物过程的基因,深度分析基因之间的相互作用,筛选出预后高度相关的基因。

在EPIC中,将大量样品的基因表达数据建模为纯细胞类型的基因表达谱的总和。另外,EPIC使用隐式标准化的RNA-seq数据代替原始数据,表示为如下公式:

其中,

其中,l

则第m个未表征的细胞

又由于EPIC使用归一化的基因表达数据,因此

其中,r

为了寻找和肿瘤浸润性免疫细胞具有相似生物学过程的其他重要基因,则将与免疫细胞相关的DEmRNA构建加权基因共表达网络。首先,根据不同样本中基因的表达数据,计算两个差异基因a

s

使用幂函数转换为邻接矩阵a

a

由无尺度网络原则决定确定软阈值β。当β为3时,利用拓扑重叠测量方法(TOM)计算基因之间的关联程度,再将邻接关系转换为拓扑重叠矩阵TOM

其中,K

Dynamic TreeCut方法用于合并相似的共表达基因,并进一步聚类以确定模块。最后,计算每个模块的模块特征基因(module eigengene,ME)与临床特征之间的Pearson相关系数和P值,以确定关键模块。当p<0.05时,具有统计学意义,且模块与性状显著相关。

实施例基于肿瘤浸润性免疫细胞筛选肺腺癌的潜在预后生物标志物的方法

步骤1:TCGA下载数据

使用TCGA数据库中的样本验证所提出的方法的有效性,TCGA数据库中包括肺腺癌患者的转录本数据和临床数据,其中包含59名健康对照(HC)和535名LUAD患者。

步骤2:数据预处理,分离mRNA矩阵,使用edgeR进行基因表达差异分析

删除上述转录本数据和临床数据中数值为0的数据,并使用RESM进行量化处理,同时分离出转录本数据中的mRNA表达数据。

经过数据预处理后,使用“edgeR”包进行差异分析,在本实施例中,选择|log

步骤3:EPIC计算免疫细胞构成比例,并与TIMER对比

对于上述的1445个上调的DEmRNA,使用EPIC算法计算LUAD中免疫细胞浸润的丰度。如图2所示,该数据中B细胞和CD4

表一基于EPIC的多变量Cox回归模型

为了验证EPIC算法的优越性,进一步使用TIMER算法对同批数据进行免疫细胞浸润丰度的计算以及构建多变量回归模型。图3为使用TIMER定量得到的箱线图,展示了肿瘤样品中B细胞的浸润程度显著增加,而肿瘤样品中的CD8

表二是通过TIMER2.0构建的多变量Cox回归模型,其变量为年龄、性别、纯度、肿瘤分期、种族和6种肿瘤浸润免疫细胞。通过表二中的指标significant,可以发现使用TIMER算法只能得出B细胞与LUAD患者的预后密切相关。而EPIC算法除了获得B细胞外,还可以证明CD8

表二基于TIMER的多变量Cox回归

步骤4:筛选与免疫浸润细胞相关的DEmRNA

通过计算B细胞和CD8

步骤5:WGCNA构建加权基因共表达网络

为了进一步探讨免疫浸润与LUAD的关系,并筛选与异常免疫浸润细胞高度相关的基因,将与B细胞和CD8

步骤6:关键模块中筛选出5个Hub基因

为了进一步研究与LUAD中B细胞和CD8

为了探索基因之间的关系以及挖掘核心调控基因,使用STRING数据库用于构建蛋白质-蛋白质相互作用网络。根据节点之间的交互得分,将combined_score>0.7的节点选为高度相关的节点,并删除孤立的节点,并选择degree>10的基因作为关键基因。如图6所示,主要的PPI网络由115个节点和243个边组成,其中颜色最深的是得分最高的基因,即相互作用最强,五个形状较大、颜色较深的节点(GNG7,ADRB2,EDN1,ADCY4和CAV1)为申请人发现的中枢基因。

步骤7:对5个Hub基因进行生存分析、生物学分析

为了研究五个中枢基因(GNG7,ADRB2,EDN1,ADCY4和CAV1)是否与LUAD的预后相关,基于LUAD患者的临床数据(生存时间和状态)与5个基因的表达数据,使用多变量Cox比例危险模型进行生存分析。根据中位风险评分的分值将肿瘤样本分为高风险组和低风险。如图7所示,其中位于下方的曲线是高风险人群组,位于上方的是低风险人群组。高风险和低风险组的生存曲线显示生存时间有显著差异,高风险组的样本的生存率明显低于低风险组的样本。而接收者操作特征(ROC)曲线分析表明,五个中枢基因可以作为LUAD的潜在生物标记。进一步地,绘制肺腺癌患者的5个关键基因的Kaplan-Meier生存曲线,并进行数秩检验。如图8所示,两个基因(GNG7和ADRB2)的表达水平与LUAD患者的生存率显着相关(P<0.05),其余不符合要求的基因由于不可作为肺腺癌患者的预后标志物,因而不做分析。在图8的A中,位于下方的曲线是肺腺癌组织中低表达的GNG7的生存率曲线,位于上方的曲线是肺腺癌组织中高表达的GNG7的生存率曲线。在图8的B中,位于下方的曲线是肺腺癌组织中低表达的ADRB2的生存率曲线,位于上方的曲线是肺腺癌组织中高表达的ADRB2的生存率曲线。据图所示,低表达的GNG7和ADRB2的LUAD患者的总生存期显著变差。

步骤8:验证GNG7和ADRB2是潜在预后标志物

为了验证这一结论,使用基因表达谱分析(GEPIA)数据库来验证GNG7和ADRB2两个基因的可靠性。通过探索LUAD中GNG7和ADRB2的表达水平,并再次进行了生存分析以证实我们的结论,如图9所示,符号“*”表示该基因是差异基因,并且,左边的模块代表肿瘤,右边的部分代表正常组织。结果显示正常组织中GNG7和ADRB2的表达水平均远高于肺腺癌中的表达水平。此外,图9的C与D分别是GNG7和ADRB2的Kaplan-Meier生存曲线,其中位于下方的曲线是GNG7和ADRB2表达水平低的曲线,而位于上方的曲线是GNG7和ADRB2表达水平高的曲线。结果显示GNG7和ADRB2的低浸润水平与肺腺癌的不良预后密切相关。通过GEPIA再次确认了GNG7和ADRB2可被视为LUAD的预后生物标志物。

综上所述,本发明将TIMER和EPIC算法进行比较分析,发现EPIC方法可鉴定出更多与预后相关的免疫浸润细胞,通过对筛选出的与免疫细胞相关的基因进行聚类,将重要的聚类模块进行生物学分析,包括KEGG通路富集分析、对所选基因的PPI网络构建,以分析基因之间的相互作用。对相互作用最强的基因构建多变量回归模型以及生存分析,发现肺腺癌预后的潜在基因,即GNG7和ADRB2,分析得出肺腺癌患者中GNG7和ADRB2的低表达与预后不良有关,并选择GEPIA数据库进行验证。本发明通过不同的方法推断出:GNG7和ARDB2可能是肺腺癌的诊断标志物和潜在的预后生物标志物。

尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号