首页> 中国专利> 一种区分不同解剖学起源肿瘤的系统及其方法

一种区分不同解剖学起源肿瘤的系统及其方法

摘要

本发明公开了一种区分不同解剖学起源肿瘤的系统及其方法。本发明系统包括:测序模块,用于对待测样品的DNA进行提取,并进行高通量测序,获得测序结果;对比模块,用于对高通量测序的下机数据进行处理,并将下机数据比对至参考基因组上,分析肿瘤样本和对照样本以得出体细胞突变;分析模块,用于将所述的基因组中的体细胞突变进行分析,识别突变特征;依据识别的突变特征预测肿瘤的解剖学起源。本发明方法与上述方法相对应。相较于其他基因组的方法,本发明不需要增加任何成本,计算结果可以准确区分肿瘤的解剖学起源。

著录项

  • 公开/公告号CN112837748A

    专利类型发明专利

  • 公开/公告日2021-05-25

    原文格式PDF

  • 申请/专利权人 南京医科大学;

    申请/专利号CN202110105503.5

  • 发明设计人 汪强虎;吴维;王子宇;吴玲祥;

    申请日2021-01-26

  • 分类号G16B20/30(20190101);G16B20/20(20190101);G16H50/20(20180101);

  • 代理机构11531 北京汇捷知识产权代理事务所(普通合伙);

  • 代理人赵艳

  • 地址 210000 江苏省南京市江宁区龙眠大道101号

  • 入库时间 2023-06-19 11:05:16

说明书

技术领域

本发明属于生物医学技术领域,尤其涉及一种基于肿瘤突变特征组合以区分不同解剖学起源肿瘤的系统及其方法。

背景技术

通过组织学亚型和免疫组织化学来准确诊断癌症,对于治疗方案的选择以及患者预后至关重要。由于一些肿瘤样本组织学模棱两可,诊断变得更加复杂。

目前,影像学和病理学检查以及临床评价是肿瘤临床诊断的主要方法。这些方法主要依赖于临床经验,有一定的局限性。到目前为止,组织特异性RNA表达模式,突变谱和特异性甲基化模式已被用于预测肿瘤组织起源。基于甲基化的癌症诊断方法目前用于肿瘤分子分型。Cancer Seek结合了从血液中检测到的突变和蛋白质,以检测和定位八种常见的癌症类型。越来越多的分子特征用于肿瘤诊断,帮助医生指定治疗方案,改善患者的预后。

基于全基因组的体细胞突变分析表明,突变会在基因组上留下独特的印记,形成特定的突变特征模式。突变特征是特定诱变过程(例如DNA复制错误,DNA修复缺陷以及外源和内源毒素暴露)引起的不同类型突变的特异性组合。突变特征是癌症的病因,解释了肿瘤的形成与发展过程。这些发现提示突变特征可以作为鉴定肿瘤组织起源的标志物。在最新研究中,基于突变、突变特征、拷贝数变异和结构重排的人工智能预测起源组织的应用可以补充常规方法以提供综合病理诊断。尽管它产生了巨大的影响,但突变特征的贡献不大。这可能是因为以往方法突变特征是基于捕获测序的方法鉴定的而不是全外显子组测序或全基因组测序鉴定的。

发明内容

本发明的目的在于提供基于肿瘤突变特征组合以区分不同解剖学起源肿瘤的系统及其方法。

本发明是这样实现的,一种区分不同解剖学起源肿瘤的系统,该系统包括:

测序模块,用于对待测样品的DNA进行提取,并进行高通量测序,获得测序结果;

对比模块,用于对高通量测序的下机数据进行处理,并将下机数据比对至参考基因组上,分析肿瘤样本和对照样本以得出体细胞突变;

分析模块,用于将所述的基因组中的体细胞突变进行分析,识别突变特征;依据识别的突变特征预测肿瘤的解剖学起源。

优选地,在对比模块中,所述参考基因组是人基因组的外显子区域。

优选地,在所述分析模块中,所有突变均是指含有同义突变的单个碱基替换的变异,所述突变特征由如下突变模式的组合组成:A[C>A]A,A[C>A]C,A[C>A]G,A[C>A]T,A[C>G]A,A[C>G]C,A[C>G]G,A[C>G]T,A[C>T]A,A[C>T]C,A[C>T]G,A[C>T]T,A[T>A]A,A[T>A]C,A[T>A]G,A[T>A]T,A[T>C]A,A[T>C]C,A[T>C]G,A[T>C]T,A[T>G]A,A[T>G]C,A[T>G]G,A[T>G]T,C[C>A]A,C[C>A]C,C[C>A]G,C[C>A]T,C[C>G]A,C[C>G]C,C[C>G]G,C[C>G]T,C[C>T]A,C[C>T]C,C[C>T]G,C[C>T]T,C[T>A]A,C[T>A]C,C[T>A]G,C[T>A]T,C[T>C]A,C[T>C]C,C[T>C]G,C[T>C]T,C[T>G]A,C[T>G]C,C[T>G]G,C[T>G]T,G[C>A]A,G[C>A]C,G[C>A]G,G[C>A]T,G[C>G]A,G[C>G]C,G[C>G]G,G[C>G]T,G[C>T]A,G[C>T]C,G[C>T]G,G[C>T]T,G[T>A]A,G[T>A]C,G[T>A]G,G[T>A]T,G[T>C]A,G[T>C]C,[T>C]G,G[T>C]T,G[T>G]A,G[T>G]C,G[T>G]G,G[T>G]T,T[C>A]A,T[C>A]C,T[C>A]G,T[C>A]T,T[C>G]A,T[C>G]C,T[C>G]G,T[C>G]T,T[C>T]A,T[C>T]C,T[C>T]G,T[C>T]T,T[T>A]A,T[T>A]C,T[T>A]G,T[T>A]T,T[T>C]A,T[T>C]C,T[T>C]G,T[T>C]T,T[T>G]A,T[T>G]C,T[T>G]G,T[T>G]T。

本发明进一步公开了一种区分不同解剖学起源肿瘤的方法,该方法包括以下步骤:

S1、对待测样品的DNA进行提取,并进行高通量测序,获得测序结果;

S2、对高通量测序的下机数据进行处理,并将下机数据比对至参考基因组上,分析肿瘤样本和对照样本以得出体细胞突变;

S3、将所述的基因组中的体细胞突变进行分析,识别突变特征,依据识别的突变特征预测肿瘤的解剖学起源。

优选地,在步骤S2中,所述参考基因组是人基因组的外显子区域。

优选地,在步骤S3中,所有突变均是指含有同义突变的单个碱基替换的变异,所述突变特征由如下突变模式的组合组成:A[C>A]A,A[C>A]C,A[C>A]G,A[C>A]T,A[C>G]A,A[C>G]C,A[C>G]G,A[C>G]T,A[C>T]A,A[C>T]C,A[C>T]G,A[C>T]T,A[T>A]A,A[T>A]C,A[T>A]G,A[T>A]T,A[T>C]A,A[T>C]C,A[T>C]G,A[T>C]T,A[T>G]A,A[T>G]C,A[T>G]G,A[T>G]T,C[C>A]A,C[C>A]C,C[C>A]G,C[C>A]T,C[C>G]A,C[C>G]C,C[C>G]G,C[C>G]T,C[C>T]A,C[C>T]C,C[C>T]G,C[C>T]T,C[T>A]A,C[T>A]C,C[T>A]G,C[T>A]T,C[T>C]A,C[T>C]C,C[T>C]G,C[T>C]T,C[T>G]A,C[T>G]C,C[T>G]G,C[T>G]T,G[C>A]A,G[C>A]C,G[C>A]G,G[C>A]T,G[C>G]A,G[C>G]C,G[C>G]G,G[C>G]T,G[C>T]A,G[C>T]C,G[C>T]G,G[C>T]T,G[T>A]A,G[T>A]C,G[T>A]G,G[T>A]T,G[T>C]A,G[T>C]C,[T>C]G,G[T>C]T,G[T>G]A,G[T>G]C,G[T>G]G,G[T>G]T,T[C>A]A,T[C>A]C,T[C>A]G,T[C>A]T,T[C>G]A,T[C>G]C,T[C>G]G,T[C>G]T,T[C>T]A,T[C>T]C,T[C>T]G,T[C>T]T,T[T>A]A,T[T>A]C,T[T>A]G,T[T>A]T,T[T>C]A,T[T>C]C,T[T>C]G,T[T>C]T,T[T>G]A,T[T>G]C,T[T>G]G,T[T>G]T。

相比于现有技术的缺点和不足,本发明具有以下有益效果:相较于其他基因组的方法,本发明不需要增加任何成本,计算结果可以准确区分肿瘤的解剖学起源。

附图说明

图1是本发明系统的结构示意图;

图2是TCGA数据库中常见恶性肿瘤的特异性突变特征模式;

图3是基于TCGA数据库的数据评价系统的准确性,图中实线表示在训练队列中(TCGA样本)预测肿瘤起源的AUC曲线,虚线表示随机区分肿瘤起源的AUC曲线;

图4是基于真实世界的原发灶临床数据评价系统的准确性;图中实线表示在验证队列中(真实世界的原发灶)预测肿瘤起源的AUC曲线,虚线表示随机区分肿瘤起源的AUC曲线;

图5是基于真实世界的血液临床数据评价系统的准确性;

图6是本发明方法的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

定义或术语

1、高通量测序:指的是第二代高通量测序技术及之后发展的更高通量的测序方法。下一代测序平台包括但不限于Illumina、ABI-Solid和Roche-454测序平台等。随着测序技术的不断发展,本领域的技术人员能够理解的是还可以采用其他方法的测序方法和装置进行样本检测。

2、Reads:指的是测序仪单次测序所得到的碱基序列,也就是一连串的ATCGGGTA之类的。它可以与参考基因组比对,并且具体的分配给染色体或基因组区域或指定染色体。

3、比对:测序获得的reads都是片段的,读长较短,无法直接进行分析。因此,将reads与参考基因组进行比较,由此确定该参考基因组是否含有该序列的过程。

4、参考基因组:指任何生物体或病毒的任何具体的已知的基因组序列(无论是部分的还是完整的),它可以用于对来自受试者的识别的序列进行参比。例如,用于人类受试者以及许多其他生物体的参考基因组可见于美国国家生物技术信息中心,对于人的样品来说,参考序列可以是人基因组hg38或hg19等的序列。

5、种系突变和体细胞突变:通过对比肿瘤样本和对照样本得出每例样本的种系突变和体细胞突变。

种系突变:发生在生殖细胞中的突变,由亲代遗传给子代,突变将存在于子代的每个细胞中。

体细胞突变:由外源或内源性因素的影响获得的突变,在肿瘤细胞中比较常见。

6、变异类型:根据碱基及染色体的变化可以将编译分成四类:单核苷酸变异、插入缺失变异、拷贝数变异和基因融合。

单核苷酸变异:单个碱基置换。

插入缺失突变:多个碱基的插入或者缺失导致编码氨基酸的增加或减少。

拷贝数变异:染色体局部区域发生扩增或者缺失。

基因融合:染色体之间或单条染色体内部的断点引起的倒位或易位。

本发明中突变特征的计算只考虑了单核苷酸变异。

7、同义突变与非同义突变:是从碱基替换是否会引起蛋白质的改变的角度进行区分。

同义突变:碱基的替换并不造成氨基酸的改变;

非同义突变:碱基的替换造成氨基酸的改变。

第6和第7个分类是从两个维度对突变进行分类:其中第6个分类是从碱基/染色体的角度,第7个分类是从碱基引起的蛋白层面变化进行分类。

8、96种突变模式:突变模式针对点突变进行定义,A、T、C、G四种碱基两两突变,共有4×3=12种排列,考虑到正负链碱基配对原则,正链上的A->C突变,对应负链上为T->G,所以进一步转换成了一个组合的问题,所以某个位点的突变可以划分为以下6种模式:

C>A,表示C>A和G>T两种;

C>G,表示C>G和G>C两种;

C>T,表示C>T和G>A两种;

T>A,表示T>A和A>T两种;

T>C,表示T>C和A>G两种;

T>G,表示T>G和A>C两种;

进一步考虑突变位点所处的序列上下文环境,即上下游各取一个碱基再加上突变位点的碱基,组成了3个碱基的模块,可以有4×4×6=96种模式。

9、突变特征:96种模式的频率分布就是突变特征。突变特征是特定诱变过程(例如DNA复制错误,DNA修复缺陷以及外源和内源毒素暴露)引起的不同类型突变的特异性组合。突变特征可以当做一个肿瘤样本的特征,进行样本间的比较。

10、突变特征贡献度:由该突变特征引起解释的突变数目占全部突变数目的百分比。

11、解剖学起源:原来正常的某个组织或器官的正常细胞,在各种内外致癌因素的长期作用下,逐渐转变为恶性肿瘤细胞,进而形成癌细胞团块。该组织或者器官成为肿瘤的解剖学起源。

在此基础上,本发明实施例提供了一种区分不同解剖学起源肿瘤的系统,如图1所示,该系统包括:

测序模块1,用于对待测样品的DNA进行提取,并进行高通量测序,获得测序结果

在测序模块中,对于测序和检测方法,通过对肿瘤样本和对照样本进行DNA提取,进行外显子测序。其中的测序方法,需要对肿瘤样本,对照样本进行二代测序,通过对高通量测序的方法获得相应位点的序列信息。该过程可以按照常规的实验方法、教科书、探针设计方法、测序仪使用手册的描述进行,主要的流程包括:对每个肿瘤样本和对照样本进行DNA提取,获取基因组DNA;通过超声破碎将DNA片段过于大的样本打断至200-350碱基对;对片段化的DNA分子执行末端修复、添加嘌呤、文库接头连接等操作;获得的DNA片段与文库长为120碱基的单链生物素标记DNA探针分子杂交,再以链霉亲和素包裹的磁珠分离捕获的DNA文库分子;在测序仪上进行测序。测序反应获得的数据通过生物信息学分析。

在获得了相应的测序信息后,可以采用常规方法做数据进行预处理,这里的处理主要是对测序所得的每个样本序列进行过滤,以去除掉不合格的序列和接头序列。其中,样本包括肿瘤样本和对照样本;具体的对高通量测序后的样本序列进行过滤,去除不合格的序列以及接头序列。其中,不合格的序列可以为下列情况的至少一种:测序质量低于某一阈值的碱基个数超过整条序列碱基个数一定比例(例如:50%)和序列中的测序结果不确定的碱基个数超过整条序列碱基数目的一定比例(例如:10%)。其中,高通量测序技术可以为现有的任何一种高通量测序技术,低质量阈值可以由具体的测序技术和测序环境确定。在读段进行预处理后,将过滤的每个样本序列分别比对到参考基因组序列,对比后的每个样本序列分别进行筛选以得到唯一比对的样本序列,确定每个唯一比对的样本序列相对于参考基因组序列的位置信息,并对位置信息进行排序;具体的:(1)首先可以通过任何一种短序列比对映射程序将过滤得到每个样本序列分别比对到参考基因组序列得到每个样本序列在参考基因组上的位置情况;(2)对比对结果进行一系列的筛选,例如去除比对到多个位置的序列、去除重复出现的序列,以得到唯一比对的序列结果。

对比模块2,用于对高通量测序的下机数据进行处理,并将下机数据比对至参考基因组上,分析肿瘤样本和对照样本以得出体细胞突变

对下级数据进行处理,通过BWA比对软件获得相关的突变信息,分析肿瘤样本和对照样本得出体细胞突变,保留单核苷酸变异,统计96种突变模式的个数,通过软件鉴定突变特征。

其中的突变特征鉴定方法,需要先对单核苷酸变异进行统计。根据其突变类型分成C>A,C>G,C>T,T>A,T>C,T>G六个类别。对每个核苷酸变异通过其基因组位置获取其上下游各一个碱基组成三个核苷酸的模块。最终每个样本形成4*6*4=96种模式,具体如下所示:

A[C>A]A,A[C>A]C,A[C>A]G,A[C>A]T,A[C>G]A,A[C>G]C,A[C>G]G,A[C>G]T,A[C>T]A,A[C>T]C,A[C>T]G,A[C>T]T,A[T>A]A,A[T>A]C,A[T>A]G,A[T>A]T,A[T>C]A,A[T>C]C,A[T>C]G,A[T>C]T,A[T>G]A,A[T>G]C,A[T>G]G,A[T>G]T,C[C>A]A,C[C>A]C,C[C>A]G,C[C>A]T,C[C>G]A,C[C>G]C,C[C>G]G,C[C>G]T,C[C>T]A,C[C>T]C,C[C>T]G,C[C>T]T,C[T>A]A,C[T>A]C,C[T>A]G,C[T>A]T,C[T>C]A,C[T>C]C,C[T>C]G,C[T>C]T,C[T>G]A,C[T>G]C,C[T>G]G,C[T>G]T,G[C>A]A,G[C>A]C,G[C>A]G,G[C>A]T,G[C>G]A,G[C>G]C,G[C>G]G,G[C>G]T,G[C>T]A,G[C>T]C,G[C>T]G,G[C>T]T,G[T>A]A,G[T>A]C,G[T>A]G,G[T>A]T,G[T>C]A,G[T>C]C,[T>C]G,G[T>C]T,G[T>G]A,G[T>G]C,G[T>G]G,G[T>G]T,T[C>A]A,T[C>A]C,T[C>A]G,T[C>A]T,T[C>G]A,T[C>G]C,T[C>G]G,T[C>G]T,T[C>T]A,T[C>T]C,T[C>T]G,T[C>T]T,T[T>A]A,T[T>A]C,T[T>A]G,T[T>A]T,T[T>C]A,T[T>C]C,T[T>C]G,T[T>C]T,T[T>G]A,T[T>G]C,T[T>G]G,T[T>G]T。

统计每个样本每种模式的个数,然后将统计的结果作为输入,输入给任何已知的突变特征鉴定软件识别突变特征。

分析模块3,用于将所述的基因组中的体细胞突变进行分析,识别突变特征,依据识别的突变特征预测肿瘤的解剖学起源

在分析模块中,首先,利用生物信息学的方法,收集The Cancer Genome Atlas(TCGA)数据库全外显子组测序(whole exome sequencing,或WES)的公共数据,并对收集的数据统计96种突变模式,并计算每个的突变特征组合以及每个突变特征的权重。通过统计学的方法在TCGA的样本中鉴定常见恶性肿瘤的特异性突变特征组合(详见图2),并基于突变特征构建模型预测肿瘤的解剖学起源;然后,统计待测的样本的96种突变模式信息,使用deconstructSigs等可以识别单个样本的突变特征的工具获取每个待测样本的突变特征组合以及每个突变特征的权重;最后,将待测的样本的突变特征组合及其权重信息输入构建的模型,预测待测样本属于某种恶性肿瘤的可能性。

为了充分提高本诊断模型的准确性和可靠性,分别在原发肿瘤、转移肿瘤和血液中进行验证,主要通过三个阶段完成。本发明可以应用于常见恶性肿瘤,包括但不限于,乳腺癌、非小细胞肺癌、结直肠癌、胃癌、卵巢癌、肝癌、黑色素瘤、食管癌、胰腺癌、前列腺癌。

1、原发肿瘤验证区分解剖学起源肿瘤系统的准确性

利用生物信息学的方法,收集The Cancer Genome Atlas(TCGA),InternationalCancer Genome Consortium(ICGC)数据库全外显子组测序(whole exome sequencing,或WES)的公共数据以及发表文献中的数据,并对收集的数据计算突变特征。通过统计学的方法在TCGA的样本中鉴定常见恶性癌型的特异性突变特征组合(详见图2以及如下表1),并构建模型。

表1特异性突变特征组合

通过模型计算每个样本属于某种恶性肿瘤得分。通过得分的高低判断是否来源于某个器官。本发明并未划分最终的得分阈值,在实际使用中,使用者可以采用合适的统计学方法进行阈值的确定。

每种癌型的特异性突变特征组合通过如下方法鉴定:

A:在该癌型中至少20%的样本出现了该突变特征;

B:在该癌型中,该突变特征的贡献度超过6%;

C:该突变特征在该癌型种与其他癌症类型相比,存在明显差异,贡献度的平均值倍数变化大于1.5,并且贡献度的平均值的差值绝对值大于0.1;

D:满足A、B、C的突变特征纳入逐步回归算法,通过该算法选定最终的突变特征组合并构建系统。

在ICGC数据库中及其他文章的公共数据进行验证。结果如图3、图4以及如下表2所示。

表2验证结果

由图3、4和上表2可知,膀胱癌、结直肠癌、食管癌、卵巢癌的AUC都超过90%,胃癌和非小细胞肺癌的AUC都超过80%。乳腺癌,肝癌以及胰腺癌的AUC都超过了75%。从结果来看,本发明系统在验证集的多个癌型都中取得了较高的准确度。

2、转移肿瘤验证区分解剖学起源肿瘤系统的准确性

为了进一步验证实际临床中基于第一阶段的突变特征分析的准确性,本发明纳入了274例原发肝癌与82例转移到肝的其他癌症。通过第一阶段的肝癌模型去区分原发肝癌与其他癌症。得到的结果如下表3所示:

表3

从表3结果中可以看出灵敏度为94%,特异度为71%,准确度为89%,能够较好的区分肝癌和其他解剖学起源的癌症。

3、血液中验证区分解剖学起源肿瘤系统的准确性

为进一步在血液中验证突变特征区分肿瘤解剖学起源的能力,本发明纳入了27例乳腺癌的血液突变数据以及14例前列腺癌的血液突变数据。通过第一阶段构建的乳腺癌模型与前列腺癌模型区分乳腺癌与前列腺癌。乳腺癌患者的乳腺癌得分普遍高于前列腺癌的患者,而前列腺癌患者的前列腺癌得分普遍高于乳腺癌患者。通过比较二者得分区分患者来源乳腺还是前列腺,得到的结果如图5和下表4所示:

表4

由图5和表4可以看出准确度为70.7%,本发明突变特征能够在血液中较好的区分乳腺癌与前列腺癌。

在此基础上,本发明实施例进一步提供了一种区分不同解剖学起源肿瘤的方法,如图6所示,该方法包括步骤:

S1、对待测样品的DNA进行提取,并进行高通量测序,获得测序结果;

S2、对高通量测序的下机数据进行处理,并将下机数据比对至参考基因组上,分析肿瘤样本和对照样本以得出体细胞突变;

S3、将所述的基因组中的体细胞突变进行分析,识别突变特征,依据识别的突变特征预测肿瘤的解剖学起源。

本发明实施例方法与上述实施例所述系统本质相同,以上述系统实施例记载内容同样解释本发明实施例方法,在此不再赘述。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号