首页> 中国专利> 样本同源性判定模型及其建立方法和应用

样本同源性判定模型及其建立方法和应用

摘要

本发明涉及一种样本同源性判定模型及其建立方法和应用,属于基因检测技术领域。该方法包括以下步骤:样本收集:以同一来源的两样本为阳性样本对组成阳性样本集合,以不同来源的两样本为阴性样本对组成阴性样本集合;SNV数据收集:将测序数据比对至人类参考基因组,获得各样本单核苷酸变异位点SNV情况,任意挑选样本对,统计分型不一致位点数与共同检出位点数的比值为错配率;模型构建:以样本测序数据量、目标序列区域、SNV过滤条件和基因型差异为模型参数条件,以错配率为判定指标,根据样本共同检出位点数量的梯度范围对应匹配的错配率,构建分类模型。该模型能够用于样本测序深度较低的场景,完成样本的同源性判定,具有成本低且高效快速的优势。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-09-05

    专利申请权的转移 IPC(主分类):G16B 5/00 专利申请号:2022105437298 登记生效日:20230821 变更事项:申请人 变更前权利人:广州微远基因科技有限公司 变更后权利人:广州微远基因科技有限公司 变更事项:地址 变更前权利人:510130 广东省广州市高新技术产业开发区科丰路31号自编三栋华南新材料创新园G10栋303号 变更后权利人:510130 广东省广州市高新技术产业开发区科丰路31号自编三栋华南新材料创新园G10栋303号 变更事项:申请人 变更前权利人:广州微远医疗器械有限公司 广州微远医学检验实验室有限公司 深圳微远医疗科技有限公司 微远(深圳)医学研究中心有限公司 变更后权利人:广州微远医疗器械有限公司 广州微远医学检验实验室有限公司 深圳微远医疗科技有限公司

    专利申请权、专利权的转移

  • 2022-09-13

    实质审查的生效 IPC(主分类):G16B 5/00 专利申请号:2022105437298 申请日:20220519

    实质审查的生效

说明书

技术领域

本发明涉及基因检测技术领域,特别是涉及一种样本同源性判定模型及其建立方法和应用。

背景技术

近年来,随着高通量测序数据普及和各种应用研究和开发,病原宏基因组检测作为一项崭新的微生物检测方法出现在各大医院。然而,病原宏基因组整个过程步骤繁杂,包括核酸提取,去宿主,构建高通量测序文库,最后上机测序到生物信息分析等。在整个实验过程中都有相应的质控指标进行监控实验过程是否出现问题。但难免会出现人工操作失误,例如样本标签填错,混淆吸取溶液等等。且当一个患者分开送检一份或多份样本情况下,为了排除出现人工操作或其他导致检出菌谱差异大的情况下,需要确定两份或多份样本是否来自于同一个患者。

由此带来的问题在于,如何在高通量病原宏基因组超低测序深度情况下,对样本的同源性(同一个患者)进行区分。

常规技术中,在司法鉴定领域常用STR去区分不同样本,在群体遗传学研究中常用多态性高的单核苷酸位点组合用于区分不同样本,由于宏基因组测序时效性要求高和测序读长短无法满足常规STR和SNP分型。司法鉴定实验室也常用毛细管电泳法进行对样本的STR分型,淡需要增加实验次数和使用的样本量,由于病原宏基因组样本的特殊性,一般不易获得或获取的量很少,如脑脊液或肺泡关系液。同时考虑到病原宏基因组样本时效性的问题,从接收样本到出具报告整个过程的时效性要求很高。所以不能因为增加了分析步骤而导致拖延了报告出具时间,所以判定同源性的分析步骤不能增加太多时间。

发明内容

基于此,有必要针对上述问题,提供一种样本同源性判定模型的建立方法,该方法建立得到的样本同源性判定模型,能够用于样本测序深度较低的场景(如宏基因组检测)中,无需另外增加实验,利用原始数据即可完成样本是否来自于同一个患者的同源性判定。

一种样本同源性判定模型的建立方法,包括以下步骤:

样本收集:以同一来源的两样本为阳性样本对,以不同来源的两样本为阴性样本对,收集若干阳性样本对组成阳性样本集合,收集若干阴性样本对组成阴性样本集合;

SNV数据收集:将上述样本基于相同的测序方法进行测序得到的测序数据比对至人类参考基因组,获得各样本序列在人类基因组的比对情况,获得各样本单核苷酸变异位点SNV情况,任意挑选样本对,统计分型不一致位点数与共同检出位点数的比值,记为错配率;

模型构建:以样本测序数据量、目标序列区域、SNV过滤条件和基因型差异为模型参数条件,以错配率为判定指标,并根据样本共同检出位点数量的梯度范围,对应匹配的错配率,构建分类模型,即为样本同源性判定模型。

上述模型的建立方法,将高通量测序数据到SNV生成的全部关键参数纳入训练模型中,可适配不同应用方向的数据,找到每个集合中关键参数,并获得低噪音错配率进行作为判定模型的输入,从而提高模型判断准确性。

在其中一个实施例中,所述目标序列区域通过以下方法确定:从数据库获取与样本来源相同人种的多态性位点集合,分别以多态性位点百分率为30%-70%的外显子位点和/或多态性位点百分率为10%-90%的基因组位点为目标序列区域。可以理解的,由于不同人种的多态性位点分布存在差异,应以相应人种数据进行分析,以提高模型性能。

在其中一个实施例中,当所述样本来源于危重病患者,所述目标序列区域还包括线粒体序列区域。由于危急病重的患者线粒体异常活跃,会出现大量线粒体数据,故也会把线粒体序列加入到模型构建中,以提高模型判定准确性。

在其中一个实施例中,所述SNV过滤条件为:过滤去除测序深度为3x以下的位点,以及过滤去除测序质量低于15以下的位点。对于宏基因组检测而言,宏基因组数据量一般为20M序列数,读长50bp,覆盖到人类基因组平均深度是0.3X。在全外显子(WES)中用于分析SNV/SNP方法基本上是60-100X,全基因组(WGS)应用中是10-30X的数据量。因此,将过滤SNV条件按照上述方法限定,可避免超低深度导致的基因型分型不准,而去除过多数据导致不够数据可用的情况发生。

在其中一个实施例中,所述基因型差异包括:杂合子和纯合子;且当测序深度小于3x以下时,过滤去除杂合子分型的位点。基因型一般分为杂合子和纯合子,由于基因型选择中,无法区分胚系(germline)突变,体细胞(somatic)突变等等,故在模型构建的时候会增加基因型差异进行分析;而当深度不足的时候,由于杂合子的准确率更低,影响错配率计算,故杂合子分型的质量值可以过滤掉。

在其中一个实施例中,所述模型构建步骤中,以控制变量的正交试验方法,控制一个参数变化,其它参数固定的条件,迭代分析得到每个参数变化下的样本错配率。

在其中一个实施例中,所述模型构建步骤中,根据参数变化条件下的错配率数值,以支持向量机模型SVM二分类模型进行分类模型的构建。可以理解的,确定参数类型后,具体建模方法按照常规SVM模型的构建即可。

在其中一个实施例中,在所述模型构建步骤之后,还包括以下模型优化步骤:另行收集若干样本组成验证样本集合,以所述验证样本集合对所述样本同源性判定模型进行验证,并根据验证结果优化模型。

本发明还公开了上述的样本同源性判定模型的建立方法建立得到的同源性判定模型。

本发明还公开了上述的同源性判定模型在宏基因组检测样本同源性判断中的应用。

可以理解的,上述同源性判定模型可用于所有类型的临床样本等需要判定同源性的场景中应用,而用在宏基因组检测中,能够在宏基因组测序深度低,数据量少的情况下不进行额外的检测,既能实现同源性判定。

与现有技术相比,本发明具有以下有益效果:

本发明的一种样本同源性判定模型的建立方法,得到的样本同源性判定模型能够用于样本测序深度较低的场景(如宏基因组检测)中,无需另外增加实验,利用原始数据即可完成样本是否来自于同一个患者的同源性判定,具有判定结果准确、成本低且高效快速的优势。

附图说明

图1为实施例1中样本同源性判定模型建立流程示意图;

图2为实施例1中模型PPV性能评估示意图;

图3为实施例1中模型NPV性能评估示意图;

图4实施例2中具体样本对分析判定示意图。

具体实施方式

为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

以下实施例所用试剂除非特别说明,均为市售可得;以下实施例所用方法,如非特别说明你,均为常规方法可以实现。

定义:本发明所述“基于相同的测序方法进行测序得到的测序数据”指测序手段相同的测序技术,如均为宏基因组测序数据,或基于探针捕获测序数据等。

实施例1

一种样本同源性判定模型,通过以下方法建立得到,并进行性能评估,其流程示意图如图1所示。

一、样本收集

1、构建训练数据集合,以同一来源的两样本为阳性样本对,如同一患者可能有多个不同样本类型(如肺泡灌洗液、脑脊液、鼻咽拭子、血液等),取其中两个样本作为阳性样本对,收集若干阳性样本对组成阳性样本集合,本实施例中共收集得到120个患者的240个样本,120对阳性样本对作为阳性样本集合。

收集若干不同来源(即不同患者)的样本,本实施例中,以上述120个患者的240个样本,通过匹配不同患者的不同类型样本,共组成(120×119)/2对阴性样本对组成阴性样本集合,其中(120×119)/2为120个患者的任一样本与其它患者的不同样本组成样本对的数量。

2、构建验证数据集合,另行收集1137临床样本作为验证数据集合,备用。

二、SNV数据收集

1、本模型构建方法跟机器学习模型构建不尽相同。模型本身是针对于本实验室产出的宏基因组数据进行构建,并用于同源性判定分析。通常采用别的方法产生的共同量数据需要重新构建模型,如捕获类产品中需要以同样的捕获类检测方法得到的序列数据进行构建。本实施例中,获取上述样本基于宏基因组检测方法进行测序得到的测序数据。

2、利用开源软件fastp对宏基因组原始测序数据进行去除测序接头序列和质量值较低的序列。

3、利用开源软件bwa对上述得到测序数据进行比对到人类参考基因组中(版本hg19),获得样本序列在人类基因组的全部比对情况。

4、利用开源软件samtools去除重复序列后,和bcftools处理比对序列进行对位点进行分析单核苷酸变异,获得各样本本单核苷酸变异位点(SNV)情况。

5、任意挑选上述样本集合(阳性样本集合及阴性样本集合)中的样本对挑选共同检出位点,统计多少个分型不一致的位点与共同检出位点比值,记录为错配率。

三、模型构建

以样本测序数据量、目标序列区域、SNV过滤条件和基因型差异为模型参数条件,以错配率为判定指标,并根据样本共同检出位点数量的梯度范围,对应匹配的错配率,即梯度生成多个批次的分析,构建分类模型,即为样本同源性判定模型,具体构建方法如下。

1、测序数据量

测序数据量决定了了最终分析样本对中有多少共同检出位点作为后续判定,以及模型判定的性能。因此,根据数据量的不同梯度范围,对应不同的错配率,进行模型的建立。

2、目标序列区域(bed)确定

检测区域的选择会影响整体分析时间和模型判定的效能,例如:目标序列区域决定模型分析时间,目标序列区域越大,分析时间越长,且目标序列区域越大,背景信号噪音越大,影响错配率的计算。

从千人基因组计划、genomad数据库获取样本来源相同人种(如东亚人)的多态性位点集合,分别以多态性位点百分率为30%-70%的全外显子(WES)位点和多态性位点,百分率为10%-90%的全基因组(WGS)位点为目标序列区域。

本实施例中,由于病原宏基因组样本特性,危急病重的患者线粒体异常活跃,会出现大量线粒体数据,故也会把线粒体序列加入到模型构建中。

3、SNV过滤条件(过滤阈值)确定

宏基因组数据量一般为20M序列数,读长50bp,覆盖到人类基因组平均深度是0.3X。在WES中用于分析SNV/SNP方法基本上是60-100X,WGS应用中是10-30X的数据量。

因此,本实施例中过滤SNV条件为:

深度过滤:过滤去除3x以下位点。

质量值过滤:低于15质量值位点去除。

4、基因型差异

过滤得到SNV后,得到杂合子(如:AT/AC/AG/TC/TG/CG等)和纯合子(如:AA/TT/CC/GG),由于基因型选择中,无法区分胚系(germline)突变,体细胞(somatic)突变等等,故纳入基因型分型中纯合子或杂合子去构建分析模型。

但在置信度较低(较常规高通量)的分型方法中,杂合子的准确率更低,影响错配率计算,因此,当深度不足(例如小于3x)的时候,杂合子分型的质量值可以过滤掉。

5、建模方法

以上述不同数据量、目标序列区域(SNV位点集合)、SNV过滤条件、基因型差异为模型参数,并以不同共同检出位点数量的梯度和相应匹配的错配率梯度,不断迭代生成不同批次的任务,得到不同任务中的错配率结果。

在每个不同任务得到结果后,利用支持向量机(SVM)构建分类模型,最后得到最优模型。

模型最后得到包括目标序列区域(SNV位点集合,bed),SNV过滤条件、基因型差异的最优结果,和利用不同位点数据量所对应不同错配率下建立得到SVM判定模型,获得不同位点数据量下所对应的最合适的判定阈值,即为不同位点数量的梯度范围的样本同源性判定模型。

四、模型优化

以步骤一中的验证数据集合,对上述步骤得到的样本同源性判定模型进行验证。

1、方法

验证方法为,将验证数据集合代入训练好的各种参数模型,在当前模型中得到验证数据集合的错配率结果,根据SVM分类模型进行判定同一性。

2、结果

验证结果如图2-图3所示,图2为PPV判定性能示意图,图3为NPV判定性能示意图,图中横坐标为共同检出位点区间(即数据量大小梯度,L1000:共同检出位点1000以下样本对;L5000:共同检出位点1000-5000样本对;L8000:共同检出位点5000-8000样本对;L10000:共同检出位点8000-10000样本对;L15000:共同检出位点10000-15000样本对;B15000:共同检出位点15000以上样本对),纵坐标为样本同源性判定模型(SVM分类模型)判定的AUC值。

从结果中可以看出,若对比样本对共同检出位点数量在5000-8000个时,模型的性能为:

PPV(推测是同一个患者的可靠性)为99%。

NPV(推测是非同一个患者的可靠性)为67.5%。

若对比样本对共同检出位点数量大于15000个位点时,模型的性能为:

PPV(推测是同一个患者的可靠性)为99.8%。

NPV(推测是非同一个患者的可靠性)为94.7%。

实施例2

随机挑选一个批次样本共22个样本,里面包括5个患者有2个不同的样本,既22个样本中,有10个样本可以分别对应到5个患者中。其他12个是另外12个患者的样本,以实施例1的判定模型进行分类判定。

结果如图4所示,结果显示,模型共生成(22*21)/2个样本对的结果,其中,5个患者两个不同样本模型判定正确为同一个人;其他样本对模型分别判定为非同一个人。即A1和A2,G1和G2,I1和I2,J1和J2,M1和M2分别是来自同一个人的不同样本,其他编号为其他患者的样本对。该结果与实际送样情况一致。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号