公开/公告号CN106591443A
专利类型发明专利
公开/公告日2017-04-26
原文格式PDF
申请/专利权人 北京华生恒业科技有限公司;
申请/专利号CN201611102078.X
申请日2016-12-05
分类号C12Q1/68(20060101);G06F19/26(20110101);
代理机构北京精金石专利代理事务所(普通合伙);
代理人刘晔
地址 100083 北京市海淀区中关村东路18号财智国际大厦C-1511
入库时间 2023-06-19 01:59:31
法律状态公告日
法律状态信息
法律状态
2017-11-28
授权
授权
2017-05-24
实质审查的生效 IPC(主分类):C12Q1/68 申请日:20161205
实质审查的生效
2017-04-26
公开
公开
技术领域
本发明一般地涉及生物遗传学和基因组学领域,并且更特别地,涉及一种分析处理农作物荧光毛细管电泳图谱的方法及其装置。
背景技术
荧光毛细管电泳是处理分析生物遗传物质常用的方法。不同长短的遗传片段可以通过电泳分离,而来源不同但相同长短的遗传片段则可以通过不同的荧光颜色进行区分。在用荧光标记引物时,PCR扩增产物的有无或多少是通过检测荧光强度来判定的,但是不同颜色的荧光波谱之间是有重叠的。如果某一种颜色的信号过强,超过了程序的处理范围,或者超出了仪器的检测能力,就会在一种颜色出现超高峰的位置还出现另一种颜色的小峰,这个小峰即为拔起(pull up)峰。这种由于颜色从一个光谱通道扩散到另一个的“拔起现象”广泛存在于荧光电泳实验环境。
相对于人类遗传资源的研究,农作物遗传资源的研究相对落后。目前用于农作物基因标记的引物设计相对匮乏,也没有成熟的试剂盒,这导致经PCR扩增和荧光毛细管电泳产生的农作物基因检测图谱存在较多的拔起峰,且这些拔起峰的峰高较高,不容易与其他正常的峰作区分。并且,由于标准物产生的内标色带峰高较低,如果此时样品产生的普通色带与内标色带有重合的峰,正常的内标标准峰将很有可能被当做拔起峰而被删除,从而会导致内标校准较差或失效。这样的情况在农作物拔起峰普遍峰高较高的环境下会更加严重。另外,农作物电泳后产生的基因检测图谱容易产生连续多峰,即一系列等间距、间距不大于2.5bp且峰数大于2的峰,若拔起峰出现在连续多峰区域,则有可能会被当做连续多峰被而被忽略,造成多读峰或读错峰的情况。
现有处理荧光毛细管电泳图谱中拔起峰的方法通常只是将相邻色带图谱对比以筛查出拔起峰,并将筛查出的拔起峰简单删除。但这种方法无法有效处理农作物检测图谱中与内标色带有重合或处于连续多峰段的拔起峰,往往会使得内标校准较差甚至失效或者造成多读峰或读错峰的情况,从而导致检测结果出现较大偏差甚至是检测失败。因此,如何能在不影响内标校准和丢失峰的情况下将拔起峰做有效处理,从而提高农作物荧光毛细管电泳图谱基因检测正确率是本领域技术人员需要解决的一个关键技术问题。
发明内容
为了解决现有技术中存在无法有效处理农作物荧光标记检测图谱中拔起峰的问题,本发明的目的是提供一种分析处理农作物荧光标记检测图谱的方法,包括曲线处理、内标校准以及片段分析和基因分型3个主要处理步骤,其特征在于,曲线处理中还包括拔起峰处理,所述拔起峰处理包括以下步骤:
1)重合峰定位:将A色带与B色带做对比,找到B色带中位置与A色带峰的位置重合的峰,将这些峰定为重合峰,其中A色与B色荧光光谱有重叠并且A色带会造成B色带拔起;
2)重合峰分组:
当步骤1)定位的重合峰的位置与内标标准峰的位置重合时,将这些重合峰定为拔起峰I,
当重合峰位于连续多峰段时,将这些位于连续多峰段的重合峰定为准拔起峰;
当重合峰的位置既不在连续多峰段又不与内标标准峰重合时,将这些重合峰定为拔起峰II,
3)重合峰处理:
记录各个拔起峰I的位置以供后续内标校准步骤参考并消除拔起峰I,
消除拔起峰II,
记录准拔起峰的总个数N以及各个准拔起峰的位置XiB,其中,i是不小于0且不大于N的整数,
当N为0时,结束拔起峰处理步骤;
4)准拔起峰分组:将位置为XiB±32frame的所有B色带内的峰分为第i组;
5)准拔起峰再分组:将步骤4中的N个组进行再分组,即找到每组中的最高峰,将最高峰及其左右两峰分为这个组的一个子组1i,组内的其他峰分为另一子组2i;
6)拔起峰III判断:在步骤5确定的每个ai子组内,
a)将子组位置范围内A色带峰的峰高排序并将这个范围内的最高峰的位置定为XaiA,另外将子组内最高峰的位置定为XaiB,
b)将XaiB与XaiB对比,若XaiB≠XaiB,子组ai中的所有峰都被判断为不是拔起峰III,反之则进行下一步判断,
c)当位置为XaiB的峰的峰高HaiB与位置为XaiA的峰的峰高HaiA之间的比例大于c时,位置为XaiB的峰被判断为准拔起峰III,其中c的取值依据被测物种调整,
d)依照峰高排序由高到低,根据峰的位置和峰的高度比例判断子组ai中其他峰是否为准拔起峰III,
e)当子组ai中准拔起峰III的个数与子组ai中的所有峰的个数的比例低于0.75时,子组ai中的所有峰都被判定为都不是拔起峰III,反之则都是拔起峰III,
其中a为子组数,a取值为1或2;
7)拔起峰III处理:将拔起峰III消除,并在其后结束拔起峰处理步骤。
进一步地,步骤7拔起峰III处理中所述的消除为:当存在拔起峰III相邻的情况时,相邻的两个拔起峰III采用曲线差值拟合方法进行组合处理以消除拔起峰III,反之则进行单峰处理以消除拔起峰III。采用曲线差值拟合方法可以使经拔起峰III消除处理后的图片更加平滑,避免出现尖刺等图形对后续的图谱分析产生影响。
进一步地,所述曲线差值拟合方法为线性插值或三次样条插值。在同样的处理效果下,线性插值和三次样条插值图形计算量较小,图形处理速度更快。
进一步地,所述曲线处理还包括钉子峰处理步骤,所述钉子峰处理步骤是将由于电泳时电流不稳而导致的钉子状尖峰去除。
进一步地,所述曲线处理还包括饱和峰处理步骤,所述饱和峰处理步骤是将由于峰强度超过了测序仪的阈值而导致的平头或凹头型饱和峰以及在饱和峰下对应出现的拔起峰相叠加从而形成一个完整的峰。
本发明的另一目的是在于提供一种分析处理农作物荧光标记检测图谱的装置,所述装置包括曲线处理、内标校准以及片段分析和基因分型3个模块,其特征在于,曲线处理模块中还包括拔起峰处理子模块,所述拔起峰处理模块包括以下单元:
重合峰定位单元,用于将A色带与B色带做对比,找到B色带中位置与A色带峰的位置重合的峰,将这些峰定为重合峰,其中A色与B色荧光光谱有重叠并且A色带会造成B色带拔起;
重合峰分组单元,用于对重合峰分组,具体为:
当定为单元所定位的重合峰的位置与内标标准峰位置重合时,本单元将这些重合峰定为拔起峰I,
当重合峰的位置既不在连续多峰段又不与内标标准峰重合时,本单元将这些重合峰定为拔起峰II,
当重合峰位于连续多峰段时,本单元将这些位于连续多峰段的重合峰定为准拔起峰;
重合峰处理单元,用于分别处理分组后的重和峰,具体为:
记录各个拔起峰I的位置以供后续内标校准模块参考并消除拔起峰I,
消除拔起峰II,
记录准拔起峰的总个数N以及各个准拔起峰的位置XiB,其中,i是不小于0且不大于N的整数,
当N为0时,结束拔起峰处理;
准拔起峰分组单元,用于对准拔起峰进行分组,具体为:将位置为XiB±32frame的所有B色带内的峰分为第i组;
准拔起峰再分组单元,用于对准拔起峰进行进一步分组,具体为:准拔起峰分组单元处理后的N个组进行再分组,即找到每组中的最高峰,将最高峰及其左右两峰分为这个组的一个子组1i,组内的其他峰分为另一子组2i;
拔起峰III判断单元,用于对准拔起峰的判断,具体为:准拔起峰再分组单元确定的每个ai子组内,
a)将子组位置范围内A色带的峰的峰高排序并将这个范围内的最高峰的位置定为XaiA,另外将子组内最高峰的位置定为XaiB,
b)将XaiB与XaiB对比,若XaiB≠XaiB,子组ai中的所有峰都被判断为不是拔起峰III,反之则进行下一步判断,
c)当位置为XaiB的峰的峰高HaiB与位置为XaiA的峰的峰高HaiA之间的比例大于c时,位置为XaiB的峰被判断为拔起峰III,其中c的取值依据被测物种调整,
d)根据峰的位置和峰的高度判断子组ai中其他峰是否为拔起峰III,
e)当子组ai中拔起峰III的个数与子组ai中的所有峰的个数的比例低于0.75时,子组ai中的所有峰都被判定为都不是拔起峰III,反之则都是拔起峰III,
其中a为子组数,a取值为1或2;
拔起峰III处理单元,用于将拔起峰III消除,并在其后结束拔起峰处理。
进一步地,所述曲线处理模块还包括钉子峰处理子模块,所述钉子峰处理子模块用于将由于电泳时电流不稳而导致的钉子状尖峰去除。
进一步地,所述曲线处理模块还包括饱和峰处理子模块,所述饱和峰处理子模块用于将由于峰强度超过了测序仪的阈值而导致的平头或凹头型饱和峰以及在饱和峰下对应出现的拔起峰相叠加从而形成一个完整的峰。
本发明的另一目的是提供一种电子终端,其特征在于,所述电子终端包括上述的任一种分析处理荧光标记检测图谱的装置。
进一步地,所述电子终端还包括:
通信模块,用于通过有线和/或无线的方式将所述分析处理农作物SSR标记图谱的装置处理后的图谱或图谱对应的数据传输到外部的其他设备。
本发明所述的曲线处理还可包括基线校准、曲线平滑处理等手段。
由于电泳系统中存在荧光物质的干扰,图谱中的各个色带的基线可能存在偏差。本发明所述的基线校准是将每个色带的最低峰值定为0,使每个色带在同一基准线上。
平滑处理是将图谱中存在的锯齿形状进行平滑处理,使原始峰值更加明显可读。
由于在PCR扩增和电泳处理中存在操作误差和其他物质的干扰,SSR图谱可能存在水平位移的情况。本发明所述的内标校准步骤是将检测所获得图谱中内标物(又称标准物)对应的峰的位置与内标物标准图谱中各个峰的位置做比对,以校准图谱的横坐标,即迁移距离(frame)。
本发明所述的片段分析(GeneScan)是先将已知长度的内标物做分子量标准得到基因长度(bp)对迁移距离(frame)的标准曲线,将检测的未知样品的峰与标准曲线作对比,计算出各个峰对应的实际基因片段长度(bp)。
本发明所述的基因分型(Genotyping)是将未知样品的峰与等位基因分型标准物(allelic ladder)做比对,以确认峰对应的等位基因。
本发明中提到的峰数指的是峰的个数。
本发明所述的分析处理农作物荧光毛细管电泳图谱的方法与现有技术相比的优点在于:由于对不同位置的拔起峰做出区别处理,可以在有效消除拔起峰对图谱识别造成的影响的同时还能有效避免连续多峰被直接删除从而导致遗传信息遗漏的问题,还可以有效避免由于内标标准峰位置的峰被删除而造成的内标校准偏差问题,使农作物荧光毛细管电泳图谱的测序准确率得到明显提升,有利于多实验室共同协作建设农作物遗传信息指纹库。
附图说明
图1为经过本发明的一个方法实施例与一个方法对比例处理的部分检测图谱对比图,其中上半图为经过该对比例处理的部分检测图谱,下半图为该实施例处理的同一部分检测图谱;
图2为本发明的一个装置实施例的功能框图;
图3为本发明的另一个装置实施例的功能框图。
具体实施方式
方法实施例1
使用P40引物对玉米的SSR标记测序,并使用PCR扩增和荧光标记形成相应的检测图谱。
对该检测图谱进行分析处理,所述分析处理包括曲线处理、内标校准以及片段分析和基因分型3个主要处理步骤,其特征在于,曲线处理中还包括拔起峰处理,所述拔起峰处理包括以下步骤:
1)重合峰定位:将A色带与B色带做对比,找到B色带中位置与A色带峰的位置重合的峰,将这些峰定为重合峰,其中A色与B色荧光光谱有重叠并且A色带会造成B色带拔起;
2)重合峰分组:
当步骤1)定位的重合峰的位置与内标标准峰的位置重合时,将这些重合峰定为拔起峰I,
当重合峰位于连续多峰段时,将这些位于连续多峰段的重合峰定为准拔起峰;
当重合峰的位置既不在连续多峰段又不与内标标准峰重合时,将这些重合峰定为拔起峰II,
3)重合峰处理:
记录各个拔起峰I的位置以供后续内标校准步骤参考并消除拔起峰I,
消除拔起峰II,
记录准拔起峰的总个数N以及各个准拔起峰的位置XiB,其中,i是不小于0且不大于N的整数,
当N为0时,结束拔起峰处理步骤;
4)准拔起峰分组:将位置为XiB±32frame的所有B色带内的峰分为第i组;
5)准拔起峰再分组:将步骤4中的N个组进行再分组,即找到每组中的最高峰,将最高峰及其左右两峰分为这个组的一个子组1i,组内的其他峰分为另一子组2i;
6)拔起峰III判断:在步骤5确定的每个ai子组内,
a)将子组位置范围内A色带峰的峰高排序并将这个范围内的最高峰的位置定为XaiA,另外将子组内最高峰的位置定为XaiB,
b)将XaiB与XaiB对比,若XaiB≠XaiB,子组ai中的所有峰都被判断为不是拔起峰III,反之则进行下一步判断,
c)当位置为XaiB的峰的峰高HaiB与位置为XaiA的峰的峰高HaiA之间的比例大于c时,位置为XaiB的峰被判断为准拔起峰III,其中c的取值依据被测物种调整,
d)依照峰高排序由高到低,根据峰的位置和峰的高度比例判断子组ai中其他峰是否为准拔起峰III,
e)当子组ai中准拔起峰III的个数与子组ai中的所有峰的个数的比例低于0.75时,子组ai中的所有峰都被判定为都不是拔起峰III,反之则都是拔起峰III,
其中a为子组数,a取值为1或2;
7)拔起峰III处理:将拔起峰III消除,并在其后结束拔起峰处理步骤。
处理后的检测图谱见附图1(下)。
方法对比例1
使用P40引物对玉米的SSR标记测序,并使用PCR扩增和荧光标记形成相应的检测图谱。
对该检测图谱进行分析处理,所述分析处理除了不做拔起峰处理外,其余与实施例1所述的处理分析相同。
处理后的检测图谱见附图1(上)。
通过附图1可以看到,在进行拔起峰处理后,在B色带(下方色带)298frame附近和310frame附近被A色带连续多峰带起的拔起峰得以消除,另外,A色带对应的连续多峰的峰高得到修正,有利于后续其他图像处理。
实验例1
对玉米、大豆、小麦的200个已知序列用样品测序分重复测序3次,对每种农作物同一已知序列的测序过程相同。测序使用SSR标记,PCR扩增和荧光标记形成检测图谱,每种农作物分别得到300个检测图谱。将这些图谱分别经过处理(即与实施例1相似)和非连续多峰处理方法(即与对比例1相似)进行分析处理,并将分析处理后的结果与已知序列做对比,得到每个方法的平均检测错误率,具体结果见下表。
在经过连续多峰处理后,检测图谱的平均检测错误率明显降低,大大改善了农作物荧光毛细管电泳图谱的测序准确性,有利于多实验室共同协作建设农作物遗传信息指纹库。
图2为本发明的一个装置实施例的功能框图。如图2所示,该装置100包括:
包括曲线处理模块110、内标校准模块120、片段分析和基因分型模块130,曲线处理中还包括拔起峰处理子模块111,所述拔起峰处理子模块包括以下单元:
重合峰定位单元1111,用于将A色带与B色带做对比,找到B色带中位置与A色带峰的位置重合的峰;
重合峰分组单元1112,用于对重合峰分组;
重合峰处理单元1113,用于分别处理分组后的重和峰;
准拔起峰分组单元1114,用于对准拔起峰进行分组;
准拔起峰再分组单元1115,用于对准拔起峰进行进一步分组;
拔起峰III判断单元1116,用于对准拔起峰的判断;
拔起峰III处理单元1117,用于将拔起峰III消除。
图3为本发明的一个装置实施例的功能框图。如图3所示,该装置100中的曲线处理模块110还可以包括钉子峰处理子模块112,用于将由于电泳时电流不稳而导致的钉子状尖峰去除;以及饱和峰处理子模块113,用于将由于峰强度超过了测序仪的阈值而导致的平头或凹头型饱和峰以及在饱和峰下对应出现的拔起峰相叠加从而形成一个完整的峰。
本发明实施例的装置的工作方法请详见上面的方法实施例,故在此不再详述。
本发明实施例还提供一种电子终端,所述电子终端包括以上的分析处理农作物荧光毛细管电泳图谱的的装置。进一步地,该电子终端还可以包括:通信单元,用于通过有线和/或无线的方式将所述分析处理农作物荧光毛细管电泳图谱的装置处理后的图谱或图谱对应的数据传输到外部的其他设备。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,或者二者的结合来实施。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件模块或计算机软件产品可以存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。存储介质可以是随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
虽然本发明的原理已经在本文有具体描述,但是本领域的技术人员应当理解,这个描述仅通过示例的方式来进行,并且不作为关于本发明的范围的限制。除本文中所示出和描述的示例性实施例之外,在本发明的范围内通过本领域的普通技术人员的修改和代替的其他实施例,均被认为是在本发明的范围内。
机译: 一种农作物的生长或育种方法,一种农作物保护剂的生产方法以及在载体中检测病原体的方法,以及一种农作物生产单元和农作物生产系统。
机译: 一种农作物的生长或育种方法,一种农作物保护剂的生产方法以及在载体中检测病原体的方法,以及一种农作物生产单元和农作物生产系统。
机译: 包含至少一种荧光色和至少一种碱性氢氧化物的毛细管成分,以及一种同时成型,着色和/或澄清的方法。