首页> 中国专利> 增强子在全基因组相互作用研究方法

增强子在全基因组相互作用研究方法

摘要

本发明涉及一种增强子在全基因组相互作用研究方法,属于基因技术领域。该方法步骤为:(1)数据转换:采用UCSC网站liftover软件把增强子数据转换成hg18,对1760个增强子长度和分布进行统计分析。(2)数据过虑:过虑掉两个染色质片段距离小于100kb的数据,得到hESC细胞系、IMR90细胞系以及它们的重复实验基因表达数据,求平均值。(3)数据注释:将过虑好的数据比对到增强子数据中,统计不同细胞能捕获到的增强子数。(4)结果分析:比较增强子在全基因组范围相互位点数据。本发明能很好地得到细胞核内染色质三维构象的信息,能知道基因的表达调控信息,鉴定一些未知调控序列,这些技术在鉴定全基因组上的长距离作用起着十分重要的作用。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-02

    未缴年费专利权终止 IPC(主分类):G06F19/18 授权公告日:20170609 终止日期:20171114 申请日:20131114

    专利权的终止

  • 2017-06-09

    授权

    授权

  • 2014-04-16

    实质审查的生效 IPC(主分类):G06F19/18 申请日:20131114

    实质审查的生效

  • 2014-03-19

    公开

    公开

说明书

技术领域

本发明涉及一种增强子在全基因组相互作用研究方法,属于基因技术领域。

背景技术

随着人类基因组计划的结束,分子生物学家研究开始转向功能基因组,并已经开始 着手寻找基因组功能片段。很多功能元件例如增强子(enhancers)、位点控制区域 (LCRs),在染色质座位上远离其靶基因,这为我们发现和鉴定带来了困难。最近有研 究表明,染色质可以通过相互作用对转录进行反式调控。研究细胞核内三维空间中功能 元件的相互作用可以帮助我们了解基因组的功能调控机制。

增强子是一类短的DNA序列,其通过转录因子的介导能增强基因的表达水平。增 强子一类典型的远距离调控元件,它可以位于基因的远端,甚至位于不同的染色体。增 强子一般是通过比较基因组技术和增强子捕获技术(enhancer trap techniques)鉴定。

研究染色质相互作用的主流技术都是基于染色体捕获技术(chromatin conformation  capture,3C)而建立的,从2002年最初的染色体捕获技术到现在的Hi-c,历经10余年 的研究,科学家已经累积了很多染色质相互作用的数据。由于Hi-c能无偏差全基因组范 围捕获染色质与染色质相互作用,且通量巨大。本发明选取人的两个细胞系Hi-c数据, 来分析增强子在全基因组范围相互作用。

发明内容

本发明的目的在于提供一种增强子在全基因组相互作用研究方法,以便更加全面地 研究增强子在基因中的作用,更好地了解基因组的功能调控机制。

为了实现上述目的,本发明的技术方案如下。

一种增强子在全基因组相互作用研究方法,具体包括以下步骤:

(1)数据转换:

由于增强子数据库的基因组位置是hg19而Hi-c的数据是hg18,采用UCSC网站 liftover软件把增强子数据转换成hg18。对1760个增强子长度和分布进行统计分析得到 统计分布图,从中发现,增强子的长度大多小于2kbp,在各染色体上的分布不均匀。

(2)数据过虑:

过虑掉两个染色质片段距离小于100kb的数据,得到hESC细胞系、IMR90细胞系以 及它们的重复实验基因表达数据,求两个数据的平均值作为基因表达的量。根据基因或 者转录本的表达量,把基因分为:低表达(表达值<50)、中表达(50<表达值<=500)、 高表达(表达值>500),针对每类基因数量进行统计。

(3)数据注释:

将过虑好的数据比对到增强子数据中,统计不同细胞实验能捕获到的增强子数,发 现,测序读序(read)数越多能捕获到的增强子也越多,但是当测序读序数达到一定数 量时,增加大量的测序读序似乎对于捕获增强子的作用不显著。

(4)结果分析:

比较4组增强子在全基因组范围相互位点数据,在较大片段范围内(1Mbp),四个 实验组数据重合度比较高,在更精细的范围内(1kb),4个实验组数据有着较大的区别, 但是同一细胞系的重复试验差别小于不同细胞系。这表明用Hi-c捕获细胞系的染色质 相互作用时,捕获到的是细胞系的一个平均的相互作用,一个细胞系存在着大量的细胞, 很难保证每个细胞处于同样状态,由于基因表达的时空差异,染色质的在核内的三维空 间也是一种动态的过程。目前的技术限制很难做到单细胞的染色质构象捕获。

将与增强子作用的位点进行注释,得到相应数据,与增强子作用次数最多的是基因 (Genes,大约占0.39%),其次是重复序列序列(大约占0.20%),再次是基因上游20K 的位置(Up20k,约占17%),再次是基因组其他序列(NO,约占13%),再次是基因下游 的20K(Down20k,约占9%),最少的增强子(Enhancer,约占0.2%)。

每个增强子平均能捕获到几十个作用片段,说明增强子在起作用时候,增强子和其 他序列形成了一个以基因为中心比较复杂的三维结构。在增强子相互作用的片段中,基 因与增强子相互租用频率最高,这表明不管基因表达状况如何,和基因在三维空间上的 距离都是靠近的。重复序列是一个高频率的相互作用类型,这表明有的重复序参与基因 表达,有的增强子可能在维持染色质的三维结构上起着重要的作用。在4个实验中,重 复序列L1和增强子相互作用频率是最高的,L1是一个富含AT的重复序列,包含了RNA 聚合酶III的内部启动子。另外在基因上游20K区域也是个高频区,大多数的基因的启 动子都位于这个区域,很多增强子都是直接与启动子相互作用,从而调节基因的表达。 另外增强子与增强子也存在着相互作用,这可能提示基因需要多个增强子作用,以增强 某个时刻的高表达。

该发明的有益效果在于:本发明运用染色体构象捕获技术及其衍生技术,能很好地 得到细胞核内染色质三维构象的信息。通过分析核内染色质与染色质的相互作用,能知 道基因的表达调控信息,鉴定一些未知调控序列。这些技术在鉴定全基因组上的长距离 作用起着十分重要的作用。

附图说明

图1是本发明实施例中增强子长度统计图。

图2是本发明实施例中增强子分布统计图。

图3是本发明实施例中不同表达条件下的基因数量统计图。

图4是本发明实施例中4组数据增强子在全基因组范围相互位点图(A表示hESC; B表示hESC replicate组;C表示replicate;D表示imr90replicate)。

图5是本发明实施例中增强子作用的位点百分比对比图。

图6是本发明实施例中增强子相互作用的片段图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述,以便更好的理解本发明。

实施例

本实施例中的Hi-c数据来自Jesse R.Dixon等在2012年《Nature》发表的 《Topological domains in mammalian genomes identified by analysis of chromatin  intcractions》,从NCBI的GEO数据库中下载GSM862724(IMR90细胞系),GSM892307 (IMR90重复实验数据),GSM862723(hESC细胞系),GSM892306(hESC重复实验数据) 具体见http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE35156。增强子数据 库:数据下载于http://enhancer.lbl.gov/;hESC细胞系、IMR90细胞系基因表达数据 下载于:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE26855。

具体步骤及结果如下:

(1)数据转换:

由于增强子数据库的基因组位置是hg19而Hi-c的数据是hg18,本发明实施例中, 用UCSC网站liftover软件把强子数据转换成hg18。对1760个增强子长度和分布进行 统计分析,长度统计图见图1,分布统计图见图2。增强子的长度大多小于2kbp,在各 染色体上的分布也不均匀。

(2)数据过虑:

根据Jesse R.Dixon等分析,认为当两个染色质片段距离小于100kb,其自连率将大 大增加。本实施例过虑掉两个染色质片段距离小于100kb的数据,得到表1的结果。

表1:不同细胞系基因表达数据

hESC细胞系、IMR90细胞系都有两个重复实验的基因表达数据,求两个数据的平均 值作为基因表达的量。根据基因或者转录本的表达量,把基因分为:低表达(表达值<50)、 中表达(50<表达值<=500)、高表达(表达值>500),每类基因数量见图3。

(3)数据注释:

将过虑好的数据比对到增强子数据中,不同细胞实验能捕获到的增强子数见表2。 测序读序(read)数越多能捕获到的增强子也越多,但是当测序读序数达到一定数量时, 增加大量的测序读序似乎对于捕获增强子的作用不显著。

表2:不同细胞实验能捕获到的增强子数

(4)结果分析:

比较4组实验数据增强子在全基因组范围相互位点(见图4),发现在较大片段范围 内(1Mbp),四个实验组数据重合度比较高(该图中线条的密度跟趋势类似),跟Jesse R. Dixon等所绘制的热图吻合,但是在更精细的范围内(1kb),4个实验组数据有着较大 的区别,但是同一细胞系的重复试验差别小于不同细胞系。这表明用Hi-c捕获细胞系 的染色质相互作用时,捕获到的是细胞系的一个平均的相互作用,一个细胞系存在着大 量的细胞,很难保证每个细胞处于同样状态,由于基因表达的时空差异,染色质的在核 内的三维空间也是一种动态的过程。由于实验技术限制目前很难做到单细胞的染色质构 象捕获。

把与增强子作用的位点进行注释,注释结果见表3。与增强子作用次数最多的是基 因(Genes,大约占0.39%),其次是重复序列序列(大约占0.20%),再次是基因上游20K 的位置(Up20k,约占17%),再次是基因组其他序列(NO,约占13%),再次是基因下游 的20K(Down20k,约占9%),最少的增强子(Enhancer,约占0.2%),这种趋势在这4 个实施例过程中都是一致的(见图5)。

每个增强子平均能捕获到几十个作用片段,说明增强子在起作用时候,增强子和其 他序列形成了一个以基因为中心比较复杂的三维结构(见图6)。在增强子相互作用的片 段中,基因与增强子相互租用频率最高,这表明不管基因表达状况如何,其和基因在三 维空间上的距离都是靠近的。重复序列是一个高频率的相互作用类型,这表明有的重复 序参与基因表达,有的增强子可能在维持染色质的三维结构上起着重要的作用。例如在 4个实验中,重复序列L1和增强子相互作用频率是最高的,L1是一个富含AT的重复序 列,包含了RNA聚合酶III的内部启动子。另外在基因上游20K区域也是个高频区,大 多数的基因的启动子都位于这个区域,很多增强子都是直接与启动子相互作用,从而调 节基因的表达。另外增强子与增强子也存在着相互作用,这可能提示基因需要多个增强 子作用,以增强某个时刻的高表达。

运用染色体构象捕获技术及其衍生技术能很好地得到细胞核内染色质三维构象的 信息。通过分析核内染色质与染色质的相互作用,能知道基因的表达调控信息,鉴定一 些未知调控序列。这些技术在鉴定全基因组上的长距离作用起着十分重要的作用。由于 技术的缺陷,现在还不能较好的捕获单细胞的染色质相互作用,所得到的染色质相互作 用信息都是多细胞的,这些细胞存在各种差异,增加分析的难度。另外目前这些技术的 分辨率大约在10Kb,在这范围内做太精细的分析也比较困难。

表3:增强子作用的位点注释结果

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来 说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视 为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号