搜档网
当前位置:搜档网 › 2013-基因组规模DNA甲基化测序数据预处理及表观遗传分析

2013-基因组规模DNA甲基化测序数据预处理及表观遗传分析

HEREDITAS (Beijing)

2013年6月, 35(6): 685―694 ISSN 0253-9772 https://www.sodocs.net/doc/7516997546.html,

综 述

收稿日期: 2012?10?24; 修回日期: 2012?12?27

基金项目:国家重点基础研究发展计划(973计划)项目(编号:2010CB126205)和国家自然科学基金项目(编号:31171165)资助

作者简介:王庭璋, 博士后, 研究方向:生物信息学。Tel: 0571-********; E-mail: wtzhzhtw@https://www.sodocs.net/doc/7516997546.html,

通讯作者:徐建红, 博士, 研究员, 研究方向:基因组学与分子生物学。E-mail: jhxu@https://www.sodocs.net/doc/7516997546.html,

薛庆中, 教授, 研究方向:基因组学, 遗传学。E-mail: xueqingzhong@https://www.sodocs.net/doc/7516997546.html,

网络出版时间: 2013-2-27 9:19:28

URL: https://www.sodocs.net/doc/7516997546.html,/kcms/detail/11.1913.R.20130227.0919.001.html

DOI: 10.3724/SP.J.1005.2013.00685

基因组规模DNA 甲基化测序数据处理及其表观 遗传分析

王庭璋, 单杲, 徐建红, 薛庆中

浙江大学农业与生物技术学院, 杭州 310058

摘要: 鉴定DNA 甲基化胞嘧啶(mC)并能制作基因组规模甲基化图谱的新方法——BS-Seq, 最近已被开发, 它

是基于新一代高通量测序结合DNA 亚硫酸氢盐转换技术, 不仅可以从基因组规模洞察不同生物之间在DNA 甲基化水平和模式上的差异, 也能从不同基因组区域, 包括基因、外显子、重复序列等方面, 阐明DNA 甲基化环境和核苷酸偏好上的保守性, 加深理解DNA 胞嘧啶(C)甲基化在调控基因表达和沉默转座子等重复序列中所起的表观遗传学影响。文章举例介绍了DNA 甲基化位点数据预处理的具体步骤, 通过处理分别将参考序列中的胞嘧啶(C)替换成胸腺嘧啶(T), 鸟嘌呤(G)替换成腺嘌呤(A), 而将读序列中的胞嘧啶(C)替换为胸腺嘧啶(T)。文章综述了全基因组DNA 甲基化分析的主要内容, 包括:(1)不同序列环境下的胞嘧啶甲基化; (2)全基因组上的甲基化的分布情况; (3)DNA 甲基化环境和核苷酸的偏好; (4)DNA-蛋白质互作位点上的DNA 甲基化; (5)不同基因结构元件的胞嘧啶甲基化程度。DNA 甲基化分析技术为研究不同物种的表观基因组, 环境和表观互作提供了强大的工具, 并为进一步发展人体疾病诊断和治疗方法提供理论基础。

关键词: 新一代测序; DNA 甲基化; BS-Seq; 数据处理; 表观遗传学

Genome-scale sequence data processing and epigenetic analysis of DNA methylation

WANG Ting-Zhang, SHAN Gao, XU Jian-Hong, XUE Qing-Zhong

College of Agriculture and Biotechnology , Zhejiang University , Hangzhou 310058, China

Abstract: A new approach recently developed for detecting cytosine DNA methylation (mC) and analyzing the ge-nome-scale DNA methylation profiling, is called BS-Seq which is based on bisulfite conversion of genomic DNA combined with next-generation sequencing. The method can not only provide an insight into the difference of genome-scale DNA methylation among different organisms, but also reveal the conservation of DNA methylation in all contexts and nucleotide preference for different genomic regions, including genes, exons, and repetitive DNA sequences. It will be helpful to under-

686 HEREDITAS

(Beijing) 2013第35卷

stand the epigenetic impacts of cytosine DNA methylation on the regulation of gene expression and maintaining silence of repetitive sequences, such as transposable elements. In this paper, we introduce the preprocessing steps of DNA methylation data, by which cytosine (C) and guanine (G) in the reference sequence are transferred to thymine (T) and adenine (A), and cytosine in reads is transferred to thymine, respectively. We also comprehensively review the main content of the DNA me-thylation analysis on the genomic scale: (1) the cytosine methylation under the context of different sequences; (2) the dis-tribution of genomic methylcytosine; (3) DNA methylation context and the preference for the nucleotides; (4) DNA- protein interaction sites of DNA methylation; (5) degree of methylation of cytosine in the different structural elements of genes. DNA methylation analysis technique provides a powerful tool for the epigenome study in human and other species, and genes and environment interaction, and founds the theoretical basis for further development of disease diagnostics and therapeutics in human.

Keywords:next-generation sequencing (NGS); DNA methylation; BS-Seq; data processing; epigenetics

生物体因DNA分子甲基化(DNA methylation)所引起的遗传特性变化, 属于一种重要的表观遗传标记(Epigenetic marker)。最近证实, DNA甲基化的维护和组蛋白修饰存在关联[1]。甲基化过程中其DNA序列并没有发生改变, 但在胞嘧啶(C)上添加了甲基。这种遗传修饰不仅普遍存在于哺乳动物细胞CpG环境中, 并且在多能胚胎干细胞和植物细胞的非CpG对称的环境中也会发生(如CHG和CHH, 其中H代表A、C或者T)[2~4]。研究表明, DNA甲基化不仅对于人类和哺乳动物的发育和疾病等方面产生了至关重要的影响, 最近发现, 植物杂种优势的分子机理也与DNA甲基化关联[5]。Shen等[6]指出植物杂种优势可能是由于杂种F1基因组的DNA甲基化水平增加, 改变了植物昼夜节律所致。因此, 深入研究甲基化的途径和揭示其调控机制一直是表观遗传学研究热门的话题。生物体内许多内源性基因, 无论是启动子区域或转录区域内均会产生甲基化, 它与转录水平高度相关, 但和基因表达往往不是直接相关的[2~4]; 精确辨认DNA甲基化模式非常复杂困难, 特别是基因组规模DNA甲基化分析一直未能完美解决。直到2006年Zhang等[2]绘制出拟南芥(Arabidopsis thaliana)甲基化胞嘧啶单碱基分辨率图谱, 从中可以精确地测量全基因组范围内胞嘧啶甲基化的组成与分布, 研究各种DNA甲基化突变体对全基因组甲基化模式的影响, 发现植物体内胞嘧啶的甲基化表现为CpG(或CpNpG)、CpNpNp形式(C 与G分别是胞嘧啶和鸟嘌呤, p是磷酸根, N是任意的碱基)。

随着新一代测序技术的开发, 使用亚硫酸氢盐处理DNA结合鸟枪法测序已成为研究胞嘧啶DNA 甲基化的新方法, 被称为BS-Seq[7]。例如, Meissner 等[3]研究了哺乳动物细胞基因组规模的DNA甲基化谱, 指出DNA甲基化模式与组蛋白的甲基化模式具有更紧密的相关性, CpG岛甲基化在细胞分化过程中会发生广泛的变化, 它是动态的表观遗传标记。Lister 等[8]发表了第一张哺乳动物基因组的全基因组单碱基甲基化胞嘧啶的分辨率图谱, 指出在人类细胞内, 约1%的DNA碱基会受到甲基化。在成熟体细胞组织中, 较易发生CpG甲基化; 而胚胎干细胞中则以非CpG甲基化(即CHG和CHH)较常见。目前在许多动植物物种上, 也已应用BS-Seq 方法制作出单碱基分辨率水平的甲基化图谱。

本文简介了DNA甲基化检测的主要方法, 通过举例较详细地介绍了甲基化测序数据处理的基本步骤, 并对已报道的不同生物甲基化图谱数据分析结果及其生物学意义加以综述。

1 DNA甲基化检测的方法

全基因组DNA甲基化分析的关键是区分甲基化和非甲基化的胞嘧啶, 它主要基于以下3种方法:①酶切法:用甲基化敏感的限制性内切酶(如HpaⅡ、MSPⅠ、Mcr BC等)酶切(Digestion with methyla-tion-sensitive restriction enzymes), 可以酶切未甲基化的DNA片段, 从而使基因组内的甲基化DNA片段得以富集。当CpG位点没有被甲基化时 , 酶切割DNA和随后的PCR扩增废止。但是, 如果CpG位

第6期王庭璋等:基因组规模DNA甲基化测序数据处理及其表观遗传分析 687

点被甲基化, 酶就不能切割和通过PCR扩增DNA 链。因此PCR条带的存在或不存在与在一个特定CpG部位甲基化的存在或不存在关联。②免疫沉淀法:亲和纯化(Affinity purification), 使用抗体对甲基化胞嘧啶, 甲基结合域(MBD)或其他的蛋白质结构域进行免疫沉淀, 使基因组DNA甲基化或未被甲基化馏分[9]。③亚硫酸氢盐转化(Bisulfite conversion)法, 先将基因组DNA片段变性, 然后用亚硫酸氢盐处理, 可以将其中未甲基化的胞嘧啶(Cytosine, C)转换成尿嘧啶(Uracil, U), 再通过PCR技术扩增后把尿嘧啶转换成胸腺嘧啶(Thymine, T)。相反, 未转化的甲基胞嘧啶, 最终以胞嘧啶形式被检测到。值得注意的是, 亚硫酸氢盐转化后, DNA链不再是互补链, 由于亚硫酸氢盐转化和高通量测序技术结合可以将确定的甲基化图谱分辨率[10]提升到单碱基水平, 此外, 通过引物设计可以检测特异链的甲基化状态[11]。因此, 亚硫酸氢盐转化被视为辨认任何DNA序列的胞嘧啶甲基化状态的“金标准”, BS-Seq成为目前最有用和最广泛使用的DNA甲基化分析技术[12]。BS-Seq文库的产生包括以下4个步骤:基因组DNA 片段的获得、甲基化测序接头连接、凝胶纯化、亚硫酸氢盐转化和PCR扩增。

2 BS-Seq数据处理

通过基因组DNA片段的获得、甲基化测序接头连接、凝胶纯化、亚硫酸氢盐(BS)转化和PCR扩增等4个步骤, 获得BS-Seq文库。

2.1读序列和参考基因组数据处理流程

构建文库后, 可以应用Illumina/Solexa, 或者Roche/454测序仪进行高通量测序。

2.2读序列和参考基因组的获取

由Illumina分析流程(pipeline)产生的BS-Seq读序列(reads), 其格式为fastq。科研人员一般会申请将测序仪每次运行的所获的原始读序列数据整体提交到NCBI的SRA数据库保存, 每个数据都有其登录号(Accession Number)以便查询和索取。用户通过网址(ftp://https://www.sodocs.net/doc/7516997546.html,/sra/sra-instant/ reads/ByRun/sra/SRR/SRRxxx/SRRxxxyyy/SRRxxxyyy. sra)输入登录号, 即可获取读序列数据。例如, 从SRA数据库获得两个水稻组织甲基化实验数据:SRR059000 ~ SRR059009[13], 在SRRxxxyyy 数据中, SRR为登记号, (SRR059000), 前面3位数字059为(xxx)来自于水稻胚(embryo)组织, 后面3位数字000至009等10个数字串(yyy))均取自胚乳(Endosperm)组织。

从Internet网络公共数据库或特定物种数据库中可获取上已发布或已完成测序物种的全基因组序列, 它们通常作为基因组研究的参考序列使用。例如, 水稻基因组参考序列版本7.0[14]可从网址(ftp://https://www.sodocs.net/doc/7516997546.html,/pub/data/Eukaryotic_ Projects/o_sativa/annotation_dbs/pseudomolecules/ version_7.0/)获取。

2.3读序列和参考基因组的序列替换

对于由BS-Seq方法产生的DNA甲基化的原始读序列, 需要进行以下3个步骤的处理。①删除读序列中低质量碱基(PHRED记分≤2)之后的所有碱基。②搜索并删除读序列两端的接头寡核苷酸。③将读序列中的胞嘧啶碱基(C)替换为胸腺嘧啶(T)(图1)。

同时, 还要对参考基因组序列进行两种对应的处理。一是将参考序列中的胞嘧啶(C)替换成胸腺嘧啶(T), 如图1中5′-ATCG-3′替换为5′-ATTG-3′; 二是将参考序列中的鸟嘌呤(G)替换成腺嘌呤(A), 图1中5′-ATCG-3′则替换为5′-ATCA-3′, 其反向互补序列则为5′-TGAT-3′。

通过上述生物信息技术处理, 就能获得全基因组甲基化位点及其甲基化水平的信息。

2.4 读序列在参考基因组上的作图

经过上述BS转化后, 源于Watson链(正义链)的读序列都被作图到转化后无胞嘧啶的参考序列上, 而来自于Crick链(反义链)的读序列则定位到无鸟嘌呤的参考序列上(图1)。至于将很短的读序列定位到极长的参考序列上, 则需要借助Bowtie软件[15]。基因组某个区域可能出现多个相同或不同的读序列, 读序列出现次数(即覆盖度)通常不应低于10×。当对同一份实验材料进行两次独立实验时, 为提高位点上的覆盖度, 可将两次实验数据整合并分析。

2.5 甲基化胞嘧啶位点的识别

亚硫酸氢盐转化效率以及测序的错误会对胞嘧

688 HEREDITAS

(Beijing) 2013 第35卷

图1 BS-Seq 测序和数据处理流程图

实线箭头表示信息处理的主要步骤, 虚线双箭头表示读序列和参考序列的比对。Watson 链上产生的读序列(未甲基化的5′-ATCG-3′和甲基化的5′-AT m CG-3′)通过C →T 变换后, 都以5′-ATTG-3′形式定位到参考序列上。Crick 链上序列(未甲基化的5′-CGAT-3′和甲基化的5′-m CGAT-3′)经C →T 变换后, 也都以5′-TAGT-3′定位到参考序列的反向互补序列上。m C 表示甲基化细胞嘧啶。

啶位点的甲基化识别产生影响, 因此, 需要保证目标区域具有足够的测序深度。如已发布的全基因组甲基化图谱中, 人[8]和拟南芥[7]的基因组覆盖倍数分别超过了14和15倍。如要获得更准确的数据, 则需采用更复杂的模型, 如Lister 等[8]

使用了二项分布(Binomial distribution)模型(B(n, p)), 这里, n 是二项分布中的实验次数, 表示读序列深度(Read depth, 即覆盖该位点的读序列总数), ρ是测序胞嘧啶出现的概率, 表示非甲基化Lambda 基因组上实际测得的胞嘧啶位点数, 并采用1%错误率(False discovery rate, FDR)对其进行矫正。通过二项分布模型估算出

每个参考序列位点上的最少胞嘧啶数。当目标区域位点上测得的胞嘧啶数量多于最少胞嘧啶值时, 就被视为甲基化位点。

2.6 胞嘧啶甲基化绝对含量(mC)和相对含量(mC/C)

的估算

甲基化水平通常用含甲基化胞嘧啶的读序列数占覆盖对应位点上所有读序列的百分比计算。因此, 对于特定的胞嘧啶位点而言, 0表示不存在甲基化, 100%则表示该位点完全被甲基化, 0~100%之间则表示被甲基化的程度。比较不同区域内的甲基化水平,

第6期王庭璋等:基因组规模DNA甲基化测序数据处理及其表观遗传分析 689

则需统计该区域内所有胞嘧啶位点甲基化水平的平均值。计算基因组胞嘧啶的甲基化含量时, 通常将目标区域从5′端到3′端划分为适当数目的框(bin), 小框大小设为100 bp。绝对甲基化含量(mC)的计算方法是将所有甲基化类型(mCG, mCHG或mCHH)的总数除以小框的大小, 即区域的长度; 相对甲基化含量(mC/C)是将对应甲基化类型的绝对含量除以目标区域内该类型的胞嘧啶位点总数。

3 BS-Seq数据后续分析

综合已发表的文献, 通常BS-S eq数据经上述预处理后, 可进行以下后续分析, 进而探索其中蕴含的生物学意义。

3.1全基因组中不同序列环境下的胞嘧啶甲基化

生物基因组内存在3种不同甲基化序列环境(context):CG、CHG和CHH(这里H表示A、C或者T中的任何一个碱基), 表1列出了8种真核生物的胞嘧啶甲基化水平[16], 通常CG甲基化平均水平(39.8%)远高于 CHG(6.51%)和CHH(1.37%)(表1)[2, 17]。不同物种的甲基化水平差异明显, 统计其CG占全基因组的比率可见, 如蜜蜂(Apis mellifera)和衣藻(Chlamydomonas reinhardtii)甲基化水平很低分别为0.93%和 5.38%, 而斑马鱼(Danio rerio)和小鼠(Mus musculus)甲基化水平却分别高达80.3%和74.2%(表1), 拟南芥(Arabidopsis thaliana)、海鞘(Ciona intes-tinalis)、毛果杨(Populus trichocarpa)、水稻(Oryza sativa)等物种呈中等甲基化水平, 它们的CG比率变动在22.3%~59.4%之间。上述这些差异强烈暗示, 物种的甲基化水平是受遗传控制的[18]。保持CG甲基化是通过DNA甲基转移酶DNMT1实现; 而CHH 甲基化和部分的CHG甲基化, 则由Dnmt3实现。在模式植物拟南芥中较高水平的CHG, 由植物特异性的甲基转移酶CMT3保持[19, 20]。

3.2全基因组胞嘧啶甲基化的分布情况

通过甲基化敏感的限制性内切酶作图和亚硫酸氢盐测序方法, 发现胞嘧啶甲基化在全基因组内会呈现全局性(Globally)和镶嵌性两种分布模式。脊椎动物和基因组较大的植物, 如玉米(Zea mays)中, 除了活性基因启动子周围的CpG岛外, 大部分区域CG都被高度甲基化, 使其甲基化区域连续发生, 因而其DNA甲基化呈现全局性分布[21~23]。然而, 镶嵌性分布模式是由于其部分基因主体(Gene body)上的胞嘧啶被甲基化, 但转座子和重复序列上的胞嘧啶甲基化则受到RNA介导机制的制约, 如基因组较小的植物(如拟南芥), 其转座子等元件上不存在特异

性地甲基化, 而在无脊椎动物中(如后口动物和昆虫)[24]和真菌基因组中, 只有重复的DNA序列被甲基化[25]。在所有真核生物中, 植物的DNA甲基化水平最高, 胞嘧啶被甲基化高达50%[26]。这可能是由于许多转座子区域已被甲基化[27,28]。

在哺乳动物胎儿肺成纤维细胞(IMR90)细胞中, DNA甲基化几乎是在完全对称的CG环境下发生(占99.98%), CHG和CHH的甲基化几乎缺失, 不过, 在胚胎干细胞(H1)阶段具有非CG甲基化的特性, 能检测到少量的CHG和CHH甲基化, 可以看出, 这两种类型细胞的遗传差异[8]。从全基因组DNA甲基化分析看, 每条染色体内DNA甲基化密度显示很大变化。通常在着丝粒、端粒等异染色质区域DNA甲基

表1 8个真核生物的胞嘧啶甲基化水平[16]

物种拉丁学名CG(%) CHG(%) CHH(%) 平均值(%)

蜜蜂Apis mellifera 0.93 0.26 0.17 0.45 衣藻Chlamydomonas reinhardtii 5.38 2.59 2.49 3.49 拟南芥Arabidopsis thaliana 22.3 5.92 1.51 9.91 海鞘Ciona intestinalis 31.1 0.17 0.12 10.46 毛果杨Populus trichocarpa 41.9 20.9 3.25 22.02 水稻Oryza sativa 59.4 20.7 2.18 27.43 小鼠Mus musculus 74.2 0.3 0.29 24.93 斑马鱼Danio rerio 80.3 1.22 0.91 27.48 平均值(%) 39.4

6.51

1.37

690 HEREDITAS

(Beijing) 2013第35卷

化的密度较高[29, 30]。致使这些区域中的转座子不易移动, 从而对基因组的完整性起保护作用[5]。在邻近基因的启动子内还发现有CG二核苷酸甲基化群, 通常被称为CpG岛[31, 32]。

在植物细胞中, DNA甲基化可以在胞嘧啶碱基内所有序列环境发生, 包括:对称CG和CHG环境和不对称CHH环境[18]。全基因组CG、CHG和CHH 背景的DNA甲基化水平, 分别约为24%、6.7%和1.7%[29]。在拟南芥中, 位于染色体近着丝粒区域, 重复序列富集, CG、CHG和CHH甲基化程度也较高, 显示高度的相关性[7]。此外, 所有类型的甲基化水平都和其序列的长度呈强烈的正相关。但是, 反向重复序列中两侧翼DNA甲基化水平呈现逐渐减少的趋势。

3.3 DNA甲基化环境和核苷酸的偏好

3种DNA甲基化环境下其胞嘧啶甲基化水平差异十分悬殊, 据报道, 在拟南芥基因组中, CG环境下的胞嘧啶甲基化水平的高低差距可以达到13倍, CHG甲基化为11倍, CHH则超过900倍。在研究不同DNA甲基化环境下核苷酸的偏好时, 通常会观察到CG、CHG和CHH及其紧邻的7-mer(单元)或9-mer核苷酸的变化, 如图2中显示了7-mer碱基含量(从-2到+4)。3种核苷酸的偏好也有差异, 如CG 甲基化环境中其上下游通常检测到碱基A或T, 而CHG和CHH环境中其H位置的碱基通常为C[8]。在小麦(Triticum aestivum)胚芽中也曾发现类似情况, 即CAG和CTG位点甲基化水平比CCG位点高[33]。

拟南芥非CG甲基化环境(CHG和CHH)上游偏爱TA二核苷酸, 但在mCG位点没有出现局部序列富集, 推测非CG甲基化位点并不影响其局部序列富集。和拟南芥不同, 人类胚胎干细胞(H1)未观察到CHG和CHH的上游对TA二核苷酸的偏爱(图2)。此外, CHG和CHH后面的碱基是A和T相对较多

,

在哺乳动物DNMT3甲基转移酶体外研究中也观察

到此序列偏好。

为识别基因组DNA甲基化相邻位点之间的距

离偏好, 通常会重点分析基因组内含子区域的非

图2 人类胚胎干细胞非CG DNA的甲基化位点近端序列的标志图(Logo)

横坐标为mCHG和mCHH上下游紧邻的7个mer, 纵坐标为碱基含量。上方为所有胞嘧啶甲基化所处的序列环境。H指的是腺嘌呤(A)、胸腺嘧啶(T)和胞嘧啶(C)中的任何一个碱基。mCHG中的H偏好于腺嘌呤(A), mCHG上游偏好TA(胸腺嘧啶和腺嘌呤), 但下游无碱基偏好。mCHH中第一个H偏好于腺嘌呤(A), 第二个H首先偏好于腺嘌呤(A), 其次为胞嘧啶(C), mCHH上游序列偏好TA, 下游也无碱基偏好。下方为基因组平均的序列环境。mCHG位点中的H常为胸腺嘧啶(T)和腺嘌呤(A), 上下游均无碱基偏好。mCHH位点中的H以及上下游碱基均无明显偏好。

第6期王庭璋等:基因组规模DNA甲基化测序数据处理及其表观遗传分析 691

CG甲基化, 因为内含子不会经受编码蛋白质的选择性胁迫。通过BS-Seq发现人类基因组mCHH环境中具有明显的8碱基周期性[7, 8], 而在mCHG位点中其周期性的8个碱基不连续, 通常会因其他碱基插入而被分开[8]。拟南芥基因组在mCHH环境中, 8碱基周期性也很明显, 并和单圈DNA螺旋对应, 推测在植物和动物之间可能存在共同的从头甲基化的分子机制。人类基因组中沉积不同的mCHG和mCHH相对间距模式, 暗示DNMT3A可能通过不同途径对mCHG和mCHH中的胞嘧啶进行甲基化[8], 因此, 将这几种非CG甲基化类型进行子分类是十分必要的。

3.4 DNA-蛋白质互作位点上的DNA甲基化

近年来, 应用ChIP-seq 可以鉴定细胞中蛋白质-DNA相互作用的位点, 如Nanog、SOX2、KLF4、Oct4等蛋白质和增强子蛋白(TAF1, P300)对DNA甲基化的影响[8]。从图3a可见, 通常在非CG的环境下, 观察到邻近的TSS位点时其甲基化相对密度谱会明显减少。基于H3K4mel和H3K27ac区域ChIP-seq平均富集度的检测可以把增强子位点分为3个类型(即IMR90特异性型、H1特异性型和H1和IMR90细胞共有型, 图3b)。它们的CG和非CG 甲基化密度有差异, 尤其是非CG甲基化密度。IMR90特异性增强子型在非CG甲基化密度上位点和侧翼5 kb间无明显差异, 而H1特异性增强子型和H1和IMR90细胞共有型中其位点和侧翼5 kb间出现明显DNA甲基化密度低谷(图3b) [34]。真核生物中的多功能转录因子CTCF是一种高度保守的多锌指、DNA结合核蛋白。最新发现41%的CTCF结合位点具有不同的甲基化状态, 并且甲基化变化主要发生在2个识别序列关键的核苷酸位置。在正常细胞与肿瘤细胞之间CTCF结合模式明显不同, 研究表明, 在肿瘤细胞中CTCF结合程度减弱与DNA甲基化程度的增强往往关联[35]。

在拟南芥中蛋白编码基因体内, CG甲基化水平远高于 CHG和CHH, 并呈现一个高峰, 与此相反, 短干扰RNA(siRNAs)在基因体内明显减弱, 形成一个低谷, 这种反相关与RNA指导的DNA甲基化的分子特性[18], 表明增强子和基因体具有不同的CG 与非CG基因甲基化模式。3.5 不同基因及其结构元件的胞嘧啶甲基化程度

基于BS-Seq提供的单碱基水平的甲基化图谱, 还可以通过R绘图程序画出不同基因功能元件, 包括启动子、外显子、内含子、UTR区中相对甲基化密度分布图。由图4可以观察到在启动子(启动子涵盖转录起始位点上游 2 kb)和转录起始位点(TSS)甲基化相对密度较低, 接近TSS处呈明显下降, 但没有完全枯竭。而到5′UTR明显回升; 外显子、内含子和3′UTR域中的非CG甲基化(mCHG和mCHH)密度比启动子、转录起始位点和5′UTR区域高出约两倍。有趣的是, 外显子区CG和CHH甲基化密度十分接近, 进入内含子区和3′UTR区后, CHH甲基化密度又明显下降[8]。通过对更多地物种进行BS-Seq测序, Feng等[16]\发现基因主体上的甲基化在动植物之间是很保守的, 而且大部分甲基化还偏好于外显子区域。

4结语

在基因组上检测DNA甲基化位点通常采用3种方法。基于酶切方法仅能识别一部分位点的甲基化, 且不能识别甲基化在染色体上的具体位置。免疫沉淀的方法虽不受序列的限制, 但未达到单碱基水平的高分辨率, 因而不能识别甲基化位点所处的序列环境, 难以检测低水平的甲基化位点, 还存在偏好序列的富集[35]; 随着新一代测序技术(大规模平行, 末端配对, 长读序列测序)的发展, BS-Seq方法已在很多动植物物种中应用于制作全基因组甲基化图谱。这里, 我们首先介绍了全基因组规模DNA 甲基化测序数据处理的基本方法, 然后, 进一步对表观遗传后续分析加以综述。真核生物基因组胞嘧啶甲基化分析表明, 不同生物甲基化水平有明显差异, 是受其不同的遗传背景控制的。脊椎动物和无脊椎动物全基因组的胞嘧啶甲基化分布呈现了两种不同模式, 前者为全局性, 后者为镶嵌性。和哺乳动物不同, 植物DNA甲基化主要发生在转座子和其他重复的DNA元件中[2]。植物基因组与动物以及人类基因组在DNA甲基化环境和核苷酸的偏好上有相似之处, 如在mCHH环境中位点具有明显的周期性, 它们可能存在共同的从头甲基化的分子机制, 但其甲基化途径有所差异。此外, 基因组内不同基因功

692 HEREDITAS (Beijing) 2013

第35卷

图3 蛋白质DNA 互作位点DNA 甲基化密度[8]

a :蛋白质DNA 互作位点上游1.5 k

b 和下游1.5 kb 间的DNA 甲基化密度。X 轴:与互作位点的距离; Y 轴:mC/C 归一化值。b :3类增强子位置(即IMR90特异性的(上图)、H1和IMR90细胞共有的(中图)和H1特异性的(下图)。X 轴:与增强子位点的距离; Y 轴:每100 kb Chip-seq 平均富集(左), 每100 kb mC/C(右)。

第6期王庭璋等:基因组规模DNA甲基化测序数据处理及其表观遗传分析 693

图4人类胚胎干细胞(H1)细胞非CG甲基化密度[8]

X轴自左向右:启动子、外显子、内含子、UTR; Y轴归一化MC/C。

能元件区间的相对甲基化密度也具差异。最新发现肿瘤细胞中重要转录因子CTCF与染色质DNA之间的相互作用和染色质DNA甲基化关联[35], 这两个不同层次的表观基因组学数据的有机地整合, 将为筛选诱导肿瘤发生的表观遗传靶点提供可能。DNA 甲基化是一个十分复杂而富有挑战性的课题, 进一步挖掘其蕴藏的生物学意义, 不仅能丰富真核基因表达调控的科学理论体系, 并具有潜在的临床转化应用价值。

参考文献(References):

[1] Rothbart SB, Krajewski K, Nady N, Tempel W, Xue S,

Badeaux AI, Barsyte-Lovejoy D, Martinez JY, Bedford MT, Fuchs SM, Arrowsmith CH, Strahl BD. Association of UHRF1 with methylated H3K9 directs the maintenance of DNA methylation. Nat Struct Mol Biol, 2012, 19(11): 1155–1160. DOI

[2] Zhang XY, Yazaki J, Sundaresan A, Cokus S, Chan SW,

Chen H, Henderson IR, Shinn P, Pellegrini M, Jacobsen SE, Ecker JR. Genome-wide high-resolution mapping and functional analysis of DNA methylation in Arabidopsis.

Cell, 2006, 126(6): 1189–1201. DOI

[3] Meissner A, Mikkelsen TS, Gu HC, Wernig M, Hanna J,

Sivachenko A, Zhang XL, Bernstein BE, Nusbaum C, Jaffe DB, Gnirke A, Jaenisch R, Lander ES. Genome-scale

DNA methylation maps of pluripotent and differentiated cells. Nature, 2008, 454(7205): 766–770. DOI

[4] Vaughn MW, Tanurd?i? M, Lippman Z, Jiang HM,

Carrasquillo R, Rabinowicz PD, Dedhia N, McCombie WR, Agier N, Bulski A, Colot V, Doerge RW, Martienssen

RA. Epigenetic natural variation in Arabidopsis thaliana.

PLoS Biol, 2007, 5(7): e174. DOI

[5] He GM, Elling AA, Deng XW. The epigenome and plant de-

velopment. Annu Rev Plant Biol, 2011, 62(1): 411–435. DOI [6] Shen HS, He H, Li JG, Chen W, Wang XC, Guo L, Peng

ZY, He GM, Zhong SW, Qi YJ, Terzaghi W, Deng XW.

Genome-wide analysis of DNA methylation and gene ex-

pression changes in two Arabidopsis ecotypes and their reciprocal hybrids. Plant Cell, 2012, 24(3): 875–892. DOI [7] Cokus SJ, Feng SH, Zhang XY, Chen ZG, Merriman B,

Haudenschild CD, Pradhan S, Nelson SF, Pellegrini M, Jacobsen SE. Shotgun bisulphite sequencing of the Arabidopsis genome reveals DNA methylation patterning.

Nature, 2008, 452(7184): 215–219. DOI

[8] Lister R, Pelizzola M, Dowen RH, Hawkins RD, Hon G,

Tonti-Filippini J, Nery JR, Lee L, Ye Z, Ngo QM, Edsall L, Antosiewicz-Bourget J, Stewart R, Ruotti V, Millar AH,

Thomson JA, Ren B, Ecker JR. Human DNA methylomes

at base resolution show widespread epigenomic differ-

ences. Nature, 2009, 462(7271): 315–322. DOI

[9] Weber M, Davies JJ, Wittig D, Oakeley EJ, Haase M, Lam

WL, Schübeler D. Chromosome-wide and promoter- specific analyses identify sites of differential DNA me-

thylation in normal and transformed human cells. Nat

Genet, 2005, 37(8): 853–862. DOI

[10] Lister R, Ecker JR. Finding the fifth base: genome-wide

sequencing of cytosine methylation. Genome Res, 2009, 19(6): 959–966. DOI

[11] Clark SJ, Statham A, Stirzaker C, Molloy PL, Frommer M.

DNA methylation: bisulphite modification and analysis.

Nat Protoc, 2006, 1(5): 2353–2364. DOI

[12] Zilberman D, Henikoff S. Genome-wide analysis of DNA

methylation patterns. Development, 2007, 134(22): 3959–

3965. DOI

[13] Zemach A, Kim MY, Silva P, Rodrigues JA, Dotson B,

Brooks MD, Zilberman D. Local DNA hypomethylation activates genes in rice endosperm. Proc Natl Acad Sci USA, 2010, 107(43): 18729–18734. DOI

[14] Ouyang S, Zhu W, Hamilton J, Lin HN, Campbell M,

Childs K, Thibaud-Nissen F, Malek RL, Lee Y, Zheng L,

Orvis J, Haas B, Wortman J, Buell CR. The TIGR Rice

Genome Annotation Resource: improvements and new features. Nucleic Acids Res, 2007, 35(Database issue): D883–D887. DOI

[15] Langmead B, Salzberg SL. Fast gapped-read alignment

with Bowtie 2: Fast gapped-read alignment with Bowtie 2.

Nat Methods, 2012, 9(4): 357–359. DOI

[16] Feng SH, Cokus SJ, Zhang XY, Chen PY, Bostick M, Goll

MG, Hetzel J, Jain J, Strauss SH, Halpern ME, Ukomadu

C, Sadler KC, Pradhan S, Pellegrini M, Jacobsen SE.

694 HEREDITAS

(Beijing) 2013第35卷

Conservation and divergence of methylation patterning in

plants and animals. Proc Natl Acad Sci USA, 2010, 107(19): 8689–8694. DOI

[17] Zilberman D, Gehring M, Tran RK, Ballinger T, Henikoff

S. Genome-wide analysis of Arabidopsis thaliana DNA

methylation uncovers an interdependence between methy-

lation and transcription. Nat Genet, 2007, 39(1): 61–69. DOI [18] Henderson IR, Jacobsen SE. Epigenetic inheritance in

plants. Nature, 2007, 447(7143): 418–424. DOI

[19] Chan SW, Henderson IR, Jacobsen SE. Gardening the ge-

nome: DNA methylation in Arabidopsis thaliana. Nat Rev

Genet, 2005, 6(5): 351–360. DOI

[20] Goll MG, Bestor TH. Eukaryotic cytosine methyltrans-

ferases. Annu Rev Biochem, 2005, 74(1): 481–514. DOI [21] Macleod D, Clark VH, Bird A. Absence of genome-wide

changes in DNA methylation during development of the zebrafish. Nat Genet, 1999, 23(2): 139–140. DOI

[22] Stancheva I, El-Maarri O, Walter J, Niveleau A, Meehan

RR. DNA methylation at promoter regions regulates the timing of gene activation in Xenopus laevis embryos. Dev

Biol, 2002, 243(1): 155–165. DOI

[23] Estécio MR, Gharibyan V, Shen LL, Ibrahim AE, Doshi K,

He R, Jelinek J, Yang AS, Yan PS, Huang TH, Tajara EH,

Issa JP. LINE-1 hypomethylation in cancer is highly vari-

able and inversely correlated with microsatellite instability.

PLoS One, 2007, 2(5): e399. DOI

[24] Tweedie S, Charlton J, Clark V, Bird A. Methylation of

genomes and genes at the invertebrate-vertebrate boundary.

Mol Cell Biol, 1997, 17(3): 1469–1475. DOI

[25] Selker EU, Tountas NA, Cross SH, Margolin BS, Murphy

JG, Bird AP, Freitag M. The methylated component of the

Neurospora crassa genome. Nature, 2003, 422(6934): 893–897. DOI

[26] Montero LM, Filipski J, Gil P, Capel J, Martínez-Zapater

JM, Salinas J. The distribution of 5’methylcytosine in the

nuclear genome of plants. Nucleic Acids Res, 1992, 20(12): 3207–3210. DOI

[27] Palmer LE, Rabinowicz PD, O'Shaughnessy AL, Balija VS,

Nascimento LU, Dike S, de la Bastide M, Martienssen RA, McCombie WR. Maize genome sequencing by methyla-

tion filtration. Science, 2003, 302(5653): 2115–2117. DOI [28] SanMiguel P, Tikhonov A, Jin YK, Motchoulskaia N,

Zakharov D, Melake-Berhan A, Springer PS, Edwards KJ, Lee M, Avramova Z, Bennetzen JL. Nested retrotrans-

posons in the intergenic regions of the maize genome.

Science, 1996, 274(5288): 765–768. DOI

[29] Gonzalo S, Jaco I, Fraga MF, Chen TP, Li E, Esteller M,

Blasco MA. DNA methyltransferases control telomere length and telomere recombination in mammalian cells.

Nat Cell Biol, 2006, 8(4): 416–424. DOI

[30] Steinert S, Shay JW, Wright WE. Modification of subte-

lomeric DNA. Mol Cell Biol, 2004, 24(10): 4571–4580. DOI [31] Cedar H, Bergman Y. Linking DNA methylation and his-

tone modification: patterns and paradigms. Nat Rev Genet,

2009, 10(5): 295–304. DOI

[32] Suzuki MM, Bird A. DNA methylation landscapes: pro-

vocative insights from epigenomics. Nature Rev Genet,

2008, 9(6): 465–476. DOI

[33] Gruenbaum Y, Naveh-Many T, Cedar H, Razin A. Se-

quence specificity of methylation in higher plant DNA.

Nature, 1981, 292(5826): 860–862. DOI

[34] Hark AT, Schoenherr CJ, Katz DJ, Ingram RS, Levorse JM,

Tilghman SM. CTCF mediates methylation-sensitive en-

hancer-blocking activity at the H19/Igf2 locus. Nature,

2000, 405(6785): 486–489. DOI

[35] Wang H, Maurano MT, Qu HZ, Varley KE, Gertz J, Pauli F,

Lee K, Canfield T, Weaver M, Sandstrom R, Thurman RE,

Kaul R, Myers RM, Stamatoyannopoulos JA. Widespread plasticity in CTCF occupancy linked to DNA methylation.

Genome Res, 2012, 22(9): 1680–1688. DOI

相关主题