搜档网
当前位置:搜档网 › 序列比对程序Blat在转录组数据分析中的应用

序列比对程序Blat在转录组数据分析中的应用

序列比对程序Blat 在转录组数据分析中的应用

杭兴宜1,赵东升2,张成岗13

(1.军事医学科学院放射医学研究所,北京1008502.军事医学科学院卫生勤务与医学情报研究所,北京100850)

摘要:随着功能基因组学研究领域的快速发展,人们已经开始系统地研究全基因组的转录以及全部基因发挥功能的动态机制。为实现此目标,需要从海量的转录组数据中提炼出能够揭示基因功能以及表达调控的重要信息。采用高性能的序列比对程序以满足规模化的比对需求是其中的瓶颈环节。通过综合比较目前流行的各种序列比对软件的性能,并针对不同的转录组数据分析任务对Blat 进行详细的应用分析,结果发现,Blat 能够解决转录组数据分析过程中的序列比对这一瓶颈,可广泛应用于功能基因组相关的数据分析任务。关键词:转录组;序列比对;Blat ;Blast ;S im4

中图分类号:Q754 文献标识码:B 文章编号:1672-5565(2005)-02-0085-04

收稿日期:2004-05-22;修回日期:2005-03-23

基金项目:国家重点基础研究发展计划(973计划)(2003C B715900),国家高技术研究发展专项经费(2002AA234021)、国家海外青年学者合作研究基金(30128010)、国家自然科学重大研究计划(90208017)、国家并行与分布处理国防重点实验室基金(51484050304JB4401)作者简介:杭兴宜(1981-),男,江苏扬州人,在读硕士,研究方向:生物信息学3通讯作者:张成岗,T el :010-********,E -mail :zhangcg @bm https://www.sodocs.net/doc/5f5139430.html,

The application and evaluation of B lat in transcriptome analysis 3

H ANG X ing -Y i 1,ZH AO D ong -Sheng 2,ZH ANG Cheng -G ang 1

(1.Beijing Institute o f Radiation Medicine ,100850,China ;

2.Beijing Institute o f H ealth Administration and Medical Information ,100850,China )

Abstract :In the functional genomic era ,many scientists have focused on the research of transcription and dynamic expression mechanism of the whole genome.I t is necessary to explore all of the bioin formation to finger out the gene function and regulation from huge m ount of transcrip 2tome data.The fast and accurate sequence alignment tool was very im portant to finish the numerous alignment jobs.According to the generally analysis and com paris on of Blat and Blast.The Blat program is considered to be one of the best choice for the transcriptome analysis.We com 2pared the per formance of the Blat program with Blast on the speed and efficiency with different types of data sets.I t could be concluded that the Blat program can res olve the alignment difficulties for the transcriptome data analysis system and s ome other related researches in functional ge 2nomics.

K ey w ords :transcriptome ;sequence alignment ;Blat ;Blast ;S im4

在后基因组时代,随着包括人类在内的多种模式生物基因组测序的完成,人们已开始系统地研究基因组的转录调控以及整个基因组发挥功能的动态机制。转录组的研究能更好地利用已有的海量数据揭示出基因表达调控的信息,同时它还是连接基因与其表达产物之间的不可逾越的桥梁[1]。因此,转录组的数据分析以及相关软件的开发是目前功能基因组学关注的焦点之一。海量的序列比对以及特征分析是实现这一目标所面临的技术瓶颈,为此必须选择合适的高性能序列比对软件来完成该任务。

1 Blat 简介

Blat 是“Blast -like alignment tool ”的简称[2],是一

个和Blast 相似的用于核酸与蛋白质序列比对的开

放源代码软件,最新版本V.31(发布日期为2004-10-31)。Blat 的源代码、执行程序以及相关文档可以从其作者K ent 的个人网站(http :∥w w w.s https://www.sodocs.net/doc/5f5139430.html,/kent/)免费获得。Blat 有两种运行模式,一种是单机版模式(Stand -alone Blat );另一种是交互式的客户端/服务器模式(Client/Server Blat )。两种模式的Blat 都能够对核酸序列和蛋白质序列以及核酸翻

生物信息学 China Journal of Bioinformatics 专论与综述

译成的蛋白质序列进行相互比对,Stand-alone Blat 可选参数较多,比Client/Server Blat更加精确,而Client/Server Blat则更适合于提供交互式的批量比对服务[2],特别是本地化后性能非常优越。目前互联网上由美国加州大学圣克鲁斯分校(UCSC)提供了webBlat服务“http:∥https://www.sodocs.net/doc/5f5139430.html,/cgi-bin/hg2 Blat?command=start”。

2 Blat性能评估

Blat最大的优点是速度超群。为了准确评估Blat的速度性能,我们选取Blast家族中的不同类型的比对软件,使用相同的各类数据集对Blat进行了详细比较。测试服务器配置为:双1.7G H z的Intel P4CPU,2G内存,操作系统是Linux RedHat Release 9。选用NC BI RefSeq[3]中人mRNA序列(2004-11-5,release8,序列数量:28712)作为中等规模的核酸数据库;选用最新公布的人类基因组[11](2004-08-26,Build35.1)作为大规模的核酸数据库;选用S wis2 sProt中UniProt[5]序列(2004-11-23,release3.2,序列数量:2735508)作为蛋白质数据库。单条核酸查询序列为人脑红蛋白(G enBank A J245946)cDNA序列(全长1909bp,ORF长度为456bp)[6],多条核酸查询序列为人UniG ene[7]Build#176中的Cluster Hs.10 842(序列数量:2341),单条蛋白质查询序列为人脑红蛋白(G enBank C AG25721)的氨基酸序列。多条蛋白质查询序列为NC BI RefSeq[3](2004-11-5,release 8)中人蛋白质参考序列中的前2143条序列。跨物种比对的查询序列为小鼠UniG ene[14]Build#143中的Cluster Mm.370184(序列数量:1063),目标序列为去除了重复序列后的人第21号染色体序列[11] (2004-08-26,Build35.1)。所有比对都选用相应软件的默认参数。

评估结果表明(T able1),核酸序列比对时,单条序列比对中型数据库,Blat与Blast速度上相差不大。但是多条序列对大型数据库进行搜索时,Blat优势就非常明显。一般地,Blat比Blastn快数百倍。我们测试时选用2341条序列的UniG ene Cluster Hs.10842比对基因组,Blat只用了20分钟就完成计算,而Blastn计算速度非常慢,频繁地通过I/O进行数据交换,占用大量系统资源,执行数天后报段错误(Seg2 mental fault)停止,说明Blastn不适合于大规模的比对分析。Megablast[15]是NC BI专门为大规模序列比对而设计的,在多条序列搜索大型数据库的比对中还是比Blat慢了11倍之多。对于蛋白质比对而言,多蛋白质序列对库搜索Blat比Blastp快114倍,而核酸翻译后的蛋白质序列比对,Blat比Tblastn快47倍。另外,选用Blat的翻译后序列比对参数,用小鼠UniG ene[14]Cluster Mm.370184的序列与去除了重复序列的人第21号染色体序列进行物种间的序列比对,Blat比Tblastx快44倍。由此可见,Blat是海量转录组数据比对分析的理想选择。

T able1 Perform ance comp arison betw een B lat and B last(b ased on time elapsed:seconds)a)

Alignment jobs tested

E lapsed

time of Blat

E lapsed

time of blast

Rate

S ingle DNA sequence to RefSeq using Blastn11.520 3.196 3.6:1 Multiple DNA sequences to RefSeq using Blastn50.7772292.7201:45.2

S ingle DNA sequence to genome using Blastn13.28799.4221:7.5 Multiple DNA sequences to genome using Blastn1214.052Segmental fault ND b)

S ingle DNA sequence to RefSeq using M egablast50.77726.706 1.9:1 Multiple DNA sequences to genome using M egablast1214.05213485.9031:11.1

S ingle protein sequence to UniProt using Blastp14.77411.414 1.3:1 Multiple protein sequences to UniProt using Blastp196.10222364.3981:114.0

S ingle protein sequence to RefSeq using Tblastn43.6288.229 5.3:1 Multiple protein sequences to RefSeq usingTblastn693.25132851.9871:47.4 Multiple DNA sequences to chrom os ome21using Tblastx86.8993867.0011:44.5

a):The in fluence of resident mem ory has been elim inated.

b):ND:no data

68 生 物 信 息 学 第3卷

3 Blat 在转录组数据分析中的应用

Blat 能够高效地实现大批量的序列比对计算需

求,这使得它有可能成为转录组分析方面的最佳选择。转录组数据包括成千上万的EST 、mRNA/cDNA 序列。这些序列大部分都代表一个表达基因的部分转录片段,通过对其进行分析可发现新基因,并获得相应基因的时空表达特性及其可变剪接形式。在转录组研究中,经常需要将大量EST 、mRNA/cDNA 序列与其相应的基因组数据库进行比对,从而快速准确地确定它们在染色体上的位置。这是转录组数据注释的重要步骤。经我们测试,Blat 在56个节点的计算机集群(每个节点配备2.8G H z Intel P4X eon 32-bit CPU ,2G B 内存)上仅耗时7.5个小时就可完成UniG ene [7]数据库中五百多万条人EST 序列对基因组数据库的比对;而相同的任务对于Blast 来说几乎

是不可能完成的。

在转录组研究中,为了揭示基因的功能,必须明确外显子与内含子的边界以确定基因结构。Blat 在进行基因定位以及确定基因结构时非常高效。在比对结果中,Blast 是按比对分值高低来排列外显子的,并且在每个外显子边界进行了一定的延伸。Blat 则是根据在基因中的线性分布次序排列外显子,并将其定位到基因组的相应位置,外显子间区为内含子,这样能够更加直观、准确地反映出基因的结构。另外,Blat 程序还有专门的代码来处理内含子,在内含子边界采用细微滑动技术以服从G T -AG 等剪接规则[9],可以更理性地判断剪接位置。Sim4软件则过分强调G T -AG 等剪接规则,从而影响了最优化对齐并容易引起剪接位置的判断失误。例如,在Fig.1中,Sim4为了遵守G T -AG 规则,在查询序列的第158位强行引入了1个碱基的插入,而正确的边界剪接情况应该如Blat 的结果所示,剪接位置处可以完全对齐

Fig.1 Different strategies to identifying the splicing sites of exon and intron betw een Sim 4and B lat

Blat 进行序列比对时还具有很高的灵敏度。在

进行搜索过程中,Blat 一旦发现空位就会提高灵敏度重复搜索,这样有利于发现初次搜索时丢失的一些短小匹配片段,因此Blat 比Blast 等更适合于小外显子(甚至短至几个bp )的搜索和定位。在转录本的编码区,有时会因为突变以及短小序列片段的插入缺失造成开放阅读框的移位或终止密码子的提前出现,从而影响了基因的表达和蛋白质产物的功能,通过Blat 比对也可以正确地揭示出这些信息。在比较基因组学中,经常需要对不同物种的转录数据进行分析,特别是通过同源物种之间的比较来发现它们在转录水平的相似性和差异,并进一步从进化上进行理论支持。Blat 通过核酸翻译后的蛋白质序列

比对参数模式能够快速地进行物种间的序列比对,Blat 的作者K ent 曾经比对人和小鼠的全基因组序列,在100个CPU 集群的机器上只用了12天[9],使用Blast 在相同配置的机器上计算,保守估计需要16年。

4 讨论

通过介绍Blat 在转录组数据分析中的应用,以及比较Blat 和其它序列比对软件的功能及优缺点,可发现Blat 应用于全基因转录组分析具有显著的性能优势。Blat 的比对速度之所以能比Blast 快几百倍,是因为此两者之间的比对机制有着本质的差别。

7

8第2期 杭兴宜,等:序列比对程序Blat 在转录组数据分析中的应用

Blast是将查询序列索引化,然后线性搜索庞大的目标数据库,期间频繁地访问硬盘数据,时间和空间上的数据相关性较小;Blat则将庞大的目标数据库索引化,然后线性搜索查询序列,这种搜索方式在时间和空间上的数据相关性比较大。Blat将数据库索引一次性读入内存,可以反复地高速调用,无需访问硬盘,占用的系统资源很少。从本文的评估数据中可以看出,只要索引建立,查询序列的量越大,Blat的优势就越明显。因此,全转录组数据分析宜优先选用Blat。

Blat虽然性能优异,但是它自身也存在着一定的局限性,对于特殊的任务需要注意选择合适的软件。例如,Blat用于远亲缘物种间的核酸序列比对时,比对精度就不够高,建议使用专门为此用途开发的Blastz[10]软件;对于少量的蛋白质比对任务(如数条或数十条),在速度和精度上Blastp均优于Blat;比对同时需要获得蛋白质的同源性信息时,则一般使用S AM和PSI-BLAST软件。另外,Blat在重复搜索短小匹配片段的同时,会产生过多的没有生物学意义的序列比对碎片,这说明搜索过程还存在一定的假阳性结果,应进一步分析确认。

总之,在后基因组时代所面临的大量生物信息学数据分析过程中,会有不同的数据分析任务呼唤不同的高性能计算机程序,也许会有比Blat更好的程序被陆续开发出来应用于生物信息学的研究,但是,在目前的情况下,Blat仍将是转录组数据分析的最佳选择。

参考文献(References):

[1] The FANT OM C ons ortium.Analysis of the m ouse transcriptome based

on functional annotation of60,770full-length cDNAs[J].Nature, 2002,420(6915):563-573.

[2] K ent W J.Blat--Blast-like alignment tool[J].G enome Res.,

2002,12(4):656-664.

[3] Pruitt K D,M aglott D R RefSeq and Locus Link:NC BI gene-cen2

tered res ources[J].Nucleic Acids Res.,2001,29(1):137-140. [4] International Human G enome Sequencing C ons ortium.Finishing the

euchromatic sequence of the human genome[J].Nature,2004,431 (7011):931-945.

[5] P ontius J U,W agner L,et al.UniProt:the universal protein knowl2

edgebase[J].Nucleic Acids Res.,2004,32Database issue:D115-

D119.

[6] Zhang C G,W ang C L,et al.Full-length cDNA cloning of human

neuroglobin and tissue expression of rat neuroglobin[J].Bioch.Bio2 ph.Res.C omm.,2002,290(5):1411-1419.

[7] P ontius J U,W agner L,Schuler G D UniG ene:a unified view of the

transcriptome.The NC BI Handbook(M).Bethesda:National Center for Biotechnology In formation;2003,21:1-12.

[8] Z hang Z,S chwartz S,W agner L,et al.A greedy alg orithm for aligning

DNA sequences[J].J.C om put.Biol.,2000,7(1-2):203-214. [9] Burset M,Seledts ov I A,S olovyev V V Analysis of canonical and non

-canonical splice sites in mammalian genomes[J].Nucleic Acids Res.,2000,28(21):4364-4375.

[10] Schwartz S,K ent W J et al.Human-m ouse alignments with Blastz

[J].G enome Res.,2003,13(1):103-107.

(上接第61页)

不同的软件,因为中小实验室一般不可能自己开发软件,对软件的算法研究也不深入,并且许多商业软件的算法并不公开,这就限制了电子克隆的准确性,所以一定要充分利用可得到的一切可用资源,世界上的许多大实验室都建立了各自的数据库,并且开发了基于web 的服务系统,大部分都是免费的,应用这些服务系统来进行电子克隆不失为一个很好的办法。

对于本文克隆的鸡MI BP基因,是一个刚开始研究的新基因,1999年,Li等人[5]利用酵母二元杂交体系,筛选出与人integrinβ1D受体作用的蛋白,研究发现在C2C12分化(my ogenic differentiation)过程中,MI BP呈现下调趋势,而在肌原性细胞中MI BP过量表达时,会导致肌肉发生(my ogenesis)受到抑制。近期,Li等人[6]又发现MI BP与integrina7β1受体作用并调节细胞粘连和层粘蛋白laminin的核定位(matrix deposition)这些果均显示MI BP在控制肌细胞分化过程中起到重要作用,对于我们研究鸡的骨骼肌发育机制提供了一条线索。

参考文献(Referencex):

[1] 杨克强,王跃进,张今今,等1基于表达序列标签(EST)的基因

克隆和基因表达分析研究进展[J]1西北农林科技大学学报(自然科学版),2002,30:141-145。

[2] 张德礼,马大龙,钱敏平1人类新基因电子克隆德自动化软件系统

建立和实验验证与功能研究[J]1高技术通讯,2002,8:23-271 [3] 顾志良,张勇,李辉,等1鸡基因组研究的进展[J]1生物化学与

生物物理进展,2002,3:363-3671

[4] 何志颖,姚玉成1EST技术及其在基因全长cDNA克隆上的应

用策略[J]1国外医学遗传学分册,2002,25(2):67-691

[5] JiLi,Richard M ayne,Chuanyue Wu.A novel Muscle-speci2

ficβ1Integrin binding protein(MI BP)that m odulates my ogenic differenti2 ation[J]1The Journal of Cell Biology,1999,147(7):1391-13971 [6] JiLi,H ongwei Rao,Dean Burkin,S tephen J1K au fman,and Chuanyue

Wu.The muscle integrin binding protein(MI BP)interacts withα7β1in2 tegrin and regulates cell adhesion and lam inin matrix deposition[J] 1Developmental Biology,2003,261:209-2191

88 生 物 信 息 学 第3卷

相关主题