搜档网
当前位置:搜档网 › 多序列比对

多序列比对

多序列比对
多序列比对

在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。

显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。

由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。

渐进比对方法

CLUSTAL W

CLUSTAL W算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列

Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette

ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc.

的关系,于是,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。这个辅助树,加权后可以证实极相近的序列,然后以双重比对极相近的序列开始,为组建比对提供基础,然后重新比对下一个加入的比对,依次类推。如果加入的序列较多,那么毫无疑问,必须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。在绝大多数情况下,使用者不会在比对时加入结构信息,但是空位开放补偿利用了可以出现在α-螺旋或β-折叠末端的特殊残基以及空位罚分所偏好的残基,众所周知,这些残基更喜欢显示这个特异性。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,这些空位扩展罚分计算是有位置决定的。

为了介绍基于UNIX平台的CLUSTAL W的使用,考虑一下从四种不同物种来源的UIA蛋白(人类,鼠,Xenopus laevis和果蝇)。这四种输入序列放在一个单独的文件中,作成六种可以接受的格式中的一种,然后在UNIX提示符下执行clustalw,用户必须执行命令才会看见主菜单:

*********************************************************************

**********CLUSTAL W(1.60) Multiple Sequence Alignments******************

*********************************************************************

1.Sequence Input From Disc

2.Multiple Alignments

3.Profile / Structure Alignments

4.Phylogenetic trees

S. Execute a system command

H. HELP

X. EXIT (leave program)

Your choice: 1

选择菜单中的选项1(Sequence Input From Disc)以输入要比对的序列,选择1后会出现序列输入菜单:

Sequences should all be in 1 title.

6 formats accepted:

NBRF PIR, EMBI, SwissProt, Peat son (Fasta), GDE, Clustal, GCG MSF.

Enter the name of the sequence file: UIA.seqs

系统会提示用户有六种可以接受的格式,然后会提问输入序列的文件名,在这里序列输入文件名为UIA.seqs,一旦输入这个文件名,屏幕上会显示读取文件的过程,然后返回主菜单,这时,用户可以选择选项2进行多序列比对:

**************** MULTIPLE ALIGNMENT MENU *****************

1.DO COMPLETE MULTIPLE ALIGNMENT NOW (Slow / Accurate)

2.Produce guide tree file only

3.do alignment using old guide tree file

4.Toggle Slow Fast pairwise alignments = SLOW

5.Pairwise alignment parameters

6.Multiple alignment parameters

7. Reset gaps between alignments? = ON

8. Toggle screen display = ON

9. Output format ooptions

S. Execute a system command

or press [RETURN] to go back to main menu

从这一点看,用户在执行多序列比对时有很多选择的自由,举例来说,在Multiple Alignment Parameters下,用户可以实际空位开放和扩展的罚分,指出在组建辅助树时分歧到什么程度证明可以跳过一个序列,选择一个分值矩阵(BLOSUM 或PAM),并且可以选择当一个亲水残基出现(或缺失)在一个特异位点时,是否要执行特异性罚分,如果需要,要罚多少分。在Pairwise Alignment Parameters 下,用户可以调整用于慢比对和快比对的罚分和窗口大小。因为在这个例子中,我们没有可以用来指示我们改变比对参数的任何信息,因此只有选择选项1(”Do complete multiple alignment now”)。选择选项1后,程序会在屏幕上显示构件辅助树的过程,然后开始真正的所序列比对。

CLUSTA W结束时,会显示最终的比对结果,上述的例子的结果显示在图8.1中。在比对下方,一些位点被标记为星号或圆点,这些标记分别显示这些残基在序列中是绝对或是高度保守的。如果返回的比对出现太多的空位或是不考虑这些蛋白的任何已知信息,用户就可以再修正参数,然后返回程序,看它是否影响最终的比对。

CLUSTAL W (1.60) multipls sequence alignment

hum-U1A

------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ

mse-U1A MATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ

xla-U1A

------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDELVSRNLKMRGQ

dme-U1A

---------MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQ

* * *************.****************** . . .*****

hum-U1A AFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKP mse-U1A AFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKP

AFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKV dme-U1A AFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPA

******* **.****.***********.* *.*.****.**.***. ** .* .

hum-U1A KSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMI PPP

mse-U1A

KSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIP PP

xla-U1A KVPEVQGVKNAMPGAALLPGVPGQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHJPG MPPP

dme-U1A PGTDEKKDKKKK-----------------------------------------------P

. * *

hum-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFP G

mse-U1A GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILELTNLPEETNELMLSMLFNQFP G

xla-U1A GMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQF PG

dme-U1A

SSAENSNP-----------------NAQTEQPPNQILFLTNLPEETNEMMLSMLFNQFPG

* . * . .*.***.*************.***********

hum-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK mse-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK

xla-U1A FKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKK

dme-U1A FKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK

********.********* .*.*..**...******* ..***.****

图8.1、以四种U1A 序列为一系列的输入序列,使用CLUSTAL W多序列比对程序后得到的比对结果。保守性极高的残基位置由星号标记在序列下方的相应位置,保守性稍低的残基由打点标记出来。

MultiAlin

MultAlin方法也是基于用一系列双重比对开始的思想,然后基于双重比对的打分值进行一个分层次的聚类。当序列都分成类后,开始进行多序列比对,计算出多序列比对中的两个序列比对的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不在上升,此时所序列比对也就结束了。

MultAlin可以在INRA Toulouse的一个环球网点上很容易地执行,要比对的序列按照FASTA的格式被粘贴到一个序列输入框内,然后从一系列下拉菜单中,用户定义适当的参数,比如输出格式,可选的输入格式,引用的分值矩阵以及空位开放和扩展罚分的分值。大多数用户只会根据输入序列的远近关系,选择不同的分值矩阵。然后,序列被提交到服务器上,当多序列比对返回时,会计算一个一致序列并显示在比对的下方。举例来说,如图8.1所示的用CLUSTAL W比对的同样的序列被提交给MultAlin服务器,接受缺省的比对参数,其结果如图8.2

所示,在一致序列中,所有序列都匹配的残基相应的位置用此残基的大写字母表示,大多数都匹配的用小写字母表示,同样地,符号!、$、%和#分别表示保守取代,具体含义如图8.2上方的图例。

很明显,用两种方法分别得到的比对结果并不完全一样。主要区别在于CLUSTAL W在果蝇序列中开放了两个长度超过10的空位,而MultAlin只开放了一个长空位,而且,MultAlin可以得到比CLUSTAL W多20个完全相同残基的排队,当然,这并不以为这一种方法比另外一种方法优越,这有要重提本书的一个不便的话题,即从输入序列的性质出发,应用不同的方法会得到不同程度的成功。警慎的用户会选择若干个工具同时使用,并且对最终的比对结果作手工修正以期达到最佳效果。

模体和样式

前面叙述的方法对于多序列比对极为有用,但是用户必须实现搜集好独立的输入序列,要么通过一系列的BLAST或其它的数据库搜索,要么在实验室里直接作出决定。但是,有太多的方法可以获取一个单独的序列,并且基于此序列中的任何模体或样式,返回所有的蛋白质家族,完成某个特异方法所定义的最佳比对。很多时候,这些方法所揭示的距离关系并非从例行的标准的数据库搜索中轻易获取。在这一部分,我们讨论两种方法,都是搜索特殊数据库以获取序列的模体和样式的,当然也是两种从最少的序列信息中进行蛋白质家族分类的强有力的方法。

ProfileScan

基于经典的头文件分析的Gribskov方法,ProfileScan使用一种称为pfscan的方法寻找一个蛋白质或核酸的查询序列同一个头文件库的相似性,因此,在搜索中

需要有两个头文件库:第一个是PROSITE,一个ExPASy数据库,通过使用模体和序列样式(诸如指纹)将生物学意义重大的位点收集分类;第二个是Pfam ,收集了蛋白质结构域家族,与其它收集方法有很大不同的是,最初的蛋白质结构域的比对完全是有手工完成的,而不是依靠自动化的处理方法,正因为这样,Pfam只拥有500多条款目,但这些款目的质量极好。

基于PROSITE和Pfam的搜索可以通过访问ProfileScan的主页完成,她只需要一条简单的输入序列(用文本格式),或者一个标号,比如一个SWISS-PROT ID。用户可以选择搜索的敏感度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。为了说明输出的格式,我们现在向PROSITE系统提交人类的热休克诱导蛋白的序列作一次搜索:

normalized taw from to Profile | description

355,9801 41556pos 6 - 612 PF00012 | HSP70 Heat shock hsp70 protein

真正返回的PROSITE条目显得并不希奇,输出里含有值得注意的分值,这个前期加工(raw)的分值就是真正由搜索时使用的打分矩阵计算出来的,更信息化的数字是“normalized”,即N值,N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数目,基本上来说,N值越大,偶然发生的命中几率就越小。举例来说,如果N值为355,偶然命中的几率只有1.94Х10-349。数字“from”和“to”只是显示出查询序列和匹配的头文件重叠的位点。

BLOCKS

BLOCKS数据库利用了块的概念,对蛋白质家族进行鉴定,而不是只依赖于单个的序列本身。块的思想来源于更加普遍的概念�模体(motif),模体通常是指一段氨基酸序列的保守的伸展,拥有一定的蛋白质功能或者结构。当这些来源

于同一家族中的蛋白质中的模体比对时(不引入空位),其结果就是块;块就是指比对,而不是序列本身。很明显,任何一个独立的蛋白都可以包含一个或者更多个的块,对应于它的每一个功能和结构模体。

BLOCKS数据库本身来源于PROSITE的条目。当使用一个感兴趣的序列进行BLOCKS搜索时,查询序列就会同数据库中所有的块在任何可能的位点进行比对,对于每一个比对都会使用位点特异分值矩阵或者PSSM进行打分。PSSM和这本书前面叙述的分值矩阵(例如BLOSUM62)的重大区别在于,其分值考虑到了在给定的位点是否拥有一个匹配以及一个给定氨基酸占据块中的位点的可能性。所有基于这种形式的方法的核心思想都是观测残基占据比对蛋白质块中的一个特异位点的几率,这在本部分的结尾就会变的十分明白。

BLOCKS搜索可以通过访问西雅图的Fred Hutchinson肿瘤研究中心的BLOCKS 主页完成,这个网点很直接,允许执行基于序列或者关键词的检索。如果用户在输入时使用了DNA序列,他就可以指明使用哪个遗传密码,搜索哪条链。不管执行搜索的是一个序列还是一个关键词,成功的搜索将会返回相应的块,图8.3显示了一个例子。在这个条目中(一个核内激素受体,称为类固醇指针),头几行按顺序分别标记为ID,AC和DE,给出了这个块代表的家族的缩写,BLOCKS 数据库注册码和家族的详细描述;BL行给出了关于组建这个特别的块的原始序列模体的信息:参数width和seqs表示block的宽度(用残基计算),以及这个块中有多少序列数目,接下来是统计学有效性和构成长度的信息;最后是序列列表,只显示出对应于这个特殊模体的序列部分,每一行的开头都是这个序列的SWISS-PROT注册码,第一个残基在整个序列中的位置,然后是序列本身以及基于位点的序列权重,这个权重用100刻度,100表示序列距离这个群体最远;注意到有些序列行中有空行:部分比对被聚集在一起,在每个聚集中,80%的序列残基是相同的。

MoST MoS

模体搜索工具(或者写作MoST),是一个UNIX程序,用来进行数据库搜索以寻找保守的模体。这个方法使用比对序列块(比对块,alignment block),可以容纳任意数目N的序列,每一个长L,所有序列长度必须一致,但是在目前还不能引进空位。这个比对块用来产生一个蛋白质权重矩阵,然后对所有序列进行矩阵扫描,从目标蛋白质数据库开始搜索,对每一个长L的片段通过加和适合的权重矩阵元素得到其分值。如果找到在统计学上显著地匹配于序列块的序列,这些序列也会被加入到序列块中。搜索完一个循环后,权重矩阵必须重新计算,然后重新进行搜索,这个过程反复进行,直到再也找不到统计学意义显著的匹配序列为止,这个过程因而在数据库搜索过程中不断积累新的信息。

在执行MoST时有一个可以设置的参数就是比例R,R表示预期的虚假匹配数目被预测的真实匹配数目。因为MoST搜索预期将会收敛(就是说因为不会再找到新的序列,反复过程将会终止),所以R值的选择十分重要。如果R值太高,搜索就会延伸而不是收敛,最后会引进目标数据库中的所有序列,避免虚假匹配

的一个方法就是逐渐增大R值,观察匹配的数量和质量,如果可能出现延伸就放弃增大R值。

MoST命令行形式为:

most database block [method] [seg] [cutoff] [i#%] > outfile

在这里database指明要搜索哪一个数据库;block指明含有输入比对块的文件名(用FASTA格式存储);可选的method参数指明了怎样计算依赖位置的权重矩阵:如果不加指明,缺省值将选择出现一个特殊残基的可能性的Dirichlet分布,选项1引用加权平均(Gribskov方法),选项2引用Bayesian伪记数方法,选项3引用依赖数据的伪记数模型,至于执行中如何选择,在MoST的原始参考书中有详细描述,新用户应该先使用缺省值,检查结果的质量,然后考虑是否改变参数;seg参数指明搜索中是否应用seg过滤算法,seg(缺省)表示开关开,-seg 表示开关关;阈值cutoff指明上面描述的比例R,推荐初始值选择在r0.1-r0.5;最后,使用i#%参数将对输入块进行限制,比如,如果指定为i80%,在组中只有相同比列大于80%才被引用,这个选项可以在出现从多个物种来源的相同序列时,有效地放置数据系统的扭曲。

图8.4显示了一个MoST输出的例子。输出文件很便利地回应了开始的命令,允许多重MoST,一个接一个地辨别。接下来是真正的块,头和尾都有一个额外的序列,标记MAX的序列被认为是一个de facto一致序列,它是基于计算矩阵得分最高的序列,在这里,它得分为609,分值显示于序列最末端;同样道理,标记为min的序列是最不一致的序列,得分最低,实际比对块的序列介于两行之间,按高分到低分排列,序列左边是序列标号,右边是分值。

图8.5是输出的延续,作为这个输入块的第一轮重复的结果,找到了5个新序列(比对的上方)。在新序列的左边是这个条目的Def行的前几个特征,然后是显示的第一个残基的位置,序列本身以及序列的统计值。更进一步,原始序列(比对块中的序列)再出现,这些序列可以反过头来使用更在Def行后的标志数字同序列块相比。数字被缩短了,但是输出文件仍然继续,显示每一轮的计算结果,直到收敛。这个输出的一个好特点就是不匹配于块的残基很容易显示出来,比对过程中程序已经替用户把它们用小写字母表示出来了。.

PROBE

有一个最新的比对模型程序叫做PROBE,在某些方面,PROBE与MoST很相似,它们都运用反复计算的策略检测较远关系的序列,但是,从本质上讲,算法的机制是不一样的,所以有必要作进一步的讨论。

在决定哪些序列相关时,PROBE执行一个及物的搜索,如果一个双重搜索发现序列A和B是相关的,另外一个搜索发现序列B和C是相关的,那么A和C就一定相关,即使A和C之间的双重比对没有直接发现它们相关。通过一系列的BLAST搜索,所有这样的联系都被反复演绎出来,直到再不会发现新的序列。在这样一系列相关序列组成的集合上,将会进行一系列的比对,反复比对,直到比对不再改善。这时,将会进行下一轮的数据库搜索,应用上一轮的最佳比对,寻找在上一轮中被忽略的相关序列。PROBE程序反复操作这一过程,直到搜索收敛为止。

PROBE和MoST之间的一个很重要的区别就在于PROBE在搜索开始时只需要一个序列作为“种子”,即使可以使用一个家族的序列,而在MoST程序中,必须输入一个预先准备好的不包含空位的比对。因为无法保证用机器寻找到的比对比手工的比对质量要好(很多时候恰恰相反),在进行MoST搜索时必然会携带手工计算比对时的位点偏向因素。MoST和PROBE处理输入的方法是不一样的,MoST一次必须处理一个比对块,而PROBE按照反复搜索中的发现把输入序列分成多个块,在这里,用户要决定是否维持块的完整以及块是否可以进一步分成更小的组成单位,作出决定时最好依据它们的生物学功能。最后,MoST是一个贪婪的算法,下一轮搜索中发现的新序列一旦加入就不会被剔除,于是一个虚假的匹配很可能在接下来的搜索中不断蔓延,很可能引入更多的虚假匹配;而PROBE 使用一个“jack knife”的程序会自动消除这样不相关的序列,就是说,推定的虚假匹配会被从数据中取消,然后重新搜索数据库,如果这个序列确实相关的话,它会在以后重新被加入到数据中去。

PROBE程序的UNIX发行版本的命令行采用这个形式:

probe fastafile database –s [options] > outfile

在这里,fastafile是进行搜索的种子序列文件,采用FASTA格式存储;database 是要搜索的目标数据库;跟在-s标志后面的数字是进行搜索的随机种子,然后是打分阈值选项,可以是任意一个数字,再后面是返回序列的最大数目,等等。程序执行一次需要相当长的时间,但是得到的输出结果是相当值得的。图8.6显示了一个PROBE得到的输出文件,种子序列是amphoterin,一种和高度流动组蛋白(HMG-1)相关的DNA-捆绑蛋白;最后找到了两个块,共包含50多个残基,每个块都是PROBE用统计学计算出来的最佳比对。对于每个序列,属于块部分的序列残基数目都被显示出来,后面跟着一个gi标记符以及这个条目的统计值。PROBE产生的输出文件包含残基频率信息,以及内容信息,统计信息和”jack knife”程序剔除的序列列表。

演示方法

上述的比对方法对于寻找最佳比对这一点都很严格,但是它们的输出结果的阅读质量都不是太好,所以有必要从这些程序中得到输出结果,然后把结果输出到另

外一些软件中去,使得多序列比对的结果可读性更好一些。这些演示方法通常都会让使用者更加容易地识别所有序列中精巧的序列样式,比通常显示的“一致序列”效果还好。

MacBoxShade

MacBoxShade(或者简写为MacBox),是VMS/UNIX应用程序BoxShade的一个Macintosh版本,它提供一个很简单的机制使得多序列比对结果形成一定的格式。MacBox只能读GCG MSF格式的比对文件,所以必须用其他程序(例如ReadSeq)把序列文件转化为它可以阅读的形式。虽然只支持一种输入格式,但是再输出上就有较多的选项了:这包括PostScript,支持PostScript打印机或者用PostScript形式浏览;还有PICT,缺省的Macintosh格式,可以输入到字处理或者图形处理软件中去。通过大量的简单对话框,用户可以指定色彩方案,给残基记数的形式,以及与计算一致序列有关的选项。

Sims和Groups是两个重要的对话框,控制了如何计算一致序列,两者的区别很细微但是十分重要。Sims对话框定义了什么样的残基之间相互相似,并且关系并非相反;Groups对话框允许确认离散的群体,再这些群体中,所有同一个群体中的残基都认为是相同的,就是说,如果一个群体被定义为拥有lysine,arginine和histidine,那么在一个比对中给定位点出现任何一个这样的残基都会被认为是匹配的。检测这两个对话框十分重要,因为用户希望用缺省值计算一致序列。

为了描述MacBox的使用,一定量的组蛋白H1序列和从酵母中得到的H1经过比对,并且被转化为MSF格式,这个MSF序列文件被MacBox打开,并且要求程序通过普通对话框打印一致序列。还是在同一个对话框中,显示一致序列的方法被改为BLU,意思是在一个给定位点,非保守位点用空格(blank)表示,保守残基用小写字母表示,相同残基用大写字母表示。要真正运行比对程序,可以从“Do it!”下拉菜单中选择“Display PICT”,会产生如图8.7的窗口,一致序列的表示法可以在普通对话框中改变成用户期望的形式。用户可以不象这里所作的根据所有序列的相似性留下阴影的形式,而是可以指定比对中的一个单个序列,然后根据其他序列同这个序列相似性的程度留下阴影。

对于没有Macintosh或者UNIX机器的用户来说,原始的BoxShade程序可以通过互联网访问,通过下拉菜单而不是上述的对话框。当然,那样是不可能选择色彩方案或者选择如何显示一个一致序列了,但是可以指定一致序列基于字母还是符号。

ALSCRIPT

ALSCRIPT是一个基于UNIX或者PC机平台的程序,它可以灵活地把多序列比对的输出结果格式化为PostScript格式,然后比对就可以在PostScript打印机上打印或者用PostScript浏览。ALSCRIPT的输入必须是如下三种格式之一:一个块文件,CLUSTAL W格式或者GCG格式;使用CLUS2BLC和MSF2BLC程序可以把其他格式转化为ALSCRIPT可以阅读的格式,这两个程序都在ALSCRIPT程序包中。ALSCRIPT在报告比对时提供了很好的灵活性:用户可以指定字体,部分比对的方框,选择阴影,增加文本识别,增加符号和行数以及颜色的选择。虽然ALSCRIPT本身不能产生或者编辑比对,但是它可以计算出一致序列并且用适当的方式显示匹配于一致序列的残基。正确使用程序可以揭示序列中的某些特征,比如电荷分布或者序列信号。

图8.8显示了一个ALSCRIPT命令文件格式的例子,命令文件被分解为两个逻辑部分,称为步骤1和步骤2。步骤1(Step1)命令控制了比对的总体面貌:字体型号,字体大小,记录定向以及颜色定义等等,步骤1还给出了输入文件(BLOCK_FILE, 块文件)的位置以及比对输出的写入文件(OUT_FILE, 输出文件)。步骤2 (Step2) 与比对的特定部分有关,比如改变同每一个序列相邻的标号,给特定的残基或者区域打上方框或阴影,给比对标上注释以及计算一致序列。所有这些例子都显示在图8.8中。注意那些注释行(行前标记为#),它们简单地介绍了每一个代码块的作用,这些代码都是由普通的大多数命令都使用的语法写的。跟在BOX_REGION命令后面的四个数字显示序列中哪些区域被召集,在这里,第一个BOX_REGION命令后面是6 3 15 8,意思是从第三个序列的第六个残基开始到第八个序列的第十五个残基打上方框。写好的文件可以直接被ALSCRIPT使用,这些文件可以从网上得到,也可以由发布的UNIX版本自带。

ALSCRIPT和MacBoxShade使用的序列例子是一样的,但是程序本质上是不一样的,报告序列也是不一样的,图8.7和8.9的区别是很明显的。怎样评估和权衡十分容易:MacBoxShade比较容易使用,因为所有因素都是对话框形式的,但是选项有限;而ALSCRIPT提供了更多的输出选项,但是正如显示的命令文件,学习怎样指定输出的格式需要一定的时间作为代价。实际上,ALSCRIPT命令文件可以由模式组成,这些模式使用于一个比对到另一个比对,只要用户对数字作必要的修改,这是一个很专业的产出结果。怎样选择比对格式工具依赖于用户的最终应用需要�是要进行迅速地浏览观测还是要得到拥有出版质量的图形。

第八章中涉及到的有关课题的互联网地址:

参考文献:

Bairoch.A. (1997). The PROSITE database: Its staus in 1997. Nucl.Acids.Res.

25. 217-221.

Barton.G. (1993). ALSCRIPT. a tool to format multiple sequence alignment. Protein Eng. 6. 37-40.

Corpet.F. (1988). Multiple sequence alignment with hierarchical clustering. Nucl.Acids.Res. 16. 10881-10890.

Gribskov.M.., McLachlan.A.., and Eisenberg.D. (1987). Profile analysis: Detection of distantly-related proteins. Proc.Natl.Acad.Sci. U.S.A. 84.

4355-4358.

Gribskov.M.., Homyak.M.., Edenfield.J.., and Eisenberg.D. (1988). Profile scanning for three-dimensional structural patterns in protein sequences. Comput.Appl.Biosci. 4. 61-66.

Henikoff.J.G.., and Henikoff.S. (1996). BLOCKS database and its applications. Methods Enzymol. 266. 88-105.

Higgins.D.G.., Thompson.J.D.., and Gibson.T.J. (1996). Using CLUSTAL for multiple sequence alignments. Methods Enzymol. 266. 383-402.

Luthy. R.., Xenarios.I.., and Lawrence.C.E. (1997). Extracting protein alignment models from the sequence database. Nucl.Acids.Res. 25.

1665-1677.

Sankoff.D. (1975). SIAM J.Appl.Math.78.35.

Tatusov.R.., Altschul.S.., and Koonin.E. (1994). Detection of conserved segments in proteins: Iterative scanning of sequence databases with alignment blocks. Proc.Natl.Acad.Sci. U.S.A. 91. 12091-12095.

Clustalx 多重序列比对图解教程(图解使用)

Clustalx 多重序列比对图解教程(By Raindy) 本帖首发于Raindy'blog,转载请保留作者信息,谢谢!欢迎有写生物学软件专长的战友,加入生信教程写作群:,接头暗号:你所擅长的生物学软件名称 软件简介: CLUSTALX-是CLUSTAL多重序列比对程序的Windows版本。Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。 序列将显示屏幕的窗口中。采用多色彩的模式可以在比对中加亮保守区的特征。窗口上面的下拉菜单可让你选择传统多重比对和轮廓比对需要的所有选项。 主要功能: 你可以剪切、粘贴序列以更改比对的顺序; 你可以选择序列子集进行比对; 你可以选择比对的子排列(Sub-range)进行重新比对并可插入到原始比对中; 可执行比对质量分析,低分值片段或异常残基将以高亮显示。 当前版本:1.83 PS:如果你是新手或喜欢中文界面,推荐使用本人汉化的Clustalx 1.81版链接地址::ist&ID=7435(请完整复制) 应用:Clustalx比对结果是构建系统发育树的前提 实例:植物呼肠孤病毒属外层衣壳蛋白P8(AA序列)为例 流程:载入序列―>编辑序列―>设置参数―>完全比对―>比对结果 1.载入序列:运行ClustalX,主界面窗口如下所图(图1),依次在程序上方的菜单栏选择“File”-“Load Sequence”载入待比对的序列,如图2所示,如果当前已载入序列,此时会提示是否替换现有序列(Replace existing sequences),根据具体情形选择操作。

图1

图2 2.编辑序列:对标尺(Ruler)上方的序列进行编辑操作,主要有Cut sequences(剪切序列)、Paste sequences(粘贴)、Select All sequences(选定所有序列),Clear sequence Selection(清除序列选定)、Search for string(搜索字串)、Remove All gaps(移除序列空位)、Remove Gap-Only Columns(仅移除选定序列的空位)

实验3 两条序列比对与多序列比对

实验三:两条序列比对与多序列比对 实验目的: 学会使用MegAlign,ClustalX和MUSCLE进行两条序列和多条序列比对分析 实验内容: 双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式。两条序列比对是生物信息学最基础的研究手段。第一次实验我们用dotplot方法直观地认识了两条序列比对。但是dotplot仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序列比对。这里介绍进行两条序列比对的软件-MegAlign。 多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中。多序列比对的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及进化关系更为有用。多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、保守模块的搜寻等具有非常重要的作用。我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE。 一、MegAlign DNASTAR公司的Lasergene软件包是一个比较全面的生物信息学软件,它包含了7个模块。其中MegAlign可进行两条或多条序列比对分析。 1. 两条序列比对 1.1 安装程序 解压DNASTAR Lasergene软件压缩包,双击Lasergene710WinInstall.exe文件,按照默认路径安装软件到自己电脑上。 1.2 载入序列 a.点击开始-程序-Lasergene-MegAlign,打开软件。 我们首先用演示序列(demo sequence)学习软件的使用。演示序列所在位置:C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\。 b. 点击主菜单File—Enter sequence-选择序列所在文件夹,选择序列tethis21.seq和tethis22.seq,点击Add,这两条序列将出现在右侧selected sequences框中(Figure 3.1),选择完毕点击Done回到程序页面。 Figure 3.1 载入序列

多重序列比对及系统发生树的构建

多重序列比对及系统发生树的构建 作者:佚名来源:生物秀时间:2007-12-31 【实验目的】 1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识; 2、掌握使用Clustalx进行序列多重比对的操作方法; 3、掌握使用Phylip软件构建系统发生树的操作方法。 【实验原理】 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。 对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行比对(alignment)。⑵要构建一个进化树(phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估,主要采用Bootstraping法。进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);

多序列比对

在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。 显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。 由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。 渐进比对方法 CLUSTAL W CLUSTAL W算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列 Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc.

用ClustalX做多序列比对分析

用ClustalX做多序列比对分析图示 1、打开程序 如下图所示: 2、Load Sequnce, 载入序列 如下图所示: fasta格式的文件关键不在于文件名的后缀是什么,而是在于序列的格式。fasta的格式是: 1、第一行以>开头,紧接着序列的注释和描述。 2、第二行是纯序列atgcg.... 其他序列再起一行,如此下去就可以了。 如: >seq1 |this is a example atgattggaacttgacgt.... >seq2 |this is another example ttgagttgaccgtgacgtgag.....

3、选择序列文件,FASTA格式的 如下图所示: 4、用文本编辑器察看FASTA序列文件容,这里用的是记事本,推荐用EditPlus或者Ultraedit

如下图所示: 5、序列Load进去之后如下图所示:

6、Do Complete Alignment, 通常情况下直接选这个即可,无须修改比对参数 如下图所示: 7、点Do Complete Alignment之后弹出的文件对话框,.dnd的是输出的指导树文件,.aln的是序列比对结果,它们都是纯文本文件 如下图所示:

点“ALIGN”之后开始等待,如果序列不多,很快就可以算完,如果数据很多,可能要等一段时间,这时候可以用眼睛盯着ClustalX的状态栏,那里会有程序运行状态和现在正在比对那两条序列的提示信息,看看可以消磨时间。。。 8、比对结束之后,我们可以看到这个结果 如下图所示:

9、这时候我们可以发现ClustalX已经生成了.dnd和.aln两个文件,仍然用文本编辑器打开来看,这时.aln文件,这个文件可以用Mega2做进一步的bootstrap进化树分析 如下图所示: 10、这是.dnd文件(指导树) 如下图所示:

多重序列比对

第三章序列比较 3.3 序列多重比对 与序列两两比对不一样,序列多重比对(Multiple Alignment)的目标是发现多条序列的共性。如果说序列两两比对主要用于建立两条序列的同源关系和推测它们的结构、功能,那么,同时比对一组序列对于研究分子结构、功能及进化关系更为有用。例如,某些在生物学上有重要意义的相似性只能通过将多个序列对比排列起来才能识别。同样,只有在多序列比对之后,才能发现与结构域或功能相关的保守序列片段。对于一系列同源蛋白质,人们希望研究隐含在蛋白质序列中的系统发育的关系,以便更好地理解这些蛋白质的进化。在实际研究中,生物学家并不是仅仅分析单个蛋白质,而是更着重于研究蛋白质之间的关系,研究一个家族中的相关蛋白质,研究相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。序列两两比对往往不能满足这样的需要,难以发现多个序列的共性,必须同时比对多条同源序列。 图3.14是从多条免疫球蛋白序列中提取的8个片段的多重比对。这8个片段的多重比对揭示了保守的残基(一个是来自于二硫桥的半胱氨酸,另一个是色氨酸)、保守区域(特别是前4个片段末端的Q-PG)和其他更复杂的模式,如1位和3位的疏水残基。实际上,多重序列比对在蛋白质结构的预测中非常有用。

多重比对也能用来推测各个序列的进化历史。从图3.14可以看出,前4条序列与后4条序列可能是从两个不同祖先演化而来,而这两个祖先又是由一个最原始的祖先演化得到。实际上,其中的4个片段是从免疫球蛋白的可变区域取出的,而另4个片段则从免疫球蛋白的恒定区域取出。当然,如果要详细研究进化关系,还必须取更长的序列进行比对分析。 对于多重序列比对的定义,实际上是两个序列的推广。设有k个序列s1, s2, ... ,s k,每个序列由同一个字母表中的字符组成,k大于2;通过插入操作,使得各序列s1, s2, ... ,s k的长度一样,从而形成这些序列的多重比对。如果将各序列在垂直方向排列起来,则可以根据每一列观察各序列中字符的对应关系,如图3.14。 通过序列的多重比对,可以得到一个序列家族的序列特征。当给定一个新序列时,根据序列特征,可以判断这个序列是否属于该家族。对于多序列比对,现有的大多数算法都基于渐进比对的思想,在序列两两比对的基础上逐步优化多序列比对的结果。进行多序列比对后,可以对比对结果进行进一步处理,例如构建序列的特征模式,将序列聚类,构建分子进化树等。 3.3.1 SP模型 SP 模型(Sum-of-Pairs,逐对加和)是一种多重序列比对的评价模型。在多重比对中,首先要对所得到的比对进行评价,以确定其优劣。例如,对图3.14中的8条序列进行比对,可以得到另外两种结果,如图3.15所示。那么,这样的三个多重比对,哪一个更好呢?这就需要有一种方法来评价一个多重比对。

相关主题