搜档网
当前位置:搜档网 › 系统发育树构建方法研究_冯思玲

系统发育树构建方法研究_冯思玲

系统发育树构建方法研究_冯思玲
系统发育树构建方法研究_冯思玲

中图分类号:TP39 文献标识码:A 文章编号:1009-2552(2009)06-0038-03

系统发育树构建方法研究

冯思玲

(海南大学信息科学技术学院,海口570228)

摘 要:系统发育树的构建与分析是生物信息学中的一个重要分支。研究系统发育树可以重建祖先序列和估计分歧时间。对构建系统发育树的四种方法进行概述,主要包括基于距离的方法,简约法(MP),最大似然法(ML)和贝叶斯树估计方法。并对基于这些方法的软件进行简要介绍,最后对系统发育树构建技术中的难点问题进行分析。

关键词:系统发育树;基于距离方法;简约法;最大似然法;贝叶斯树估计方法Research on method of the construction of phylogenetic trees

FENG Si ling

(School of Information Science&Technology,Hainan University,Haikou570228,China) Abstract:The construction and analysis of phylogenetic trees is an important part in bioinformatics.The main objectives of studying the construction of phylogenetic trees can reconstruct ancestors sequences and estimate the time of divergence.The four methods about construc ting phylogenetic trees are described,which are based on distance method,parsimony method,maximum likelihood methods and Bayesian tree estimate methods.

The software package based on these methods is briefly introduced,at last the difficult points about tree building techniques are analyzed.

Key words:phylogenetic trees;distance based methods;parsimony method;maximum likelihood methods;

Bayesian tree estimate methods

0 引言

系统发育树也称系统进化树(phylogenetic tree),它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列,蛋白质序列,蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列 性状;估计来自于同一个祖先的不同生物之间的分歧时间;识别和疾病关联的突变等。近些年随着基因数据的爆炸增长,系统发育树的构建越来越流行。基于分子的进化研究已经应用到许多方面,如基因进化,物群划分,交配系统,父亲身份测试,环境监视以及已经转移物种的疾病源的研究等。

从数学的观点看,系统发育树是一颗树叶有标签的有根二叉树,根表示祖先序列。系统发育树主要是它的拓扑结构和分支长度。分支长度表示突变的时间。拓扑表示树的分支模式,有N个叶子可生成无根树的数目根据Schroder公式有(2N-5)!!,对每个无根树有(2N-3)种可能的分枝。因此,有根树的树目是(2N-3)(2N-5)!!=(2N-3)!![1]。

系统发育树的叶子在生物上称作操作分类单元OTU(operational taxonomic units),OTU代表构建的系谱的不同生物。构建系统发育树所用的数据用矩阵X N K表示,N表示氨基酸或核苷酸的序列数,即有N个叶子的树。K表示序列的字符数(列数)。构建树分析主要有二步:第一步用X N K矩阵产生树 T并

收稿日期:2009-03-06

基金项目:海南省自然科学基金项目(80637);海南大学校科研基金项目(kyjj0609)

作者简介:冯思玲(1973-),女,讲师,硕士,研究方向为生物信息学算法研究。

38

用来估计未知的树T;第二步产生关于 T的可信描述,通常采用Bootstrap方法。一般B ootstrap的值> 70,则认为构建的进化树较为可靠。如果B ootstrap 的值太低,则说明有可能进化树的拓扑结构有错误,进化树是不可靠的。

1 替代模型

基于距离的方法和最大似然法都是用参数模型描述序列间突变的过程,此过程称为替代模型。首先定义替代概率P(t),即一个给定序列位置i上的字母x经过t时间进化成y的概率。类似Markov过程,表示为P(t)=[p i xy(t)]=[p(x i(t+s)= y|x i(s)=x)],s 0,t>0。

P(t)=e Q t(1)

P(t)与变化矩阵Q有关,Q表示一个核苷酸(氨基酸)变成另一个核苷酸(氨基酸)的概率。有许多替代模型,最简单的是Jukes Cantor模型,这个模型假定DNA中的核苷酸发生变化的概率是相同的, Q的定义如下:

Q=

A T C G A-3 T -3 C -3 G -3

其中 表示突变率。如果是氨基酸序列,矩阵的大小为20 20,通常,A G,G A,T C,C T 比A C,A T,G C,G T突变更频繁些。

2 系统发育树构建方法

系统发育树构建方法通常有四种类型:基于距离的方法,简约方法(parsimony method),最大似然法和贝叶斯估计方法。

2 1 基于距离的方法

基于距离的方法有UP GMA、ME(Minim um Evolution,最小进化法)和NJ(Neighbor Joining,邻接法)等。首先计算给定矩阵中序列X和Y之间的距离,有Jukes Cantor模型和海明模型。d H(s1,s2)表示一个序列变化到另一个序列需要变化的最小数目。如: d H(GGG AACT,GGC AAC T)=1。表1是用Fitch和Marogliash计算20个物种氨基酸序列的海明距离矩阵的一部分。一旦距离矩阵被计算,实际树就可以用聚类技术来估计。最常使用的聚类算法是非加权配对算术平均法UPGMA(Unweighted Pair Group Method with Arithmetic mean)和邻结法(NJ)。

例如,首先在给定矩阵中选择有最小距离的两个物种,在这里选择man和monkey,第二步将这二个物种聚类成一个子树,然后根据公式

dist(man-monkey,物种i)=

1

2

(dist

(man,物种i)+dist(monkey,物种i))(2)

计算出这个新生成的子树与其他物种间的距离,如表2所示。最后生成的系统发育树如图1所示。

表1 Fitch和Maroglias h的部分海明距离距阵

man monkey hors e kangaroo chicken tuna moth man0

monke y10

horse17160

kangaroo1213110

chicken181716150

tuna31322727260

moth3635333131410

表2 man-monkey的距离距阵

man-monkey hors e kangaroo chicken tuna moth man-monkey0

horse16.

50

kangaroo12.5110

chicken17.516150

tuna31.52727260

moth35.5333131410

图1 最后生成的系统发育树

基于距离方法的缺点:该方法对物种不同的突变率的敏感性高,只关注距离矩阵而不是序列数据,如启发式建树算法(如UPGMA)。

2.2 简约法(parsimony method)

简约是没有不必要的步骤。最好的树是祖先与子代之间变异的最小数目,如前面讨论的海明距离(Hamming distance)。最大简约树是寻找在序列间给定海明距离的二叉Steiner树问题。寻找最小Steiner

39

树是寻找最小化树的完整长度地表示祖先的Steiner 点。Steiner问题是寻找连接N个点的最短树。更一般的是最小生成树(连接N个点没有环路), Martin Gardner(1997)将最小生成树与Steiner问题联系起来,表明最小生成树是Steiner树一个最好的起点。最小Steiner树是一个NP难问题,已经有很多好的启发式算法得到近似最优树。常用的软件包有PAUP,MEGA,P HYLIP,SPA等。用简约法构建树的优点可以最小化同形(homoplasy)的影响。对于近缘序列的进化树构建,MP(maximum parsimony)方法几乎是最好的。构建MP树最好的工具是PAUP,但它属于商业软件,并不对学术免费。推荐使用ME GA 来构建MP树。须注意的是MP树需要先将序列做多序列比对的处理。

2.3 最大似然法(ML)

最大似然法是由样本观测值估计总体参数的一种常用方法。最大似然法是选择最高概率的树。这个方法采用一个参数模型( ,T), 是一个 维向量,T是树的拓扑结构。在这个模型下对于数据集中每个序列所有可能树的似然是独立计算的。 来自前面讨论过的替代模型。对一个给定树和给定替代参数计算X.j列的似然,f(X.j 1, 2, , ,T)。例如考虑两个DNA序列,CATG和AGTC,使用Markov 进化假定,能计算在树叶序列C ATG中第一个符号C的似然和序列AGTC中第一个符号A的似然,以根的值作为条件,将根的所有可能值加起来,如

X.1=C

A

X11=[C]X21=[A]。

f(X.1 ,T)=

f(X11=C,X21=A ,T)=

P(a i=A)P(a i C t,a i=A)P(a i A t,a i=A)+ P(a i=C)P(a i C t,a i=C)P(a i A t,a i=C)+ P(a i=T)P(a i C t,a i=T)P(a i A t,a i=T)+ P(a i=G)P(a i C t,a i=G)P(a i A t,a i=G) P(a i x t)是在给定时间t根a i变成x的概率。这个概率由替代模型决定。如果假定所有点的进化是独立的,那么X N K的似然函数等同于下式:

L( 1, 2, , X.1,X.2, ,X.K,T)= K j=1

f(X.j ,T)(3)

似然是所有可能树T的拓扑和从向量 获得的分支长度的最大化。这需要计算所有可能树的似然,计算量是很大的,最大似然方法是以下面假定为前提的。在序列中每个符号进化独立于序列的其它符号;不同血统进化是独立的;每个符号以期望突变率替代。最大似然法的缺点:最大似然法的假定在实际中是很少存在的,每个树的似然计算是很耗时的,都是NP hard问题。

如果序列较远源,则可以做ML树比较。构建ML树可以使用PHYML,速度最快。或用Tree puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。由于PHYML没有win32版本,只有适用于64位的版本,Tree puzzle是命令行格式,故推荐BioEdit。另外构建ML树不需要事先的多序列比对,而直接使用FASTA格式的序列即可。

2 4 贝叶斯树估计方法

贝叶斯方法比最大似然法能表示更多的可信进化模型,替代率的变异可以在各个点建模,贝叶斯方法有一个非常宽的先验分布,后验概率分布用Gibbs 样本和MC MC(Monte Carlo Markov C hains)方法计算。如果X N K有不同的突变率r K,那么有如下形式:

P(X T,t,r K)= K k=1P(X k T,r K,t)(4)很多种情况下不知道r K,用经验贝叶斯分析和启发贝叶斯分析两个方法产生后验概率,当未知参数出现时,经验贝叶斯分析用估计来表示未知参数,启发贝叶斯分析将二级先验(second level priors)作为前期未知参数的密度。积分所有的二级先验作为先验,Yang and Rannala(1997)提出用g(r, , )作

为二级先验,g(r, , )平均值为1差异为

1

似然函数表示为如下公式:

P(X T,t, )= K k=1 0P(X k T,r,t)g(r, , )d r(5)对于给定X N K的树的后验分布公式如下:

P(X x)=

v r L(x T,v,r)p(T,v,r)d r d v

T v r L(x T,v,r)p(T,v,r)d r d v(6)其中,v表示所有可能的分支长度,r表示进化率。当物种数目较多时用Monte Carlo积分更有效。当用metropolis算法和Gibbs样本的MC MC方法可忽略分母,基于贝叶斯估计方法的软件包主要有MrBays,不过速度较慢。一般的进化树分析中较少应用。该软件用MC MC仿真进行系统发育树的贝叶斯推理。用MCMC的贝叶斯方法的主要问题是收敛性没有证明。Diaconis和Holmes的初步研究表明在很多种情况下收敛是很快的。(下转第44页)

40

数据传输给数据分析器。

数据分析器具有数据传输和数据分析功能,一方面接收定性数据发出的报警信息,并把该信息向报警器传送,另一方面数据分析器把定量数据传输给用户数据库。

用户数据库使用基于相似度和的孤立点挖掘算法,把定量数据分为正常数据集和孤立点数据集。然后把这两部分数据集再传输给分析器。

分析器接受孤立点数据集发出的警报信息,并把该信息向警报器传送,接着把正常数据集传输给用户数据库。

用户数据库把传输来的正常数据集进行更新处理,以使入侵检测系统中的用户数据库能够准确描述用户行为特征。

其入侵检测的算法描述。

Step1:获取当前的用户某一时刻使用资源情况的原始数据x i。

Step2:计算X中各对象的离散程度,即:计算各个对象两两之间的相似系数r ij。

Step3:计算相似系数矩阵第i行的P i和与 i。

Step4:如果 i 的对象,则被认为是孤立点集,则说明有异常行为并报警,否则属于正常用户行为,并对用户数据库进行更新处理。

算法分析。

从时间消耗来看,主要是距离的比较,尽管孤立点挖掘的异常检测技术比基于聚类的异常检测技术增加了额外的时间和空间消耗,但是也提高了算法的性能,提高了入侵攻击的检测率。

6 结束语

随着网络安全问题的日益突出,入侵检测技术的研究愈来愈受到人们的关注。本文分析了入侵检测的分类、入侵检测技术的方法、以及入侵检测系统的工作原理及流程图,在此基础上对基于数据挖掘入侵检测技术的深入研究,给出了基于孤立点数据挖掘的入侵检测算法,孤立点挖掘技术可以完成异常检测工作,而且当异常数据要远小于正常数据时,其检测结果要优于基于聚类的异常检测技术,而在一般情况下,网络数据中异常和正常行为的统计分布基本符合孤立点挖掘的使用条件。

网络安全问题一直以来都是人们关注的问题,随着网络的进一步发展以及黑客攻击手段的多样化,仍有大量的研究工作和挑战性问题亟待解决。参考文献:

[1] LI Yang.Application of K means Clustering Algorithm i n Intrusi on De

tecti on detecti on s ys te ms[J].Computer Engi neering,2007(7).

[2] Bierman E,cloete E,venter LM.A comparison of intrusi on detection

systems[J].Computers&Securi ty,2001,20(8):676-683.

[3] Lee W,Miller M,Stolfe s,et al.Towardcos t sensi ti ve modeli ng for in

trusion detec tion[C].Computer Sciece,Columbi a Universi ty,2000. [4] W UZ.hifeng,CHEN D ongxia,J I Genlin.Securi ty R ules Mini ng from ID S

Based on Rough Set[J].Co mputer Enginee ring&Scienc e,2005(6). [5] 郝忠孝.关系数据库理论新进展[M].北京:机械工业出版社,

1998.

[6] HUA NG Bin,SHI Liang,JIA NG Qing s han,et al.Intrus ion D erection T ec h

nol ogy Based on Outli er Mining[J].computer Engineeri ng,2008(2).

责任编辑:李光辉

(上接第40页)

3 构建分子进化树软件

构建分子进化树软件主要有MEGA,PAUP, PHYLI P,Tree View,Cluster X,GeneDoc,BioEdit等。MEGA是图形化软件,使用非常方便。可用于序列比对、进化树的推断、估计分子进化速度、验证进化假说等。MEGA还可以通过网络(NCBI)进行序列的比对和数据的搜索,可免费下载。P HYLIP是命令行格式软件,使用较繁琐。可以分析DNA与蛋白序列,限制位点等,并可绘制进化树。Tree Vie w是用来生成与打印进化树的软件。Cluster X对大量微阵列数据组进行各种聚类分析与其它各种处理的软件。GeneDoc帮助研究人员进行多序列比对,并可以以各种方式标记序列,生成发表质量的输出报告。GeneDoc还能进行相关的分析,使对研究的序列了解更多。BioEdit是一个序列编辑器与分析工具软件,功能强大,使用方便。功能包括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过20000个序列的多序列文件、基本序列处理功能、质粒图绘制等等。

4 结束语

树构建技术中主要包括上述四种方法,树构建问题除了前面讨论的同形问题、收敛问题外,这些方法只是局部最优。这意味着如果数据是相互依赖的,局部最优就会出现错误。有人建议交换物种的顺序后再重复进行树的分析,选择不同的顺序和初始条件会导致不同的解决方案。树构建技术的另一个问题就是如何相信这个估计的树与真正树的接近程度,要分析建立在所有树的空间的概率分布上,而树可能有指数多个。总之,研究构建系统发育树的算法是非常有意义的。

参考文献:

[1] Ali E Abbas,Sus an P Holmes.Bioinformatics and Manage ment Sci

ence:Some Common Tools and Techniques,Operati ons Research[Z].

Mar Apr2004,52(2).

[2] [EB O L].http: www.bbi https://www.sodocs.net/doc/8013419795.html, Soft bios oft Index.htm.

[3] [EB O L].http: https://www.sodocs.net/doc/8013419795.html, biology bioi nfo2 78842.s html.

责任编辑:么丽苹

44

系统发育树构建步骤

如何建树 step 1. 将16S rDNA序列在NCBI上进行BLAST比对(https://www.sodocs.net/doc/8013419795.html,/BLAST/) BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990 [62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。BLASTN结果如何分析(参数意义): 例如: >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 其中,Score指的是提交的序列和搜索出的序列之间的分值,越高说明越相似。Expect指的是比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,就比对很好了,多数情况下为0。Identities指的是提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同。Gaps指的是一般翻译成空位,指的是对不上的碱基数目。Strand指的是链的方向,Plus / Minus意味着提交的序列和参比序列是反向互补的,如果是Plus / Plus则二者皆为正向。 挑选与目的菌株具有较近亲源关系的模式种(type strain)序列将这些序列用记事本保存成dna.seq文件。 >M.mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT >M.fascicularis AAGCTTCTCC GGCGCAACCA CCCTTA TAA T step 2. 用CLUSTALX对已知DNA序列做多序列比对 1 双击clustalx.exe运行程序。 2 点File→Load Sequence,打开dna.seq。

系统发育分析

实习四: 系统发育分析-PHYLIP, MEGA, MrBayes 实习目的 1. 学会使用PHYLIP,MEGA和MrBayes构建进化树 2. 学会分析建树结果,体会各种方法差异 实习内容: 一、PHYLIP PHYLIP网址: https://www.sodocs.net/doc/8013419795.html,/PHYLIP.html PHYLIP是一个免费的系统发育树构建软件,它的功能比较全面,可用距离法、最大简约法和最大似然法分别进行建树,还可以对进化树可靠性进行检验。PHYLIP没有多序列比对功能,所以先要用其它序列比对软件完成序列比对,并保存为phy格式后,才可提交给PHYLIP进行分析。 1.1 比对序列的准备 1.将教学材料里demo sequence.zip文件解压到D盘根目录下,分别用其中的mRNA和protein序列学习进化树构建。首先我们用实习2学过的多序列比对软件对序列进行比对。这里以CLUSTAX为例来说明。 强烈建议:将你的所有同源核酸(或蛋白质)序列存到一个文本文档里,将”>”之后那行只保留物种名称,或物种名称_蛋白(或基因)名称,方便后面分析比较。 2.用CLUSTALX进行多条序列比对,在Alignment - output format option选中PHYLIP格式,对序列进行比对(Alignment - Do complete alignment)。将生成的phy文件保存,此文件可以用写字板打开浏览,里面内容是多条序列比对结果。(Figure 1.1)

Figure 1.1 用clustalx 进行多条序列比对及生成的phy 文件 3. 双击解压PHYLIP-3.69.zip 文件,得到三个文件夹,其中doc 文件夹里是关于所有PHYLIP 子程序的 使用说明,exe 文件夹里是直接可以使用的可执行程序,src 文件夹里是所有程序的源代码。 4. 打开PHYLIP 的exe 文件夹,将上步保存的phy 文件复制到exe 文件夹中。 5. 上课时我们是先将序列用某种方法建树后,然后做bootstrap 检验,看树的可靠性。但一般情况下用 你的序列直接构建出来的树与伪样本建出来的一致树(consensus tree)是非常相似的,所以这里我们先做bootstrap,直接用伪样本建树。

构建系统发育树需要注意的几个问题

构建系统发育树需要注意的几个问题 1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。 3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基

分子进化与系统进化树的构建

分子进化与系统进化树的构建 分子进化与系统进化树的构建 分子进化与系统进化树的构建 主要内容: 1、分子进化的研究方法 2、系统进化树的构建方法 3、系统进化树构建常用软件汇集 4、系统进化树构建方法及软件的选择 5、Phylip分子进化分析软件包简介及使用 6、如何利用MEGA3.1构建进化树 声明: 1、本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于基因酷及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请Email genecool@https://www.sodocs.net/doc/8013419795.html,告知。 2、由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛(https://www.sodocs.net/doc/8013419795.html,/bbs)本篇对应的专题跟贴指出或Email genecool@https://www.sodocs.net/doc/8013419795.html,。 致谢: 整编者:flashhyh 主要参考资料:《生物信息学札记》樊龙江;《分子进化分析与相关软件的应用》作者不详;《进化树构建》ZHAO Yangguo;《如何用MEGA 3.1构建进化树》作者不详;《MEGA3指南》作者不详; 分子进化的研究方法 分子进化的研究方法 分子进化的研究方法 分子进化研究的意义 自20世纪中叶,随着分子生物学的不断发展,进化研究也进入了分子进化(molecularevolution)研究水平,并建立了一套依赖于核酸、蛋白质序列信息的理论和方法。随着基因组测序计划的实施,基因组的巨量信息对若干生物领域重大问题的研究提

供了有力的帮助,分子进化研究再次成为生命科学中最引人注目的领域之一。这些重大问题包括:遗传密码的起源、基因组结构的形成与演化、进化的动力、生物进化等等。分子进化研究目前更多地是集中在分子序列上,但随着越来越多生物基因组的测序完成,从基因组水平上探索进化奥秘,将开创进化研究的新天地。 分子进化研究最根本的目的就是从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过核酸、蛋白质序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。 分子进化研究的基础 假设假设::核苷酸和氨基酸序列中含有生物进化历史的全部信息核苷酸和氨基酸序列中含有生物进化历史的全部信息。。 分子钟理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。如下图: 直系同源与旁系同源 直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的; 旁系同源(paralogs):同源的基因是由于基因复制产生的。 两者之间的关系如下图所示: 注:用于分子进化分析中的序列必须是直系同源的用于分子进化分析中的序列必须是直系同源的 用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath 和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称. 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。下图表示了

如何构建系统发育树

如何构建系统发育树 Bioinformatics2009-11-03 10:45 阅读159 评论0 字号:大中小小 (2009-06-11 22:44:13) 标签:系统发育树构建系统发育树分子生物学发育分析it 转自丁香园 构建系统发育树需要注意的几个问题 1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。 3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一棵系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样,来检测他们统计上的重要性。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称. 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。 用于构建系统进化树的数据有二种类型:一种是特征数据(characterdata),它提供了基因、个体、群体或物种的信息;二是距离数据(distancedata)或相似性数据(similaritydata),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distancematrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。 一1) 打开clustal X,载入上述序列,“load sequences”→“output format options”: “CLASTAL FORMA T”;CLASTAL SEQUENCES NUMBERS:ON; ALIGNMENT PARAMETERS: “RESET NEW GAPS BEFOR ALIGNMENT” “MULTIPLE ALIGNMENT PARAMETERS”→设置相关参数 2) “DO COMPLETE ALIGNMENT”→FILE→SA VE AS,掐头去尾。 3) 打开MEGA4,FILE→CONVERT TO MEGA FORMA TE→SA VE→FILE→OPEN DA TA→CONTAINING PROTAIN SEQUENCES? NO →PHYLOGENY→BOOTSTRAP TEST OF PHYLOGENY→N J → 设置相关参数。最后看到系统发育树 二这里要介绍的是Bioedit-Mega建树法,简单实用,极易上手。 1 将所测得的序列在NCBI上进行比对,这个就不多讲了。 2 选取序列保存为text格式。 3 运行Bioedit,使用其中的CLUSTAL W进行比对。 4 运用MEGA 4 建树,首先将前面的文件转化格式为mega格式,然后进行激活,最后进行N-J建树。

系统发育树构建方法优劣

1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。故NJ法适用于进化距离不大,信息位点少的短序列。邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。 2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。 3.最大似然法最大似然法(maximum likelihood method,MI。)是20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。 最大似然法最早应用于系统发育分析是在对基因频率数据的分析上。其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。MI。法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。在进化模型选择合理的情况下,MI。法是与进化事实吻合最好的建树算法。其缺点是计算强度非常大,极为耗时。

构建系统进化树的方法步骤

构建系统进化树的方法步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;

构建系统进化树的详细步骤

构建系统进化树的详细步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意 为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心 都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序 列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。它 们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明 行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是 任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就 可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus

MEGA构建系统进化树的步骤(以MEGA7为例)

MEGA构建系统进化树的步骤(以MEGA7为例) 本文是看中国慕课山东大学生物信息学课程总结出来的 分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA 序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。 2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),弹出窗口询问“Nothing selected for alignment,Select all?”选择“OK”。 4. 之后,弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。MEGA的所有默认参数都是经过反复考量设置的,这保证了MEGA傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别要求的时候,直接点击“OK”,接受这些默认参数,开始多序列比对。

系统发育树构建方法研究_冯思玲

中图分类号:TP39 文献标识码:A 文章编号:1009-2552(2009)06-0038-03 系统发育树构建方法研究 冯思玲 (海南大学信息科学技术学院,海口570228) 摘 要:系统发育树的构建与分析是生物信息学中的一个重要分支。研究系统发育树可以重建祖先序列和估计分歧时间。对构建系统发育树的四种方法进行概述,主要包括基于距离的方法,简约法(MP),最大似然法(ML)和贝叶斯树估计方法。并对基于这些方法的软件进行简要介绍,最后对系统发育树构建技术中的难点问题进行分析。 关键词:系统发育树;基于距离方法;简约法;最大似然法;贝叶斯树估计方法Research on method of the construction of phylogenetic trees FENG Si ling (School of Information Science&Technology,Hainan University,Haikou570228,China) Abstract:The construction and analysis of phylogenetic trees is an important part in bioinformatics.The main objectives of studying the construction of phylogenetic trees can reconstruct ancestors sequences and estimate the time of divergence.The four methods about construc ting phylogenetic trees are described,which are based on distance method,parsimony method,maximum likelihood methods and Bayesian tree estimate methods. The software package based on these methods is briefly introduced,at last the difficult points about tree building techniques are analyzed. Key words:phylogenetic trees;distance based methods;parsimony method;maximum likelihood methods; Bayesian tree estimate methods 0 引言 系统发育树也称系统进化树(phylogenetic tree),它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列,蛋白质序列,蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列 性状;估计来自于同一个祖先的不同生物之间的分歧时间;识别和疾病关联的突变等。近些年随着基因数据的爆炸增长,系统发育树的构建越来越流行。基于分子的进化研究已经应用到许多方面,如基因进化,物群划分,交配系统,父亲身份测试,环境监视以及已经转移物种的疾病源的研究等。 从数学的观点看,系统发育树是一颗树叶有标签的有根二叉树,根表示祖先序列。系统发育树主要是它的拓扑结构和分支长度。分支长度表示突变的时间。拓扑表示树的分支模式,有N个叶子可生成无根树的数目根据Schroder公式有(2N-5)!!,对每个无根树有(2N-3)种可能的分枝。因此,有根树的树目是(2N-3)(2N-5)!!=(2N-3)!![1]。 系统发育树的叶子在生物上称作操作分类单元OTU(operational taxonomic units),OTU代表构建的系谱的不同生物。构建系统发育树所用的数据用矩阵X N K表示,N表示氨基酸或核苷酸的序列数,即有N个叶子的树。K表示序列的字符数(列数)。构建树分析主要有二步:第一步用X N K矩阵产生树 T并 收稿日期:2009-03-06 基金项目:海南省自然科学基金项目(80637);海南大学校科研基金项目(kyjj0609) 作者简介:冯思玲(1973-),女,讲师,硕士,研究方向为生物信息学算法研究。 38

常见系统发育软件使用

常见系统发育软件使用方法 Xie Lei BJFU 1 Paup MP流程: Mac 准备nex文件(interleave和noninterleave均可) → 存入新建文件夹→拖入paup或用paup打开→ execute → log file → cstatus → tstatus → hsearch → define outgroup → roottrees → savetrees → describetrees →contree(save to file) →save pict→bootstrap(save tree file) →print bootstrap tree→save pict. →stop log. PC版操作,可将附录批处理文件容粘贴至nex文件后面,execute即可。 2 Paup ML 流程:Mac 准备nex文件(interleave和noninterleave均可) → 存入新建文件夹→拖入paup或用paup打开→execute→从modeltest软件中打开paupblock运算检测模型→生成score file→打开modeltest中的bin读取score数据→生成结果文档→存档并打开此文档→AIC→将begin paup的运算模块贴至原nex数据文件后面→重新将其拖入paup运行→选择ML运算模式→hsearch→打印树图→save pict. →bootstrap. PC版操作,可将附录5批处理文件容粘贴至nex文件后面,execute即可。 3 Garli运算ML流程: 准备nex文件(interleave) → 存入新建文件夹→拖入paup或用paup打开→execute→输出noninterleave文档(若直接是noninterleave上述过程省略,又如果是PC机paup,无菜单操作,可在paup命令行中输入附录1*的命令回车即可生成noninterleave数据)。 使用noninterleave文档(数据中类群名称不得有单引号,空格,所有方括号中容删除)→新建文件夹存入→按照流程2进行modeltest→在苹果机上打开Garli→

自己总结的有关系统发育的各个分析方法

Mrbayes3.1 1、输入"filename.nex"文件:将生成的"filename.nex"文件放在Mrbayes同一目录下,打开Mrbayes,在Mrbayes> 后输入exe filename.nex。 2、设定模型和参数:输入lset nst=6 rates=invgamma,其中,lset是model set(模型设置)命令,nst=6即将替代模型设置为GTR(General Time Reversible普通时间可逆)模型,rates=invgamma是将位点间差异比率设为invgamma。 3、运算:输入mcmc ngen=10000 samplefreq=10,保证在后面的可能性分布中probability distribution至少取到1000个样品。默认取样频率:every 100th generation。如果分裂频率分支频率split frequencies的标准偏差standard deviation在100,000代generations以后低于0.01,当程序询问:“Continue the analysis? (yes/no)”,回答no;如果高于0.01,yes继续直到该值低于0.01。 4、结果查看:输入sump burnin=250(在此为1000个样品,即任何相当于你取样的25%的值),参数总结summarize the parameter,程序会输出一个关于样品(sample)的替代模型参数的总结表,包括mean,mode和95 % credibility interval of each parameter,要保证所有参数PSRF(the potential scale reduction factor)的值接近1.0,如果不接近,分析时间要延长。输入sumt burnin=250,即舍弃250个老化样本后对各进化树进行总结。程序会输出一个具有每一个分支的posterior probabilities的树以及一个具有平均枝长mean branch lengths的树。这些树会被保存在一个可以由treeview等读取的树文件中。 Modeltest3.7 1、将modelblockPAUPb10.txt全部粘贴到分析文件filename.nxe(记事本打开)后面,重命名为test.model.nex。 2、用PAUP打开test.model.nex,开始运算,生成两个文件(同一目录下),model.scores和modelfit.log。 2、将Modeltest3.7win.exe和分析文件model.scores放在同一目录下。(此前,可以先安装DOShere软件)在包括以上两文件的文件夹,右键,选择Command Prompt Here。 3、输入Modeltest3.7win.exe 4、输入Modeltest3.7win.exeoutfile,生成outfile文件。 5、记事本打开outfile文件,文件给出了两个最优模型。 Phyml_win32建ML树 1、将Phyml_win32.exe和分析文件filename.phy放在同一个文件夹下 2、打开Phyml_win32.exe,输入filename.phy 3、输入B,输入1000,即1000次重复 4、输入M,选择模型 5、输入Y,运算

系统发育树的构建练习

通过16s rDNA 研究认识青鳉属内部物种的系统发育关系 前言 青鳉分布在东亚及东南亚,包括中国大陆、日本、韩国、越南、缅甸、泰国、老挝、柬埔寨、台湾的淡水水域。本鱼每日产卵、胚胎透明、世代时间短、基因组小并已建立转基因技术[1]。这些作为实验动物的优势在近缘物种中都有体现,为比较方法提供了理想的条件。虽然青鳉已经引起生物学家的研究兴趣,并有青鳉的渗透调节[2]、免疫[3]和性选择[4]等不同领域研究报道,但是不同青鳉物种间系统发育关系仍有很多未解之谜[5]。 由于不同种的真细菌与古细菌间的16S rRNA基因(16S rDNA)是高度保守的[6],16S rDNA常被用于对各种生物进行的系统发生学方面的研究[7]这种运用16S rRNA 对生物进行系统发生学研究的方法由卡尔·沃斯(Carl Woese)开创[8]。故通过16s rDNA研究认识辐鳍亚纲(Actinopterygii)颌针鱼目(Beloniformes)异鳉科(Adrianichthyidae)青鳉属(Oryzias)内部11个物种的系统发育关系。 方法 从NCBI(https://https://www.sodocs.net/doc/8013419795.html,/)下载已经报道的青鳉属和花鳉科相关类群的16S rRNA基因序列,所选用的物种信息见表1。 表1 本研究所选青鳉属和花鳉科物种序列和地理分布 Table 1 Sequences and geographic distributions of the Oryzias and Poeciliidae species used in this study 物种序列编号序列长度/bp 采集点 Species Sequence number length/bp Collection site 深青鳉Oryzias profundicola AB188740.1 470 Indonesia:Sulawesi, Timampu, Lake Towuti 湄公河青鳉Oryzias mekongensis AB188736.1 475 Thailand:Nakhon Phanom 印尼青鳉Oryzias matanensis AB188734.1 470 Indonesia:Sulawesi, Soroako, Lake Matano 吕宋青鳉Oryzias luzonensis AB188732.1 471 Philippines:Ilocos Norte, Solsona 青鳉Oryzias latipes AB188731.1 471 China:Kunming 爪哇青鳉Oryzias javanicus AB188725.1 470 Indonesia 恒河青鳉Oryzias dancena AB188722.1 471 Thailand:Phuket 弓背青鳉Oryzias curvinotus AB188720.1 471 Viet Nam:Caudien near Hanoi 西里伯斯青鳉Oryzias celebensis AB188718.1 470 Indonesia:Sulawesi, Ujung Pandang 苏拉威西青鳉Oryzias sarasinorum AB188742.1 470 Indonesia:Sulawesi, Lake Lindu 花斑青鳉Oryzias marmoratus AB188733.1 470 Indonesia:Sulawesi, Timampu, Lake Towuti 剑尾鱼Xiphophorus helleri U80047.1 448 孔雀鱼Poecilia reticulata U80051.1 448 1.实验对象选择

贝叶斯法构建系统发育树

贝叶斯法构建系统发育树 1.打开PAUP软件,打开目标文件和primates文件,将目标文件修改成primates文件格式。 2. 用modeltest 3.7软件分析模型参数。 3. 打开mrbayes软件,文件输入。命令:>execute 文件名.nex 4. 设置参数,模型(上面modeltest3.7软件分析模型参数)。命令:>lset nst=6/2 rates =gamma/invgamma/propinv,若要检查模型的参数,输入命令showmodel。若设定lset nst=2,需输入命令report tratio=dirichlet。 3.1 >mcmc ngen=100000(1000000) (samplefreq=10(100)),注意:代数可以先设为10000,以便估计时间的长短。>help mcmc来确认设置。 3.2 运行结束前,标准误差要小于0.01,否则增加代数,继续运行 4.1 >sump burnin=250(2500);抽样的25%划为老化样本,舍去。PSRF值需约等于1.0,否则要运行更长时间。 4.2 >sumt burnin=250(2500),输出所得的进化树,可用treeview打开. Modeltest 3.7基本操作步骤(中文) Moedltest是进行似然法计算必须的软件之一,它可以帮助大家为所获数据选择最佳的模型进行计算,得到最优的结果。目前该软件的这里介绍一下Modeltest3.7的基本操作步骤: 1. 下载Modeltest3.7软件和模型文件modelblockPAUPb10.txt; 2. 将序列同源排序后保存为XXX.nex文件;全部拷贝到C盘。 3. 打开模型文件,将文件内容拷贝到XXX.nex文件的末尾,可以将该文件另存为XXX.test.model.nex,保留原来的*.nex文件;; 4. 打开PAUP4.0应用程序,将XXX.test.model.nex文件拖入PAUP窗口,然后在命令行输入:execute XXX.test.model.nex,回车后PAUP就开始对数据

相关主题