搜档网
当前位置:搜档网 › 构建系统发育树需要注意的几个问题

构建系统发育树需要注意的几个问题

构建系统发育树需要注意的几个问题
构建系统发育树需要注意的几个问题

构建系统发育树需要注意的几个问题

1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。

2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。

3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。

4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。

5 枝长可以用来表示类间的真实进化距离。

6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。

7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。

分子进化研究的基本方法

对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。

表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。

系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基

因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。

用于构建系统进化树的数据有二种类型:一种是特征数据(character data),它提供了基因、个体、群体或物种的信息;二是距离数据(distance data)或相似性数据(similarity data),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distance matrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。

一.clustal X建树

1) 打开clustal X,载入上述序列,“load sequences”→“output format options”:“CLASTAL FORMAT”; CLASTAL SEQUENCES NUMBERS:ON;

ALIGNMENT PARAMETERS:

“RESET NEW GAPS BEFOR ALIGNMENT”

“MULTIPLE ALIGNMENT PARAMETERS”→设置相关参数

2)“DO COMPLETE ALIGNMENT”→FILE→SA VE AS,掐头去尾。

3) 打开MEGA 4,FILE→CONVERT TO MEGA FORMATE→SA VE→FILE→OPEN DATA→CONTAINING PRO TAIN SEQUENCES NO →PHYLOGENY→BOOTSTRAP TEST OF PHYLOGENY→N J →设置相关参数。最后看到系统发育树

二.这里要介绍的是Bioedit-Mega建树法,简单实用,极易上手。

1 将所测得的序列在NCBI上进行比对,这个就不多讲了。

2 选取序列保存为text格式。

3 运行Bioedit,使用其中的CLUSTAL W进行比对。

4 运用MEGA 4 建树,首先将前面的文件转化格式为mega格式,然后进行激活,最后进行N-J建树。

此法简单实用,树形美观。

构建系统进化树的详细步骤

1. 建树前的准备工作

1.1 相似序列的获得——BLAST

BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。

这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。BLASTN结果如何分析(参数意义):

>gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence

Score = 2020 bits (1019), Expect = 0.0

Identities = 1382/1497 (92%), Gaps = 8/1497 (0%)

Strand = Plus / Plus

Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;Expect:比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect 小于1e-10,就比对很好了,多数情况下为0;

Identities:提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同;

Gaps:一般翻译成空位,指的是对不上的碱基数目;

Strand:链的方向,Plus / Minus意味着提交的序列和参比序列是反向互补的,如果是Plus / Plus则二者皆为正向。

1.2 序列格式:FASTA格式

由于EMBL和GenBank数据格式较为复杂,所以为了分析方便也出现了十分简单的FASTA数据格式。FASTA格式又称为Pearson格式,该种序列格式要求序列的标题行以大于号“>”开头,下一行起为具体的序列。一般建议每行的字符数不超过60或80个,以方便程序处理。多条核酸和蛋白质序列格式即将该格式连续列出即可,如下所示:

>E.coli 1 aaattgaaga gtttgatcat ggctcagatt gaacgctggc ggcaggccta acacatgcaa 61 gtcgaacggt aacaggaaga agcttgcttc tttgctgacg agtggcggac …… >AY631071 Jiangella gansuensis YIM 002 1 gacgaacgct ggcggcgtgc ttaacacatg caagtcgagc ggaaaggccc tttcgggggt 61 actcgagcgg cgaacgggtg agtaacacgt gggtaacctg ccttcagctc tgggataagc ……

其中的…>?为Clustal X默认的序列输入格式,必不可少。其后可以是种属名称,也可以是序列在Genbank中的登录号(Accession No.),自编号也可以,不过需要注意名字不能太长,一般由英文字母和数字组成,开首几个字母最好不要相同,因为有时Clustal X程序只默认前几位为该序列名称。回车换行后是序列。将检测序列和搜索到的同源序列以FASTA格式编辑成为一个文本文件(例:C:\temp\jc.txt),即可导入Clustal X等程序进行比对建树。

2. 构建系统树的相关软件和操作步骤

构建进化树的主要步骤是比对,建立取代模型,建立进化树以及进化树评估。鉴于以上对于构建系统树的评价,结合本实验室实际情况,以下主要介绍N-J Tree 构建的相关软件和操作步骤。

2.1 用Clustal X构建N-J系统树的过程

(1) 打开Clustal X程序,载入源文件. File-Load sequences- C:\temp\jc.txt.

(2) 序列比对

Alignment - Output format options - √ Clustal format;CLUSTALW sequence numbers: ON Alignment - Do complete alignment (Output Guide Tree file,

C:\temp\jc.dnd;Output Alignment file, C:\temp\jc.aln;) Align → waiting……

等待时间与序列长度、数量以及计算机配置有关。

(3) 掐头去尾

File-Save Sequence as…

Format: ⊙CLUSTAL

GDE output case: Lower

CLUSTALW sequence numbers: ON

Save from residue: 39 to 1504 (以前后最短序列为准)

Save sequence as: C:\temp\jc-a.aln

OK

将开始和末尾处长短不同的序列剪切整齐。这里,因为测序引物不尽相同,所以比对后序列参差不齐。一般来说,要“掐头去尾”,以避免因序列前后参差不齐而增加序列间的差异。剪切后的文件存为ALN格式。

(4) File-Load sequences-Replace existing sequences?-Yes- C:\temp\jc-a.aln

重新载入剪切后的序列。

(5) Trees-Output Format Options

Output Files : √ CLUSTAL format tree √ Phylip format tree √ Phylip distance matrix

Bootstrap labels on: NODE

CLOSE

Trees-Exclude positions with gaps

Trees-Bootstrap N-J Tree :

Random number generator seed(1-1000) : 111

Number of bootstrap trails(1-1000): 1000

SA VE CLUSTAL TREE AS: C:\temp\jc-a.njb

SA VE PHYLIP TREE AS: C:\temp\jc-a.njbphb

OK → waiting……

等待时间与序列长度、数量以及计算机配置有关。在此过程中,生成进化树文件*.njbphb,可以用TreeView打开查看。

(6) Trees-Draw N-J Trees

SA VE CLUSTAL TREE AS: C:\temp\jc-a.nj

SA VE PHYLIP TREE AS: C:\temp\jc-a.njph

SA VE DISTANCE MATRIX AS: C:\temp\jc-a.njphdst

OK

此过程中生成的报告文件*.nj比较有用,里面列出了比对序列两两之间的相似度,以及转换和颠换分别各占多少。

(7) TreeView

File-Open-C:\temp\jc-a.njbphb

Tree- phylogram(unrooted, slanted cladogram,Rectangular cladogram多种树型) Tree-Show internal edge labels (Bootstrap value)(显示数值)

Tree- Define outgroup… → ingroup >> outgroup → OK(定义外群)

Tree- Root with outgroup

通常需要对进化树进行编辑,这时首先要Edit-Copy至PowerPoint上,然后Copy至Word上,再进行图片编辑。如果直接Copy至Word则显示乱码,而进化树不能正确显示。

2.2 Mega建树

虽然Clustal X可以构建系统树,但是结果比较粗放,现在一般很少用它构树,Mega因为操作简单,结果美观,很多研究者选择用它来建树。

(1) 首先用Clustal X进行序列比对,剪切后生成C:\temp\jc-a.aln文件;(同上)

(2) 打开BioEdit程序,将目标文件格式转化为FASTA格式,

File-Open- C:\temp\jc-a.aln,

File-Save As- C:\temp\ jc-b.fas;

(3) 打开Mega程序,转化为mega格式并激活目标文件,

File-Convert To MEGA Format- C:\temp\ jc-b.fas → C:\temp\ jc-b.meg,

关闭Text Editor窗口-(Do you want to save your changes before closing?-Yes);

Click me to activate a data file- C:\temp\jc-b.meg-OK- (Protein-coding nucleotide sequence data?-No);

Phylogeny-Neighbor-Joining(NJ)

Distance Options-Models-Nucleotide: Kimura 2-parameter;

√d: Transitions+Transversions;

Include Sites-⊙Pairwise Deletion

Test of Phylogeny-⊙Bootstrap; Replications 1000; Random Seed 64238

OK;

开始计算-得到结果;

(4) Image-Copy to Clipboard-粘贴至Word文档进行编辑。

此外,Subtree中提供了多个命令可以对生成的进化树进行编辑,Mega窗口左侧提供了很多快捷键方便使用;View中则给出了多个树型的模式。下面只介绍几种最常用的:

Subtree-Swap:任意相邻两个分支互换位置;

-Flip:所选分支翻转180度;

-Compress/Expand:合并/展开多个分支;

-Root:定义外群;

View-Topology:只显示树的拓扑结构;

-Tree/Branch Style:多种树型转换;

-Options:关于树的诸多方面的改动。

2.3 TREECON

打开Clustal X,File-Load sequences-jc-a.aln,File-Save Sequence as…(Format-PHYLIP;Save from residue-1 to 末尾;Save sequence as : C:\temp\jc.phy);

打开TREECON程序,

(1)Distance estimation 点击Distance estimation-Start distance estimation,打

开上面保存的jc.phy文件,Sequence Type-Nuleic Acid Sequence,Sequence format-PHYLIP interleaved,Select ALL,OK;

Distance Estimation-Jukes&Cantor(or Kimura),Alignment positions-All,Bootstrap analysis-Yes,Insertions&Deletions-Not taken into account,OK;

Bootstrap samples-1000,OK;运算,等待……

Finished-OK。

(2)Infer tree topology

点击Infer tree topology-Start inferring tree topology,

Method-Neighbor-joining, Bootstrap analysis-Yes,OK.;运算,等待……

Finished-OK。

(3)Root unrooted trees 点击Root unrooted trees-Start rooting unrooted trees,

Outgroup opition-single sequence(forced),Bootstrap analysis-Yes,OK;

Select Root-X89947,OK;运算,等待……

Finished-OK。

(4)Draw phylogenetic tree

点击Draw phylogenetic tree,File-Open-(new) tree,Show-Bootstrap values/

Distance scale。File-Copy,粘贴至Word文档,编辑。

TREECON的操作过程看起来似乎较MEGA烦琐,且运算速度明显不及

MEGA,如果参数选择一样,用它构建出来的系统树几乎和MEGA构建

的完全一样,只在细节上,比如Bootstrap值二者在某些分支稍有不同。

在参数选择方面,TREECON和MEGA也有些不同,但总体上相差不大。

2.4 PHYLIP

PHYLIP是多个软件的压缩包,下载后双击则自动解压。当你解压后就

会发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:i,DNA

和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离

数据分析的软件。iii,对基因频率和连续的元素分析的软件。iv,把序

列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对

序列进行分析的软件。v,按照DOLLO简约性算法对序列进行分析的软

件。vi,绘制和修改进化树的软件。在此,主要对DNA序列分析和构建

系统树的功能软件进行说明。

(1)生成PHY格式文件

首先用Clustal X等软件打开剪切后的序列文件C:\temp\jc-a.aln另存为C:\temp\jc.phy(使用File-Save Sequences As命令,Format项选“PHY”)。用BioEdit或记事本打开(2) 打开Phylip软件包里的SEQBOOT

seqboot.exe: can't find input file "infile"

Please enter a new file name> C:\temp\jc.phy

按路径输入刚才生成的*.PHY文件,显示如下:Bootstrapping algorithm, version 3.6a3

Settings for this run:

D Sequence, Morph, Rest., Gene Freqs? Molecular sequences J Bootstrap, Jackknife, Permute, Rewrite? Bootstrap

B Block size for block-bootstrapping? 1 R How many replicates? 100

W Read weights of characters? No

C Read categories of sites? No

F Write out data sets or just weights? Data sets

I Input sequences interleaved? Yes

0 Terminal type none

1 Print out the data at start of run No

2 Print indications of progress of run Yes

Y to accept these of type the letter for one to change

R

Number of replicates?

1000

Settings for this run:

D Sequence, Morph, Rest., Gene Freqs? Molecular sequences J Bootstrap, Jackknife, Permute, Rewrite? Bootstrap

B Block size for block-bootstrapping? 1 R How many replicates? 1000

W Read weights of characters? No

C Read categories of sites? No

F Write out data sets or just weights? Data sets

I Input sequences interleaved? Yes

0 Terminal type IBM PC

1 Print out the data at start of run No

2 Print indications of progress of run Yes

Y to accept these of type the letter for one to change

Y

Random number seed (must be odd)?

5(any odd number)

completed replicate number 100

completed replicate number 200

completed replicate number 300

completed replicate number 400

completed replicate number 500

completed replicate number 600

completed replicate number 700

completed replicate number 800

completed replicate number 900

completed replicate number 1000

上面的D、J、R、I、O、1、2代表可选择的选项,键入这些字母后敲回车键,程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。R选项让使用者输入republicate的数目。所谓republicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate。当我们设置好条件后,键入Y按回车。得到一个文件outfile:C:\Program Files\Phylip\exe\ outfile.

重命名outfile→infile。

(2)打开dnadist.exe

Nucleic acid sequence Distance Matrix program, version 3.6a3

Settings for this run:

D Distance ? F84

G Gamma distributed rates across sites? No

T Transition/transversion ratio? 2.0

C One category of substitution rates? Yes

W Use weights for sites? No

F Use emperical base frequencies? Yes

L Form of distance matrix? Square

M Analyze multiple data sets? No

I Input sequences interleaved? Yes

0 Terminal type ?

1 Print out the data at start of run No

2 Print indications of progress of run Yes

Y to accept these of type the letter for one to change

d

D Distance ? Kimura 2-parameter m

Multiple data sets or multiple weighs? (type D or W)

d

How many data sets?

1000

Settings for this run:

D Distance ? Kimura 2-parameter G Gamma distributed rates across sites? No

T Transition/transversion ratio? 2.0

C One category of substitution rates? Yes

W Use weights for sites? No

F Use emperical base frequencies? Yes

L Form of distance matrix? Square

M Analyze multiple data sets? Yes, 1000 data sets

I Input sequences interleaved? Yes

0 Terminal type ? IBM PC

1 Print out the data at start of run No

2 Print indications of progress of run Yes

Y to accept these of type the letter for one to change

Y

选项D有四种距离模式可以选择,分别是Kimura 2-parameter、Jin/Nei、Maximum-likelihood和Jukes-Cantor。选项T一般键入一个1.5-3.0之间的数字。选项M键入1000。运行后生成文件C:\Program Files\Phylip\exe\ outfile。

重命名outfile→infile。

(3)打开neighbor.exe

Neighbor-Joining/UPGMA method version 3.6a3

Settings for this run:

N Neighbor-Joining or UPGMA tree? Neighbor-Joining

O Outgroup root? No, Use as outgroup species 1

L Lower-triangular data metrix? No

R Upper-triangular data metrix? No

S Subreplication? No

J Randomize input order of species? No, Use input order

M Analyze multiple data sets? No

0 Terminal type ?

1 Print out the data at start of run No

2 Print indications of progress of run Yes

3 Print out tree Yes

4 Write out trees onto tree file? Yes

Y to accept these of type the letter for one to change

m

How many data sets?

1000

Random number seed (must be odd)?

5

Settings for this run:

N Neighbor-Joining or UPGMA tree? Neighbor-Joining

O Outgroup root? No, Use as outgroup species 1

L Lower-triangular data metrix? No

R Upper-triangular data metrix? No

S Subreplication? No

J Randomize input order of species? Yes M Analyze multiple data sets? Yes, 1000 sets

0 Terminal type ? IBM PC

1 Print out the data at start of run No

2 Print indications of progress of run Yes

3 Print out tree Yes

4 Write out trees onto tree file? Yes

Y to accept these of type the letter for one to change

Y

生成文件C:\Program Files\Phylip\exe\ outtree&outfile。

重命名outtree→intree;outfile→infile。

2.4.5打开consense.exe

Consensus tree program, version 3.6a3

Settings for this run:

C Consensus type ? Majority rule (extended) O Outgroop root? No, use as outgroup species 1

R Trees to be treated as Rooted? No

T Terminal type ?

1 Print out the sets of the species Yes

2 Print indications of progress of run Yes

3 Print out tree Yes

4 Write out trees onto tree file? Yes

Are these settings correct? R

T

Settings for this run:

C Consensus type ? Majority rule (extended) R Trees to be treated as Rooted? Yes

T Terminal type ? IBM PC

1 Print out the sets of the species Yes

2 Print indications of progress of run Yes

3 Print out tree Yes

4 Write out trees onto tree file? Yes

Y

生成文件C:\Program Files\Phylip\exe\ outtree。

重命名outtree→ jc.tre。

2.4.6打开TreeView

打开C:\Program Files\Phylip\exe\ jc.tre。以下操作参照前述详细说明即可。

系统发育树构建步骤

如何建树 step 1. 将16S rDNA序列在NCBI上进行BLAST比对(https://www.sodocs.net/doc/044738453.html,/BLAST/) BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990 [62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。BLASTN结果如何分析(参数意义): 例如: >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 其中,Score指的是提交的序列和搜索出的序列之间的分值,越高说明越相似。Expect指的是比对的期望值。比对越好,expect越小,一般在核酸层次的比对,expect小于1e-10,就比对很好了,多数情况下为0。Identities指的是提交的序列和参比序列的相似性,如上所指为1497个核苷酸中二者有1382个相同。Gaps指的是一般翻译成空位,指的是对不上的碱基数目。Strand指的是链的方向,Plus / Minus意味着提交的序列和参比序列是反向互补的,如果是Plus / Plus则二者皆为正向。 挑选与目的菌株具有较近亲源关系的模式种(type strain)序列将这些序列用记事本保存成dna.seq文件。 >M.mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT >M.fascicularis AAGCTTCTCC GGCGCAACCA CCCTTA TAA T step 2. 用CLUSTALX对已知DNA序列做多序列比对 1 双击clustalx.exe运行程序。 2 点File→Load Sequence,打开dna.seq。

构建进化树方法比较

【转载】分子进化树构建及数据分析的简介 分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf [1] lylover. Email: lylover_2005@https://www.sodocs.net/doc/044738453.html, 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类:1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint 进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

构建系统发育树需要注意的几个问题

构建系统发育树需要注意的几个问题 1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。 3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基

分子进化与系统进化树的构建

分子进化与系统进化树的构建 分子进化与系统进化树的构建 分子进化与系统进化树的构建 主要内容: 1、分子进化的研究方法 2、系统进化树的构建方法 3、系统进化树构建常用软件汇集 4、系统进化树构建方法及软件的选择 5、Phylip分子进化分析软件包简介及使用 6、如何利用MEGA3.1构建进化树 声明: 1、本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于基因酷及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请Email genecool@https://www.sodocs.net/doc/044738453.html,告知。 2、由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛(https://www.sodocs.net/doc/044738453.html,/bbs)本篇对应的专题跟贴指出或Email genecool@https://www.sodocs.net/doc/044738453.html,。 致谢: 整编者:flashhyh 主要参考资料:《生物信息学札记》樊龙江;《分子进化分析与相关软件的应用》作者不详;《进化树构建》ZHAO Yangguo;《如何用MEGA 3.1构建进化树》作者不详;《MEGA3指南》作者不详; 分子进化的研究方法 分子进化的研究方法 分子进化的研究方法 分子进化研究的意义 自20世纪中叶,随着分子生物学的不断发展,进化研究也进入了分子进化(molecularevolution)研究水平,并建立了一套依赖于核酸、蛋白质序列信息的理论和方法。随着基因组测序计划的实施,基因组的巨量信息对若干生物领域重大问题的研究提

供了有力的帮助,分子进化研究再次成为生命科学中最引人注目的领域之一。这些重大问题包括:遗传密码的起源、基因组结构的形成与演化、进化的动力、生物进化等等。分子进化研究目前更多地是集中在分子序列上,但随着越来越多生物基因组的测序完成,从基因组水平上探索进化奥秘,将开创进化研究的新天地。 分子进化研究最根本的目的就是从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过核酸、蛋白质序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。 分子进化研究的基础 假设假设::核苷酸和氨基酸序列中含有生物进化历史的全部信息核苷酸和氨基酸序列中含有生物进化历史的全部信息。。 分子钟理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。如下图: 直系同源与旁系同源 直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的; 旁系同源(paralogs):同源的基因是由于基因复制产生的。 两者之间的关系如下图所示: 注:用于分子进化分析中的序列必须是直系同源的用于分子进化分析中的序列必须是直系同源的 用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath 和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称. 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。下图表示了

如何构建系统发育树

如何构建系统发育树 Bioinformatics2009-11-03 10:45 阅读159 评论0 字号:大中小小 (2009-06-11 22:44:13) 标签:系统发育树构建系统发育树分子生物学发育分析it 转自丁香园 构建系统发育树需要注意的几个问题 1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。 3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一棵系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样,来检测他们统计上的重要性。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称. 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。 用于构建系统进化树的数据有二种类型:一种是特征数据(characterdata),它提供了基因、个体、群体或物种的信息;二是距离数据(distancedata)或相似性数据(similaritydata),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distancematrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。 一1) 打开clustal X,载入上述序列,“load sequences”→“output format options”: “CLASTAL FORMA T”;CLASTAL SEQUENCES NUMBERS:ON; ALIGNMENT PARAMETERS: “RESET NEW GAPS BEFOR ALIGNMENT” “MULTIPLE ALIGNMENT PARAMETERS”→设置相关参数 2) “DO COMPLETE ALIGNMENT”→FILE→SA VE AS,掐头去尾。 3) 打开MEGA4,FILE→CONVERT TO MEGA FORMA TE→SA VE→FILE→OPEN DA TA→CONTAINING PROTAIN SEQUENCES? NO →PHYLOGENY→BOOTSTRAP TEST OF PHYLOGENY→N J → 设置相关参数。最后看到系统发育树 二这里要介绍的是Bioedit-Mega建树法,简单实用,极易上手。 1 将所测得的序列在NCBI上进行比对,这个就不多讲了。 2 选取序列保存为text格式。 3 运行Bioedit,使用其中的CLUSTAL W进行比对。 4 运用MEGA 4 建树,首先将前面的文件转化格式为mega格式,然后进行激活,最后进行N-J建树。

系统发育树构建方法优劣

1.邻接法邻接法(neighbor-joiningmethod,NJ)由Saitou和Nei(1987)提出,NJ法是基于最小进化原理经常被使用的一种算法,它不检验所有可能的拓扑结构,能同时给出拓扑结构和分支长度。在重建系统发生树时,它取消了UPGMA法所做的假定,认为在进化分支上,发生趋异的次数可以不同。最近的计算机模拟已表明它是最有效的基于距离数据重建系统树的方法之一。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。它的特点是重建的树相对准确,假设少,计算速度快,只得一棵树。其缺点主要表现在将序列上的所有位点等同对待,且所分析序列的进化距离不能太大。故NJ法适用于进化距离不大,信息位点少的短序列。邻接法在距离建树中经常会用到,而不用理会使用什么样的优化标准。完全解析出的进化树是通过对完全没有解析出的“星型”进化树进行“分解”得到的,分解的步骤是连续不断地在最接近(实际上是最孤立的)的序列对中插入树枝,而保留进化树的终端。于是,最接近的序列对被巩固了,而“星型”进化树被改善了,这个过程将不断重复。这个方法相对而言很快,也就是说,对于一个50个序列的进化树,只需要若干秒甚至更少。 2.最大简约法最大简约法(maximum parsimony method,MP)最早是基于形态特征分类的需要发展起来的,具体的算法有许多不同版本,其中有些已被广泛地应用于分子进化研究中。利用MP方法重建系统发生树,实际上是一个对给定OTUs其所有可能的树进行比较的过程。对某一个可能的树,首先对每个位点祖先序列的核苷酸组成做出推断,然后统计每个位点用来阐明差异的核苷酸最小替换数目。在整个树中,所有信息简约位点最小核苷酸替换数的总和称为树的长度(常青和周开亚,1998)。MP法是一种优化标准,这种标准遵循“奥卡姆剃刀原则(Occam’S Razor principle)”:对数据最好的解释也是最简单的,而最简单的所需要的特别假定也最少。MP法基于进化过程中所需核苷酸(或氨基酸)替代数目最少的假说,对所有可能正确的拓扑结构进行计算并挑选出所需替代数最小的拓扑结构作为最优系统树,也就是通过比较所有可能树,选择其中长度最小的树作为最终的系统发生树,即最大简约树(maximum parsimony tree)。与其他建树方法相比,MP法无需引入处理核苷酸或者氨基酸替代时所必需的假设(替代模型)。同时,MP法对于分析某些特殊的分子数据(如插入序列和插入/缺失)有用。在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,MP法能够获得正确的(真实)系统树。但MP法推导的树不是唯一的,在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会出现建树错误。故MP法适用于序列残基差别小,具有近似变异率,包含信息位点比较多的长序列。 3.最大似然法最大似然法(maximum likelihood method,MI。)是20世纪60年代末期由于对地生物信息学分析实践震波和水声信号等处理的需要而发展起来的一种非线性谱估计方法。最早由凯佩用这种方法对空间阵列接收信号进行频率波数谱估值,后来推广到对时问信号序列的功率谱估值。 最大似然法最早应用于系统发育分析是在对基因频率数据的分析上。其原理是考虑到每个位点出现残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。MI。法对所有可能的系统发育树都计算似然函数,似然函数值最大的那棵树即为最可能的系统发育树。利用最大似然法来推断一组序列的系统发生树,需首先确定序列进化的模型,如Jukes—Cantor模型、Kimura二参数模型及一般二参数模型等。在进化模型选择合理的情况下,MI。法是与进化事实吻合最好的建树算法。其缺点是计算强度非常大,极为耗时。

构建系统进化树的方法步骤

构建系统进化树的方法步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;

构建系统进化树的详细步骤

构建系统进化树的详细步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意 为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心 都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序 列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。它 们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明 行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是 任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就 可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus

MEGA构建系统进化树的步骤(以MEGA7为例)

MEGA构建系统进化树的步骤(以MEGA7为例) 本文是看中国慕课山东大学生物信息学课程总结出来的 分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA 序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。 2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),弹出窗口询问“Nothing selected for alignment,Select all?”选择“OK”。 4. 之后,弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。MEGA的所有默认参数都是经过反复考量设置的,这保证了MEGA傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别要求的时候,直接点击“OK”,接受这些默认参数,开始多序列比对。

系统发育树构建方法研究_冯思玲

中图分类号:TP39 文献标识码:A 文章编号:1009-2552(2009)06-0038-03 系统发育树构建方法研究 冯思玲 (海南大学信息科学技术学院,海口570228) 摘 要:系统发育树的构建与分析是生物信息学中的一个重要分支。研究系统发育树可以重建祖先序列和估计分歧时间。对构建系统发育树的四种方法进行概述,主要包括基于距离的方法,简约法(MP),最大似然法(ML)和贝叶斯树估计方法。并对基于这些方法的软件进行简要介绍,最后对系统发育树构建技术中的难点问题进行分析。 关键词:系统发育树;基于距离方法;简约法;最大似然法;贝叶斯树估计方法Research on method of the construction of phylogenetic trees FENG Si ling (School of Information Science&Technology,Hainan University,Haikou570228,China) Abstract:The construction and analysis of phylogenetic trees is an important part in bioinformatics.The main objectives of studying the construction of phylogenetic trees can reconstruct ancestors sequences and estimate the time of divergence.The four methods about construc ting phylogenetic trees are described,which are based on distance method,parsimony method,maximum likelihood methods and Bayesian tree estimate methods. The software package based on these methods is briefly introduced,at last the difficult points about tree building techniques are analyzed. Key words:phylogenetic trees;distance based methods;parsimony method;maximum likelihood methods; Bayesian tree estimate methods 0 引言 系统发育树也称系统进化树(phylogenetic tree),它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系,通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列,蛋白质序列,蛋白质结构等来构建系统发育树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列 性状;估计来自于同一个祖先的不同生物之间的分歧时间;识别和疾病关联的突变等。近些年随着基因数据的爆炸增长,系统发育树的构建越来越流行。基于分子的进化研究已经应用到许多方面,如基因进化,物群划分,交配系统,父亲身份测试,环境监视以及已经转移物种的疾病源的研究等。 从数学的观点看,系统发育树是一颗树叶有标签的有根二叉树,根表示祖先序列。系统发育树主要是它的拓扑结构和分支长度。分支长度表示突变的时间。拓扑表示树的分支模式,有N个叶子可生成无根树的数目根据Schroder公式有(2N-5)!!,对每个无根树有(2N-3)种可能的分枝。因此,有根树的树目是(2N-3)(2N-5)!!=(2N-3)!![1]。 系统发育树的叶子在生物上称作操作分类单元OTU(operational taxonomic units),OTU代表构建的系谱的不同生物。构建系统发育树所用的数据用矩阵X N K表示,N表示氨基酸或核苷酸的序列数,即有N个叶子的树。K表示序列的字符数(列数)。构建树分析主要有二步:第一步用X N K矩阵产生树 T并 收稿日期:2009-03-06 基金项目:海南省自然科学基金项目(80637);海南大学校科研基金项目(kyjj0609) 作者简介:冯思玲(1973-),女,讲师,硕士,研究方向为生物信息学算法研究。 38

系统发育树的构建练习

通过16s rDNA 研究认识青鳉属内部物种的系统发育关系 前言 青鳉分布在东亚及东南亚,包括中国大陆、日本、韩国、越南、缅甸、泰国、老挝、柬埔寨、台湾的淡水水域。本鱼每日产卵、胚胎透明、世代时间短、基因组小并已建立转基因技术[1]。这些作为实验动物的优势在近缘物种中都有体现,为比较方法提供了理想的条件。虽然青鳉已经引起生物学家的研究兴趣,并有青鳉的渗透调节[2]、免疫[3]和性选择[4]等不同领域研究报道,但是不同青鳉物种间系统发育关系仍有很多未解之谜[5]。 由于不同种的真细菌与古细菌间的16S rRNA基因(16S rDNA)是高度保守的[6],16S rDNA常被用于对各种生物进行的系统发生学方面的研究[7]这种运用16S rRNA 对生物进行系统发生学研究的方法由卡尔·沃斯(Carl Woese)开创[8]。故通过16s rDNA研究认识辐鳍亚纲(Actinopterygii)颌针鱼目(Beloniformes)异鳉科(Adrianichthyidae)青鳉属(Oryzias)内部11个物种的系统发育关系。 方法 从NCBI(https://https://www.sodocs.net/doc/044738453.html,/)下载已经报道的青鳉属和花鳉科相关类群的16S rRNA基因序列,所选用的物种信息见表1。 表1 本研究所选青鳉属和花鳉科物种序列和地理分布 Table 1 Sequences and geographic distributions of the Oryzias and Poeciliidae species used in this study 物种序列编号序列长度/bp 采集点 Species Sequence number length/bp Collection site 深青鳉Oryzias profundicola AB188740.1 470 Indonesia:Sulawesi, Timampu, Lake Towuti 湄公河青鳉Oryzias mekongensis AB188736.1 475 Thailand:Nakhon Phanom 印尼青鳉Oryzias matanensis AB188734.1 470 Indonesia:Sulawesi, Soroako, Lake Matano 吕宋青鳉Oryzias luzonensis AB188732.1 471 Philippines:Ilocos Norte, Solsona 青鳉Oryzias latipes AB188731.1 471 China:Kunming 爪哇青鳉Oryzias javanicus AB188725.1 470 Indonesia 恒河青鳉Oryzias dancena AB188722.1 471 Thailand:Phuket 弓背青鳉Oryzias curvinotus AB188720.1 471 Viet Nam:Caudien near Hanoi 西里伯斯青鳉Oryzias celebensis AB188718.1 470 Indonesia:Sulawesi, Ujung Pandang 苏拉威西青鳉Oryzias sarasinorum AB188742.1 470 Indonesia:Sulawesi, Lake Lindu 花斑青鳉Oryzias marmoratus AB188733.1 470 Indonesia:Sulawesi, Timampu, Lake Towuti 剑尾鱼Xiphophorus helleri U80047.1 448 孔雀鱼Poecilia reticulata U80051.1 448 1.实验对象选择

贝叶斯法构建系统发育树

贝叶斯法构建系统发育树 1.打开PAUP软件,打开目标文件和primates文件,将目标文件修改成primates文件格式。 2. 用modeltest 3.7软件分析模型参数。 3. 打开mrbayes软件,文件输入。命令:>execute 文件名.nex 4. 设置参数,模型(上面modeltest3.7软件分析模型参数)。命令:>lset nst=6/2 rates =gamma/invgamma/propinv,若要检查模型的参数,输入命令showmodel。若设定lset nst=2,需输入命令report tratio=dirichlet。 3.1 >mcmc ngen=100000(1000000) (samplefreq=10(100)),注意:代数可以先设为10000,以便估计时间的长短。>help mcmc来确认设置。 3.2 运行结束前,标准误差要小于0.01,否则增加代数,继续运行 4.1 >sump burnin=250(2500);抽样的25%划为老化样本,舍去。PSRF值需约等于1.0,否则要运行更长时间。 4.2 >sumt burnin=250(2500),输出所得的进化树,可用treeview打开. Modeltest 3.7基本操作步骤(中文) Moedltest是进行似然法计算必须的软件之一,它可以帮助大家为所获数据选择最佳的模型进行计算,得到最优的结果。目前该软件的这里介绍一下Modeltest3.7的基本操作步骤: 1. 下载Modeltest3.7软件和模型文件modelblockPAUPb10.txt; 2. 将序列同源排序后保存为XXX.nex文件;全部拷贝到C盘。 3. 打开模型文件,将文件内容拷贝到XXX.nex文件的末尾,可以将该文件另存为XXX.test.model.nex,保留原来的*.nex文件;; 4. 打开PAUP4.0应用程序,将XXX.test.model.nex文件拖入PAUP窗口,然后在命令行输入:execute XXX.test.model.nex,回车后PAUP就开始对数据

构建系统发育树详细步骤

EzTaxon server 2.1网站用来比对产生的序列都是模式菌株,而且同源性适合建树,用NCBI网站比对的话一方面是得到的往往都是同源性99%以上的序列,而且筛选和下载序列操作繁琐。 这里用到的网址都能打开,用到的软件都很容易下载,建树方法具体如下:打开http://147.47.212.35:8080/index.jsp网站用邮箱注册后点击Identify,按说明将自己的菌种16S rDNA序列添加在框内,提交查询内容,点击UserSeq后出现比对后的序列,包含了比对分数,菌种编号及NCBI登录号等信息,点击View all Seq,复制包括你的部分在内的序列(20条左右即可)保存在txt文件中,txt后缀名更为fasta; 使用MEGA(MEGA 5.1为例)软件将fasta格式文件打开,点击align/edit build alignment/retrieve sequences from a file,打开fasta文件,点击alignment/align by clustalW,选择默认参数后开始比对,比对运行中需要两分钟的时间,得到的结果鼠标选中不对齐部分把多余的头尾部分剪切后使各序列大小对齐,然后保存文件为meg格式,点击phylogency建树,建树常用Neighbour-Joining法,设置参数时test of Phylogeny选择Bootstrap method,model/method选择Kimura 2-parameter model,建树后生成bootstrap consensus tree和original tree都能用,后者更常用。 在菜单栏中选择image/copy to clipboard,复制当前图片在新建的PPT文件(office 2007为例)中打开,右键选择组合/取消组合,然后可以编辑图片中的文字了,字体中表示菌体种属的拉丁文部分要斜体表示,后面可以带上该菌在NCBI 上的登录号。复制修改完成后的图片到photoshop(photoshop 4S为例)或其他能选择图片格式和更改图像大小的软件,将图片另存为jpg或gif格式都行,这样的图片足够用于文章发表。 ——西施弄月于广西大学原创首发 2013-4-22

图文详解MEGA 5构建系统发育树

图文详解MEGA5构建系统发育树 标签:mega mega5构建系统进化树||分类:BioInfo 来源:https://www.sodocs.net/doc/044738453.html,/s/blog_5eb2fefb0101gny0.html 软件下载:MEGA5;DNAMAN7 1.准备序列文件 准备fasta格式序列文件(fasta格式:大于号>后紧跟序列名,换行后是序列。举例如下)。每条序列可以单独为一个文件,也可以把所有序列放在同一文件内。 核酸序列: >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列: >sequence2_name MQSPINSFKKALAEGRTQIGF 2.多序列比对 打开MEGA5,点击Align,选择Edit/Build Alignment,选择Create a new alignment,点击OK。 这时需要选择序列类型,核酸(DNA)或氨基酸(Protein)。 选择之后,在弹出的窗口中直接Ctrl+V粘贴序列(如果所有序列 在同一个文件中,即可全选序列,复制)。也可以:点击Edit,选 择Insert Sequence From File,选择序列文件(可多选)。

序列文件加载之后,呈蓝色背景(为选中状态)。点击按钮,选择Align DNA(如果是氨基酸序列,则会出现Align Protein)。弹出的窗口中设置比对参数,一般都是采用默认参数即可。点击OK,开始多序列比对。 比对完成后,呈现以下状态。 这时需要截齐两端含有---的序列:选中含有---的序列,按键Delete删除(注意:两端都需要截齐)。截齐之后,保存文件为:filename.mas

相关主题