搜档网
当前位置:搜档网 › 基因序列分析软件DNAStar简介

基因序列分析软件DNAStar简介

基因序列分析软件DNAStar简介
基因序列分析软件DNAStar简介

生物信息

基因序列分析软件DNAStar简介

郑伟文,林营志,刘波,曹宜,苏明星,朱育菁,蓝江林,车建美,郑斯平,陈坚

(福建省农科院生物技术中心)

1.设计公司

Sequence Analysis Software for Macintosh and Windows,GETTING STARTED,Introductory Tour of the LASERGENE System,MAY 2001,L A S E R G E N E f o r W i n d o w s & M a c i n t o s h,DNASTAR, Inc.,1228 South Park Street,Madison, Wisconsin 53715,(608) 258-7420,Copyright . 2001 by DNASTAR, Inc.,All rights reserved. Reproduction, adaptation, or translation without prior written permission is,prohibited,except as allowed under the copyright laws or with the permission of DNASTAR, Inc.,Sixth Edition, May 2001,Printed in Madison, Wisconsin, USA,Trademark Information。

2.应用程序

在安装Lasergene网络系统之前要熟悉以下术语:应用程序:指EditSeq, GeneMan, GeneQuest, MapDraw,MegAlign, PrimerSelect, Protean, and SeqMan II。应用程序服务器:是指存储应用程序的电脑,通常与dongle 服务,器是同一个服务器,但也可以不同,当在局部硬盘上安装网络程序,时,也可以在同一个网络系统中同时存在多个不同的应用程序服务,器,而且应用程序服务器不一定是苹果机,储存应用程序的机器也不一定必须能够运行该程序,仅仅是储存而已。

3.安装方式

3.1通过英特网升级

如果您以前已经安装了Lasergene 而且目前有升级和服务联系,您就可以通过英特网来升级您现有的版本,各种模块(module)都是以自解压形式存储的,你可以选择性的下载安装。

必备条件您的用户名和会员号是必需的,可以在安装盘上找到。

3.2程序升级

备份您已有的Lasergene,找到您要升级的执行程序,并把它转移到备份的文件夹中。连接到DNAstar 网站的主页(https://www.sodocs.net/doc/4314662586.html,),从菜单中的Customers中点击Lasergene Updates点,安提示输入密码和用户名(与会员名相同),这样就会打开下载页面。找到windows软件(Windows 95/98/NT Software.),就可以下载您想要的模块了。模块下载完毕以后,双击文件将其解压缩完毕。

看到“Application name”has been updated.说明升级完毕。

3.3软件安装

从CD在PC机(Windows)上安装Lasergene。注意安装是尽量关闭所有其它程序以保证安装顺利进行。必备条件,一张个人的Lasergene安装盘;一张Lasergene软件光碟;足够的硬盘空间和内存:至少30Mb的硬盘,32Mb的RAM。从光盘安装Lasergene,插入安装盘和安装光盘,双击安装图标,则出现下面的窗口,点击继续,则出现安装窗口。随后一次出现下面窗口,请按照提示做出选择然后点击Next,直至完成安装(图1)。

图1 软件安装

基因序列编辑软件EditSeq的使用技术

刘波,郑伟文,林营志,曹宜,苏明星,朱育菁,蓝江林,车建美,郑斯平,陈坚

(福建省农科院生物技术中心)

1.EditSeq功能简介

EditSeq 是能够迅速、正确地输入,并且修改DNA 或蛋白质序列工具。每个EditSeq 文件都可以分为三个可编辑的部分,上边的一部分为序列文件,中间的一部分里是评论,底部是序列的注释。EditSeq 能读取大部分的序列格式——包括FASTA,GenBank,ABI、GCG 和ASCII 格式。你可以使用菜单命令或拖拽方式输入序列文件。另外,序列也许通过使用键盘输入,或者从其他地方复制、粘贴得到。经Entrez 或BLAST 检索得到的序列可以直接从因特网或企业内部互联网服务器下载。序列被打开后,EditSeq 能使用标准或者指定的遗传密码进行翻译,或者反翻译,寻找开放读框,还可以进行阅读校对。另外, EditSeq 能以GenBank,FASTA 和GCG 格式输出序列。如果在使用这软件中需要帮助,可以和DNASTAR 联络。电话:(608)258-7420,传真:(608)258-7439,电子信件:support@https://www.sodocs.net/doc/4314662586.html,,或者经https://www.sodocs.net/doc/4314662586.html,。2.打开已有序列

用Windows 打开“tethis21.seq”开始?假设序列的末尾有载体序列污染?我们在用EditSeq 打开序列的同时,用Set Ends 命令去除5’和3’污染序列?从文件菜单(FILE MENU),选择Open?打开文件夹“Demo Sequences”单击选定序列“TETHIS21”?单击位于对话框右下角的Set Ends 按钮?Set Ends 被打开(如右)?在5’框和3’框中键入50 和850,点击OK?单击Open 打开序列?当EditSeq 窗口打开时,序列长度显示在右上角?通过“setting ends,”现在你只有最初序列中的801 bp 的片段?Set Ends 选择在全部Lasergene 应用程序中都可以使用(图1)。

图1 选择Open?打开文件夹“Demo Sequences”单击选定序列“TETHIS21”

3.寻找开放读框

在这入门的一部分中,我们将确定序列中最大的ORF,并翻译它。从SEARCH MENU 找到ORF,点

击打开会出现右边的对话框。单击Find Next 寻找第一个ORF 的位置。继续点击Find Next 直到你把ORF 的位置选定在位置183-455。ORF的坐标会出现在EditSeq 窗口的顶端附近(图2)。

图2 单击Find Next 寻找第一个ORF 的位置

4.DNA序列翻译

这一节中我们介绍如何翻译我们的ORF,不过任何序列中的读框内部分都可以用下面的方法进行翻译。如果你的选择是在三联码的读框内,三联码指示棒显示为实心黑线(如左图)。如果你的选择是不在三联码的读框内,左边的箭头和右面的箭头显示向左或向右移动一个bp,以使所选序列成为三的倍数。选定ORF,从GOODIES MENU 菜单中选择翻译(Translate)。翻译的蛋白质序列出现在一个新的未命名窗口中(如右图)。它是使用标准的遗传密码翻译的。

图3 图4

5.使用其它遗传密码

根据你的序列的来源,你可以选择使用非标准的

遗传密码进行翻译等操作。在这节中,我们将标准的

遗传密码转换成Ciliate Macronuclear密码。从

GOODIES MENU 菜单选择Genetic Codes打开,子菜

单显示如左。单击“Ciliate Macronuclear”就实现了

遗传密码的转换,EditSeq 现在使用的就是Ciliate

Macronuclear 的遗传密码。同样可以将遗传密码转换

为其它类型。

图5

6.遗传密码的编辑

这一节中我们修改Ciliate

Macronuclear 的遗传密码。从GOODIES

MENU 菜单选择Edit Selected Code。这将

打开右面的窗口,窗口显示遗传密码是怎

样翻译DNA 和RNA 序列的。如以DNA

形式展示密码,点击DNA按钮。编辑时,

单击任何要编辑的密码,从其目前的位置

拖到新氨基酸对应的位置则可。如使用不

同的启始密码子,单击Set Starts 按钮。第

二的遗传密码窗就会被打开,可以进行起

始密码子选择。单击任何氨基酸(或者

codon 位置),该密码子就会变成绿色,

而且旁边出现一个箭头,它就被设定为起

始密码子了。如要去除,只需单击它即可。

图6如不保存,则单击取消;如要保存,单击

保存为。

7.序列的反向互补及反向转换

下面的步骤可以用于反向测定的序列的正确输入。选定序列。从GOODIES MENU 菜单,选反向互补序列(Reverse Complement),或者把序列颠倒过来(Reverse Sequence)命令,则被选定的序列就被翻转互补或翻转过来了。

8.BLAST 检索

下面我们将在NCBI 的BLAST 服务器上对TETHIS21 序列进行相似性比较。注意为了进行BLAST 查找必须保证因特网的连接。如果你没有连接因特网,跳过这部分,继续下一部分。选定序,或者从EDIT 菜单中选择Select All。从网络检索菜单(NET SEARCH MENU),选择BLAST 查找。BLAST对话框就会出现。程序默认为blastn,数据库默认是nr,参数转换请参照帮助。单击OK 开始查找。寻找结果显示为两部分(如下)。上边的部分是按可能性的顺序显示检索到的序列的名字,下面的部分显示上面部分选定序列与提交序列(上边序列)比较的具体结果。

图7 图8

有关“score”和“expectation”的详细的信息在NCBI’s 网点http:// www.ncbi. nlm.nih. gov/ BLAST.可以找到。一般来说,更主要的score 和更低的expectation 提示较好的相似性。BLAST 结果窗最上边的3 钮被用来打开,或者保存检索到的序列,或者让你了解更多的有关信息。下面我们从用“Create Document”钮来打开评分最高的5 序列开始:单击Create Document。一个小的对话框出现。在左上角有一个下拉菜单显示默认(default)。单击下拉菜单,选顶端(Top)。并在右面的文本框中写入5。单击OK,EditSeq 自动查对多余序列。如果EditSeq 提示至少2 序列是同一个,请点击OK。EditSeq 将从因特网数据库下在单一的序列,并分别打开一个单独的EditSeq 窗口。下面我们用“Batch Save”钮将3-10 序列保存为EditSeq 文件:选定从顶端起第3 个序列。单击Batch Save。小的灰色的对话框出现。

图9 图10

单击下拉菜单,选Next。并在右面的文本框中写入8。点击Set Location,显示文件夹对话框。选定

你要保存序列的位置。单击OK 回到灰色的对话框。单击OK 保存序列,文件扩展为“.seq”。下载过程期间,EditSeq自动查对重复的序列。如果EditSeq 提示至少2 序列是同一个,请点击OK。除非你收到错误信息,否则可以认为你的序列已经成功下载。最后我们可以使用“Launch Browser”钮查看序列的详细信息选定序列。选择Launch Browser。你的网络浏览器将打开右面的窗口。

9.序列信息查看

现在我们要使用EditSeq 菜单指令查看有关打开的TETHIS21 序列的信息。选定序列的一部分。如果你倒是希望全选序列,从EDIT MENU 菜单,选择Select All。从GOODIES MENU 菜单,选DNA Statistics。就会出现右面的窗口,显示序列信息。

图11

10.序列校读

在我们学习保存和输出序列之前,下熟悉一下EditSeq的校读功能这功能能帮助你校正测序胶中的错读。选定序列。单击校对发音图标(序列窗口底部张开的嘴),或者从SPEECH MENU,选Proof-Read Sequence。电子的音声就会开始朗读所选的序列。(注:如果你听不见任何声音,检查你的计算机的喇叭是否已经打开。)要改变音声read-back的速度,从SPEECH MENU菜单,选择Faster or Slower。要停止校读,点击图标(手),或者从SPEECH MENU菜单,选择Proof-Read Sequence。序列的保存与输出首先创建一个用于保存的序列。从文件菜单,选New中的New DNA,或者New Protein。将序列写入出现的窗口。如果你输入非法字符,计算机会发出警告。然后,我们将序列保存为EditSeq文件:

从文件菜单,选Save。选定保存位置。给序列命名。单击保存则可。以GenBank或GCG格式保存序列:从文件菜单,选Export。选定保存位置。为sequence(s)选格式。给sequence(s)命名。单击保存则可。以FASTA 格式保存序列:从文件菜单,选Export(1个序列),或者Export All As One(多个序列)。当使用Export All As One的时候,如果DNA和蛋白质文件同时存在,激活窗口的序列类型与你保存的类型是一致的。EditSeq 仅仅将写入的序列保存为FASTA格式。选定保存位置。选FASTA格式。给sequence(s)命名。单击保存则可。

基因序列蛋白质结构分析软件Protea n使用技术

朱育菁,刘波,郑伟文,林营志,曹宜,苏明星,蓝江林,车建美,郑斯平,陈坚

(福建省农科院生物技术中心)

1 Protean功能简介

Protean 可以使用多种方法分析、预测蛋白质结构,并以图形化的方式展示出来。预测蛋白质结构。各类方法按照科学概念进行分类。几个方法可以同时存在于一个概念群中,如用于分析疏水性概念的方法就有好几种,不过有的概念只有一种方法可供选择,如柔韧性。你可以按照任何顺序在Protean 文件上展示各种方法计算的结果。另外,Protean可以输入来自蛋白质数据库中标注序列特点,而且允许你注释新特点。和其他Lasergene 应用程序一样,Protean 也提供整合的BLAST 查找功能。如果在使用这软件中需要帮助,可以和DNASTAR 联络。电话:(608)258-7420,传真:(608)258-7439,电子信件:support@https://www.sodocs.net/doc/4314662586.html,,或者经https://www.sodocs.net/doc/4314662586.html,.

2 创建蛋白质分析文件

这一节,我们将为人的钙调蛋白序列创建一个新Protean 分析文件。从文件菜单选择New 打开右面的对话框,然后打开名为“ Demo Sequences.”的文件夹。双击“Human Calmodulin”(或“Human Calmodulin.pro”),这样就打开下面的分析文件窗口。

图1

图2

3 Protean’s 蛋白质分析方法

打开序列后就是选择应用方法。方法结果的图形显示可以帮助你选择感兴趣序列的特点。对于我们打开的序列,你会发现只有下面方法中的几个被展示出来了,下列方法都可以使用:Title-给文件取名。Ruler-给文件加标尺。Sequence-显示序列。Protease Map-识别序列上的蛋白酶酶切位点,并且显示酶切图谱。Patterns-Prosite 数据库-在Prosite 数据库中检索你的序列。Patterns-Ariadne 文件-在序列上寻找用户指定Patterns。电荷密度-电荷-预测电荷在特定的序列范围上的分布。二级结构-Coiled Coil-预测跨膜区的阿尔法螺旋。二级结构-Garnier-Robson-计算特定氨基酸残基在特定结构内部的可能性。二级结构Deleage- Roux-蛋白质的二级结构类型预测。二级结构-Chou-Fasman-通过序列氨基酸残基的晶体结构来预测蛋白质二级结构。Hydropathy-Goldman-Engleman-Steitz-预测可以跨过细胞膜的非极性阿尔法螺旋。Hydropathy-Kyte-Doolittle-根据序列的氨基酸组成预测蛋白质的疏水区和亲水区。Hydropathy-Hopp- Woods-通过计算蛋白质序列上的最大局部亲水性寻找蛋白质的抗原决定簇。Antigenicity- Sette MHC Motifs-预测短肽上与老鼠MHC II d型蛋白质相互作用的抗原位点。Antigenicity- AMPHI-根据序列预测免疫优势辅助性T 淋巴细胞抗原位点。Antigenicity-Rothbard-Taylor-预测含有特定基序(motif)的潜在T 淋巴细胞抗原决定簇。Antigenicity-Jameson-Wolf-通过联合现有的蛋白质结构预测方法预测潜在的蛋白质抗原决定簇。Amphiphilicity-Eisenberg-预测Eisenberg Moment。表面可能性-Emini-预测特定区域位于蛋白质的表面的可能性。柔韧性-Karplus-Schulz-预测蛋白质骨架区的柔韧性。

4 分析方法应用

应用新Protean 方法的步骤是:把所用方法从More Methods 菜单移入方法帘,然后拖入分析窗口,基本上与前面介绍的GeneQuest 方法相同。在这一节中,我们将练习使用Deleage & Roux 分析方法预测蛋白质结构。

从分析菜单(ANALYSIS MENU)选择Show Available,或拖动分析窗口左上的小环打开方法帘。方法帘中包括了全部已用于分析你的序列的方法。你会发现Deleage & Roux 方法并不在其中。从方法帘的顶端,点击More Methods 打开下面的子菜单,里面有所有可以使用的方法。从Secondary Structure 的子菜单中单击Deleage & Roux,这样Deleage & Roux 就进入方法帘。单击方法左边的三角形打开方法如右,如果有数字挨着图标,说明该方法已经被用于分析,否则没有被用于序列分析,数字的多少代表方法正在被使用的次数。由于我们还没有把Deleage & Roux 用于序列分析,所以其左侧没有数字。点击方法左边的空白区域去除对方法的选择。然后单击“Alpha, Regions,”,并将它拖入分析窗口。预测的蛋白质阿尔法螺旋区域即展示在分析窗口中。

图3 图4

5 改变方法参数

下面我们改变Deleage & Roux 方法的参数,然后看一看参数改变前后这个方法预测的结果有什末不同。重复上述操作将另一个Deleage & Roux 方法应用于分析窗口,并将两个Deleage & Roux 放在一起。可以看出现在有两个完全相同的预测结果。双击其中一个会打开一个参数对话框,选择A + B,单击同意。此时在分析窗口上,相应的区域由于计算参数的改变立即发生相应变化。现在你可以比较两个参数计算结果的差别。(注:此时,如果你把最初的方法再用于分析窗口,则改变的参数自动应用于新加入的方法。)

图5

6 优化结果显示(与GeneQuest 相似,这里省略)

7 使用蛋白酶消化与SDS PAGE 电泳

Protean 可以识别蛋白序列上的蛋白酶酶切位点,并将酶切片段的电泳结果以图形展示出来。从More Methods 菜单中将Protease-Protease Map 方法移动到方法帘。单击挨着方法名字的蓝色三角形查看蛋白酶一览表。点击方法左边的空白区域去除对蛋白酶的选择。选择“Chymotrypsin”和“CNBr.”,将它们拖入分析窗口。两种蛋白酶的识别位点显示如右。现在至少一种蛋白酶被应用,我们可以模拟凝胶分离。单击调色板工具中的范围选择器(Range Selector)(箭图标)去除对应用的蛋白酶方法的选择。从SITES & FEATURES 菜单,选择SDSPAGE Gel Simulation。酶切片段的分离结果会自动显示出来(如右)。在每个上面凝胶柱对应蛋白酶的名字和分子量。当光标在凝胶上面移动时,你可以随时查看到相应位置的蛋白质分子量。移动光标到任何片段上。窗口最上边的标题显示片段的范围,大小,分子量,等电点和HPLC 滞留时间。为了继续一节,关上SDS PAGE Gel Simulation 窗口。

图6 图7

8 Features 注释(与GeneQuest 中讲解的相似,这里从略)

9 进行BLAST 检索

Protean 允许你通过因特网或企业内部互联网进行序列数据库检索。在这一节中,我们将在NCBI 的BLAST 服务器上检索与人的钙调蛋白序列相似的序列。注意电脑必须与因特网相连接,否则,跳过这一的部分,继续下一部分。单击调色板工具中的范围选择器(箭图标),在序列上选择你想进行检索的部分。由于我们的序列比较短,所以我们选择全序列进行比较。从EDIT MENU 选择Select All。从网络检索菜单,选择BLAST 查找。BLAST 对话框出现(如左),默认的数据库是nr。单击同意开始查找。BLAST 结果显示为一个二分窗口(如下,结构、内容与相关操作参见GeneQuest 的BLAST 结果)。现在我们选择三个BLAST 序列,在Protean 中打开他们。在BLAST 结果窗中选择一个结果。单击Create Document,保存对话框窗打开(如左)。从保存的下拉菜单选择Next(默认为Selected)。在“Sequences.”的左边文本框输入数字“3”。单击同意,打开三个新的选定序列的Protean 的分析文件。现在关上BLAST 结果窗。

图8 图9

10 二级结构模拟

Protean 能够展示诸如螺旋轮,螺旋网和beta 片层等基本元件的二级结构。另外,它能以线性的space-fill 样模型或者化学公式样模型展示蛋白质序列。在这一节中,我们做一个阿尔法区域的螺旋轮二级结构。二级结构Garnier-Robson 方法已经应用于我们序列,阿尔法螺旋也已展示出来。选定其中的一个阿尔法区域后,我们就能以螺旋轮展示其二级结构。

图10 图11

单击调色板工具中的范围选择器(箭图标)。点击Protean 文件最上边的Garnier-Robson 分析结果中的一个阿尔法区域。从分析菜单,选择Model Structures 中的Helical Wheel,就会出现左边的二级结构预测图。为继续这一节,关上螺旋轮窗口。

11 展示滴定曲线

下面,我们将查看全蛋白质序列的滴定曲线。单击Protean’s 调色板工具右边的白色空间。这使得选择回到起始位置,如果没有选中的序列,在绘制滴定曲线时,Protean就会默认是对全序列进行计算。从分析菜单,选择Titration Curve。打开序列的滴定曲线窗口(如上)。Protean 会在等电点处加一个蓝色的“crosshairs”,以显示pH 和所带电荷(图11)。

12 保存分析的文件(略)。

基因序列蛋白质配对软件MegAlign使用技术

林营志,刘波,郑伟文,曹宜,苏明星,朱育菁,蓝江林,车建美,郑斯平,陈坚

(福建省农科院生物技术中心)

1 MegAlign功能简介

MegAlign 提供6 列队(aligment)方法,进行DNA 和蛋白质序列的配对和多序列比较(multiple aligment) 。多序列比较(multiplealigment)可以在MegAlign 的worktable 进行查看和编辑。可以根据

队列(aligment)的结果制作进化树(Phylogenetic trees),并且,有关序列距离的数据和残基替代可以容易地作成表格。一般多序列比较(multiple aligment)的结果展示于队列(aligment)窗口,相似性和差异用彩色的直方图展示。和全部Lasergene 的应用程序一样,MegAlign也提供整合的BLAST 查找功能。如果在使用这软件中需要帮助,可以和DNASTAR 联络。电话:(608)258-7420,传真:(608)258-7439,电子信件:support@https://www.sodocs.net/doc/4314662586.html,,或者经https://www.sodocs.net/doc/4314662586.html,.

2 创建队列文件

MegAlign提供两种基本的队列方法:配对比较和多序列比较。配对比较可以比较任何2个选定的序列的相似性,而多序列比较对在Worktable中所有序列进行比较。在我们入门的第一个部分中,我们将介绍使用2不同的种类的配对比较方法。我们将从创建一个MegAlign文件,输入两个histone序列开始。从文件菜单,选Enter Sequences打开Enter Sequences对话框(图1)。

图1

图2

从你DNASTAR文件夹中的“Demo MegAlign,”文件夹,双击打开“Histone Sequences.”文件夹,左上两个序列是我们选用的序列。单击TETHIS21,点击Add钮。单击TETHIS22,点击Add钮。现在2序列将出现于右面的窗口。单击Done把序列输入Worktable。从OPTIONS MENU,使用Size 命令增加Worktable的字形大小直到可以看清楚(图2)。

3 序列设置

下面我们练习subranging输入的histone序列。设置序列的末端在我们这个例子中并不重要,但是当两个序列匹的全序列匹配不太好,或是蛋白质和DNA的混合序列时就变得非常重要了。后者要求每个DNA序列都必须是给出正确的翻译读框。序列设置可以通过给定末端位置手动操作设置,也可以通过特定标注的feature进行。这里,我们将使用histoneH2B-1的CDS进行操作。点击选中(TETHIS21)。从OPTIONS MENU,选Set Sequence Limits,接着,从Feature Table打开右面的序列末端设置窗口。顶端的histoneH2B-1-- CDS feature已经选定。下面显示的是选定序列的特点名字和范围。单击Change the Rest用相同的feature设置第二histone序列。你将自动回到Worktable,这时,设置后的序列就出现了(图3)。

图3

4 配对比较(Pairwise Alignment)

MegAlign提供各种配对比较方法。我们序列是DNA,我们可以用的方法是Wilbur-Lipman,Martinez-Needleman-Wunsch和Dotplot。在这入门中,我们在使用Wilbur-Lipman的方法。同时选中两个序列。从ALIGN MENU中的One Pair选择Wilbur-Lipman方法。使用默认参数进行比较,点击OK。 MegAlign 计算队列,然后在另一个窗口显示比较结果。窗标题展示相似指数(所右匹配残基的百分比),缺口数目,全的缺口长度和一致序列长度(图4)。

图4 图5 我们可以改变标志颜色来区别匹配和不匹配的序列。单击队列调色板工具(有“x”方框图标),打

开下面的队列颜色编辑读化框。单击深蓝色的方框,接着点击Match Color右面的黑色方框,他就变蓝了。所有和一直序列一样的碱基都立即变成深蓝色。如此重复可以改变不匹配的序列的颜色。另外,还可以通过选定或不选彩色选择方框下面的方框查看队列窗口中队列的变化。如你单击Vertical Bars,则匹配序列间的碱基变成了垂直的棒(图5)。

5 使用点划分方法(Dot Plot Method)

点划分方法是先把要比较的序列叠加起来,然后计算匹配不当的数目。同时选定两个序列。从ALIGN MENU中的One Pairl里选择Dot Plot打开右面的窗口。单击OK用默认的参数进行比较。MegAlign计算结果会在另一个窗口显示出来。每个匹配都与特定的一组残基有特定的相似性(两个都设计在参数对话框中),Dot Plot窗口中展示为蓝色。从左侧末端开始的红色斜线,表示两个序列比较的位置。双击任意一条蓝色的线会打开左面的窗口,其中显示所选定的序列的比较结果。

图6 图7

6 多序列比较

为了在MegAlign中进行多序列比较,我们选择一个含有十四个相关的钙调蛋白序列的文件进行操作。使用这个大的数据库我们可以制作进化树,了解MegAlign的其他特性。首先,我们要创建一个包括14 calmodulin序列的新文件:从文件菜单,选Open打开DNASTAR文件夹的“Demo MegAlign”的文件夹。双击打开“Calmodulin Alignment”。从OPTIONS MENU,使用Size命令增加字体大小到看得清楚为止。现在我们需要选MegAlign’s的两个多序列比较方法中的一个进行操作:Clustal或者Jotun Hein。如果已知序列有一定的同源性,我们推荐使用Jotun Hein,并且,如果有关序列相关性的背景未知,可以选择Clustal。我们使用的序列已知全部是calmodulins,所以,我们使用Jotun Hein方法。在我们实行队列之前,我们应该选择一个权重表。MegAlign’s残基权重表用于对多序列比较进行评分,这样那些虽然残基不匹配,但残基化学性质相似的序列的评分要比化学性质不相似的序列的评分要高。我们的序列是蛋白质,并且我们将使用Jotun Hein方法,所以“Structural”表是最好的选择。从ALIGN MENU选择Set ResidueWeight Table 打开左面的窗口。从上面的下拉菜单选择Structural。单击同意。现在我们可以比较我们的calmodulin序列了。从ALIGN MENU选择Jotun Hein Method。队列进程窗显示比较完成的百分比。当队列完毕,Worktable 会显示队列的结果。通过VIEW MENU中的Sequence Distanc查看序列的差别和相似性(如左)。通过VIEW MENU中的Residue Substitutions查看残基的替代数目(如右)。为了继续,关上Residue Substitutions and Sequence Distances窗口。

图8 图9

图10 图11

7 Phylogenetic Tree查看

通过VIEW MENU中的Phylogenetic Tree打开下面的窗口。默认为Balanced Branches调色板(从顶端第3)。在phenogram中,距离长度近似。为了用cladogram查看结果,单击UnbalancedBranches调色板工具(从顶端第4)。在cladogram中,枝长度(branchlength)是与祖先的节差异的评估。为了继续这入门,关上Phylogenetic Tree窗口。

8 查看队列报告

队列报告以序列显示比较的结果。通过VIEW MENU中的队列报告命令(Alignment Report)打开报告窗口。MegAlign允许你改变队列报告的外观。从OPTIONS MENU中选择Alignment Report Contents打开右面的窗口,选定第3-7和第9个方框,其它不变。单击同意,更新报告(图12)。

图12

9 创建Decorations和Consensi

另外,我们可以通过加入“decorations”和“consensi.”来优化展示的效果。Decorations包括加框、加阴影和隐藏。在这节中,我们将给那些与一致序列不一致的氨基酸加阴影。从OPTIONS MENU选择New Decoration来打开在左边显示的对话框。在题目框中,输入类似“Shade disagreements with consensus.”的名字。下一个排包括3下拉的菜单。选择第一个下拉菜单中的“Shade“,中间菜单的“residues differing from”(图13,14)。

图13

图14

第3个菜单不变,默认为Consensus。选择第一个下拉菜单中的“Shade“后,会激活其下面的另外两个下拉式菜单。从上边的菜单选择颜色,从下面的菜单选择阴影的样式。距离单位框不变,为“0.”。单击同意,现在队列报告中所有与一致序列不一样的残基全都被加上了阴影((图15)。

图15

Consensi是一致序列的另外一种图形展示方法,可以用来标志ambiguous残基。另外,序列中一致和不一致的残疾可以用直方图在队列报告中展示。当在某个位置上,任何一个序列的残基与其他序列不一样时,一致序列就会以星号表示。并且用直方图的长短显示其中一致残基的多少。从OPTIONS MENU,选择New Consensus打开右边的对话框(图16)。在题目框中,输入诸如“Allsequences matching potato.”的名字。下面有4个下拉菜单。在第一个菜单选择Potato Calmodulin。其他的菜单不变:When all match; the template residue 和show the template residue。在右边框“otherwise show,”中输入星号(*)。选定“Strength.”框。单击同意,就把新的一致性设定应用于打开的队列报告了。最终的报告如左图显示。彩色直方图可以显示新的一致序列的强度(图17)。

图16 图17

10 保存MegAlign文件

从文件菜单,选保存。确定文件夹的保存位置。在文件名框(视窗)或名字框(苹果计算机)中给序列命名。单击保存(苹果计算机)或同意(视窗)。对队列和队列报告的变化都被保存了。

基因序列分析软件GeneQuest的使用技术

苏明星,刘波,郑伟文,林营志,曹宜,朱育菁,蓝江林,车建美,郑斯平,陈坚

(福建省农科院生物技术中心)

1 GeneQuest功能简介

GeneQuest可以帮助你发现和注释DNA序列中的基因,并帮助您操作生物学所关心的DNA的其他feature:包括ORFS、拼接点连接,转录因子结合为点、重复序列、限制性内且酶酶切位点等。通过应用“methods”到序列,序列的feature可以以图形的形式展示出来。你可以在序列上注释任何你发现的feature。和其它的Lasergene应用程序一样,GeneQuest也提供整合的BLAST和Entrez寻找功能。GeneQuest能直接打开DNASTAR,ABI和GenBank文件。其他格式的序列文件也可以使用EditSeq改为DNASTAR格式。如果你知道Genbank序列的登录号或名称,你可以直接打开序列。另外,你还可以在Entrez数据库进行序列查找和输入。如果在使用这软件中需要帮助,可以和DNASTAR 联络。电话:(608)258-7420,传真:(608)258-7439,电子信件:support@https://www.sodocs.net/doc/4314662586.html,,或者经https://www.sodocs.net/doc/4314662586.html,.

2 打开已有分析文件

在这一节中,我们将对已有的GeneQuest文件(也叫做GeneQuest分析)“Nematode R01H10.”进行操作。从文件菜单,选择Open打开一个和右边相似的窗口(图1)。在苹果计算机上,从Show菜单中选择GeneQuestDocument文件。在Windows上,从文件类型菜单(Files of Type)的中选择GeneQuest Documents。用文件管理系统打开名为“Demo Sequences.”的文件夹。双击Nematode R01H10,就可以打开下面的窗口(图2)。

图1 图2

3 GeneQuest的DNA分析方法

打开GeneQuest文件后,下一步是选择应用方法。应用方法后,结果的图形显示可以帮助你了解序列上感兴趣的features。打开序列后,你会发现只有几种方法应用后的结果展示在窗口内。在下一部分中,我们将学习如何把其它方法用于我们序列的分析。Title-给文件取名。Ruler-在文件中加入标尺。Sequence-显示文件中的序列。Patterns-Matrix-方法的运算参数。Patterns-Signal-转录因子结合位点数据库。Patterns-Type-In Patterns-使用键盘输入运算所需的Pattern参数。Repeats-Inverted Repeats-寻找反向重复序列。Repeats-Dyad Repeats-寻找Dyad重复和palindromes。Repeats-Direct Repeats-寻找正向重复序列。Gene Finding - DNA Finder-在打开的DNA序列中寻找指定DNA序列。分别显示正义连和反义连的寻找结果。Gene Finding - Protein Finder-在打开的蛋白质序列中寻找指定DNA序列的翻译序列。显示结果为全部6个读框。Enzymes-Restriction Map-用DNASTAR酶目录中的酶分析打开的序列,并以图形方式展示。Coding Prediction

- orodovsky-用Borodovsky’s Markov方法来识别潜在的基因编码区,并以图形方式展示。Coding Prediction - Starts Stops ORFs-根据指定的ORFs的最小长度,寻找可能的开放读框,可以选择是否需要起始密码子。读框的启始和中止点分别展示。Coding Prediction-Local Compositional Complexity-根据Shannon信息学原理寻找有基因编码提示信息的区域。Base Contents-Base Distribution-序列上4种碱基、A+T和G+C的频率、分布,以及AT和gc分布区域。Bent DNA - Bending Index-DNA折叠预测。

4 用分析方法操作

调用新的GeneQuest方法的步骤是:从More Methods中选择方法,加入方法帘(method curtain),待方法运行完毕后,选择性的拖取结果放入分析界面(assay surface)即可(图3)。在本节中,我们使用Bent DNA -Bending Index方法进行分析。从ANALYSIS MENU选择Show Available Methods可以打开方法帘,也可以通过拖动分析界面左上角的小环的打开方法帘。方法帘中包括已经用于分析的全部方法。

你将注意到方法帘没有Bent DNA - Bending Index method。在方法帘的顶端,点击More Methods打开一个下拉菜单,其中尤可以用于分析的所有方法,点击Bent DNA - Bending Index method,该方法就进入了方法帘。若查看方法帘中的方法是否已经被应用,点击其右边的三角形。如果图标前有数字表明该方法已经使用,数字表示应用的次数。因为我们还没有应用Bent DNA - Bending Index,所以点击三角形,会发现图标前没有数字。点击白颜色的位置去除对图标的选择。单击选定“Bend Region,”,将其拖到分析界面,释放鼠标。序列中可能会折叠的区域就会以小盒子的形式显示出来。

图3

5 方法参数改变

下面我们改变方法的参数,然后将分析结果与参数改变前的结果进行比较。重复前面的操作,在方法帘中加入一个新的Bent DNA - BendingIndex,并把它拖如分析界面(图4)。现在你应该有2个完全一样的折叠区分析结果。双击方法帘中任何一个结果,将打开一个参数对话框。改变弧长度参数为30,单击OK。分析界面上就会出现根据此参数计算得到的结果。(注:如果你再次拖入新的方法时,参数的改变会自动应用到新的方法上)。

功能基因的序列比对方法

功能基因的序列比对 <1>.切除载体和(或)引物 a.打开所有的原始引物序列于一个EditSeq的窗口中 b. export all as one c.保存 d.打开这个保存的文件,开始切除载体和引物 e.选择载体插入点两侧的序列(10-15个的样子)搜索注意:不存在正反向的问题,都是一个

方向,因为测序的时候是选择两个载体上的引物其中的一条来往后测序的! 切完之后另存为 f. 重新打开这个文件,开始切除引物 方法同切载体,但是要注意正反向的问题。比如mcrA基因,其引物为Forward: 5'-GGTGGTGTMGGATTCACACARTAYGCWACAGC-3' Reverse: 5'-TTCATTGCRTAGTTWGGRTAGTT-3'

先找Forward 5’端,此时只找到的部分序列。切去5’端。 然后再切这些切掉5’端序列的3’端的序列,此时其3’端序列应该是Reverse 的反向互补序列。 切去这个反向互补序列,这样一来这个些序列就已经被切去两端的引物了。 但此时还剩下另一部分未切除任何引物的序列,此时记下这些序列的编号,先切去Reverse 5’

端。 再用Forward 的反向互补序列切去3’端,这样剩下的序列也都被切除两端的引物了。 <2>将所有序列调整为同向序列: a. 选择前面记录编号的序列,将这些序列一个个都转换为其反向互补序列。这样一来所有的序列都成为同向序列了,即在DNA两条反向互补链的其中一条上的比较了。

b. 保存该文件 <3> 生成OTUs Google 搜索”Fastgroup II” 或https://www.sodocs.net/doc/4314662586.html,/fg_tools.htm

核酸和蛋白质序列分析

核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站 (https://www.sodocs.net/doc/4314662586.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件 (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

基因组学研究的应用前景

基因组学研究的应用前景摘要:基因组学是一门研究基因组的结构,功能及表达产物的学科,基因组的结构不仅是蛋白质,还有许多复杂功能的RNA,包括三个不同的亚领域,及结构基因组学,功能基因组学和比较基因组学。近几年,基因组学在微生物药物,细菌,病毒基因,营养基因方面都有进展,其前景是光明的。 关键词:基因研究未来结构 一、微生物药物产生菌功能基因组学研究进展 微生物药物是一类化学结构和生物活性多样的次级代谢产物,近年来多个产生菌基因组序列已经被测定完成,在此基础上开展的功能基因组研究方兴未艾,并在抗生素生物合成,形态分化,调控,发育与进化及此生代谢产物挖掘等方面有着新的发现,展现出广阔的研究前景,青霉素及其衍生的《》内酰胺类抗生素极大地改善了人类的卫生保健和生活质量,并促进研究人员不断对其工业生产菌株类黄青霉进行遗传改良和提高其产量,从而降低生产成本。经过60年的随机诱变筛选,当前青霉素产量至少提高了三个数量级,同时,青霉素的生物合成机理也得到了较为清晰的阐述,其pcbAB编码的非核糖体肽合酶ACVS~DPcbc编码的异青霉素N合成酶IPNS位于细胞质中,而苯乙酸COA连接酶PenDE编码的IPN酰基转移酶位于特殊细胞器一微体中。 研究发现,青霉素合成基因区域串联扩增,产黄青细霉胞中微体含量增加都可显著提高青霉素产量。然而随机诱变筛选得到的黄青霉工业菌株高产的分子机制尚不明确。为此,2008年荷兰研究人员联合国美国venter基因组研究所对黄青霉wisconsin54—1225进行了基因组测试和分析,并进一步利用DNA芯片技术研究了wisconsin54—1255及其高产菌株DS17690在培养基中是否添加侧链前体苯乙酸情况下的转录组变化,四组数据的比较分析发现,有2470个基因至少在其中一个条件下是差异表达的,根据更为严格的筛选标准,在PPA存在的条件下,高产菌相比测序菌株有307个基因转录是上调的,和生长代谢,青霉素前体合成及其初级代谢和转运等功能相关,另有271个基因显著下调,主要是与生长代谢及发育分化相关的功能基因。 二、乳酸菌基因组学的研究进展

DNA测序结果分析比对(实例)

DNA测序结果分析比对(实例) 关键词:dna测序结果2013-08-22 11:59来源:互联网点击次数:14423 从测序公司得到的一份DNA测序结果通常包含.seq格式的测序结果序列文本和.ab1格式的测序图两个文件,下面是一份测序结果的实例: CYP3A4-E1-1-1(E1B).ab1 CYP3A4-E1-1-1(E1B).seq .seq文件可以用系统自带的记事本程序打开,.ab1文件需要用专门的软件打开。软件名称:Chromas 软件Chromas下载 .seq文件打开后如下图: .ab1文件打开后如下图: 通常一份测序结果图由红、黑、绿和蓝色测序峰组成,代表不同的碱基序列。测序图的两端(下图原图的后半段被剪切掉了)大约50个碱

基的测序图部分通常杂质的干扰较大,无法判读,这是正常现象。这也提醒我们在做引物设计时,要避免将所研究的位点离PCR序列的两端太近(通常要大于50个碱基距离),以免测序后难以分析比对。 我的课题是研究基因多态性的,因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。 实际上,要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。一般认为等位基因位点假如在测序图上出现像套叠的两个峰,就是杂合子位点。实际比对后才知道,情况并非那么简单,下面测序图中标出的两个套峰均不是杂合子位点,如图并说明如下:

说明: 第一组套峰,两峰的轴线并不在同一位置,左侧的T峰是干扰峰;第二组套峰,虽两峰轴线位置相同,但两峰的位置太靠近了,不是杂合子峰,蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成,此处的序列被机器误判为“C”,实际的序列应为“A”,通常一个高大碱基峰的前面 1~2个位点很容易产生一个相同碱基的干扰峰,峰的高度大约是高大碱基峰的1/2,离得越近受干扰越大。 一个摸索出来的规律是:主峰通常在干扰峰的右侧,干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较;一个位点的多个样本相比较;你得出的该位点的突变率与权威文献或数据库中的突变率相比较。 通常,对于一个疑似突变位点来说,即使是国际上权威组织大样本的测序结果中都没有报道的话,那么单纯通过测序结果就判定它是突变点,是并不严谨的,因一份 PCR产物中各个碱基的实际含量并不相同,很难避免不产生误差的。对于一个未知突变位点的发现,通常还需要用到更精确的酶切技术。 (责任编辑:大汉昆仑王)

基因序列分析word版

南开大学数学院“学而思”杯数学建模比赛 编号专用页 赛区评阅编号(由赛区组委会评阅前进行编号): 全国统一编号(由赛区组委会送交全国前编号): 全国评阅编号(由全国组委会评阅前进行编号):

A 题:基因序列分析 摘要 本文通过对比HIV病毒基因序列,找出不同阶段的DNA基因序列的异同,进而分析基因位点的相关性,从而对比找出HIV病毒基因序列中较为重要的位点,为HIV病毒研究提供更多的研究方法与思路。 针对问题一:我们利用点矩阵分析及统计各碱基含量的百分比的方法,对比两文件中具有相同序列名的基因序列及具有不同序列名的基因序列,找出两者的异同,得出结论。两者的相似性表现在:同名序列具有子序列关系,不同名序列具有相当的相似性,各种碱基的含量具有稳定性。两者的不同点表现在:基因规模有很大差异,不同名序列出现了具有突变特点的基因序列差异。 针对问题二:我们首先利用DNAwalk法对HIV病毒基因序列位点进行分析,在分析的过程中发现由于基因和基因组序列中存在着高度的不均一性,即不同位置的碱基密度存在着很大的差异,因而DNAwalk法不太适合基因序列的分析,转而使用DFA模型对HIV 基因的相关性进行分析和度量,得出了与DNAwalk模型相同的结论。 针对问题三:在前两问的分析基础上,结合前两问的分析结果及HIV病毒高度变异性的特点,我们得出重要的基因位点应满足下列条件:1、该基因位点位于Ⅱ基因序列,2、该基因位点所在序列的序列名应不同于Ⅰ中的序列名,3、该基因位点在问题二的分析中具有较高的相关性。 关键字:矩阵分析 DNAwalk DFA模型

问题重述 人类免疫缺陷病毒(Human Immunodeficiency Virus,HIV),简称艾滋病病毒,会造成人类免疫系统的缺陷, 导致艾滋病(AIDS). HIV基因组翻译成蛋白的过程相对复杂, 它会重复交叉使用某些基因片段。病毒序列在进化和传播的过程中主要是envelope 基因变化很快。详细描述可见HIV的生活史。由于现有的抗艾滋病病毒药对HIV无法根治,因此就将“责任”归咎高变异性. 目前, 很多的HIV序列已经被测定出来, 附件给出了一些HIV的序列. 我们试图通过对HIV序列的分析来断定这些序列上哪些位置比较重要, 从而给艾滋病的研究一些帮助. 例如, 某些位置上的突变可能会影响到HIV的传播机制, 如果我们瞄准这些位置设计药物, 可能会对艾滋病的传播起到抑制作用. HIV基因组序列大约长10k,HIV1_GENOME_DNA.fasta包含了1400余条基因组的序列,因为在序列突变的过程中,有一些核酸会消失,这些消失的核酸在文件中使用”-“来表示。表示此处发生了一次删除突变。也就是说, 文件中所有序列都是”对齐”的. 这样, 我们可以知道这些序列中某一个特定位点上核酸的分布情况. 另外,HIV基因组中包含了若干个编码蛋白质的基因,编码后的蛋白质可以行使病毒传播,致病等功能。HIV1_ENV_DNA.fasta是其中一个编码蛋白质基因的序列,HIV1_ENV_PRO.fasta是编码后的蛋白序列。它们同样是已经比对好的。基于以上说明,我们来分析如下问题: (1)对于HIV1_ENV和HIV_GENOME的DNA序列,构造数学方法对序列的位点进行分析, 指出这两者之间的异同。 (2)HIV序列位点之间或者某些位点之间是否存在相关性?如果存在,那么如何去度 量这种相关性? (3)对这些序列进行进一步的分析,找到你认为的HIV中较为重要的位点,并说明这 些位点为什么重要。 知识背景 本文通过对HIV病毒的基因信息进行分析,从而得出HIV病毒基因中比较重要的位点,由于本问题专业性较强,所以我们将先对其中相关知识做出阐述: 1、名词解释: 基因组:Genome,生物所携带的遗传信息的总和,即单倍体细胞中包括编码序列和非编码序列在内的全部DNA分子。 基因位点:基因在染色体上占有的特定位置。 染色体:由脱氧核糖核苷酸、蛋白质和少量核糖核酸组成的线状或棒状物,是生物主要遗传物质的载体。因是细胞中可被碱性染料着色的物质而得名。 核糖体:结合着辅助蛋白质因子的多个核糖体RNA(rRNA)亚基组成的细胞器。 碱基:指嘌呤和嘧啶的衍生物,是核酸、核苷、核苷酸的成分。 2、一般细胞遗传信息传递相关原理 DNA转录成RNA,RNA再被翻译成蛋白质执行相应的功能。DNA碱基的序列决定了蛋白质的结构,但DNA并非直接翻译成蛋白质,基因组DNA先通过转录生成信使RNA(mRNA),单链的mRNA随后将离开细胞核,指导蛋白质的合成。这一过程称为翻译,由核糖体负责完成。构成蛋白质的20种氨基酸通过转运RNA(tRNA)的作用到达核糖体,在核糖体的作用下,mRNA分子的核苷酸序列被翻译成相应的氨基酸,形成肽键。

基因组序列的差异分析

基因组序列的差异分析 ----mVISTA的在线使用说明 当然,除了在线版的,我们还可以在网站上填写信息申请离线的软件。但我试用了一下,需要先自己比对,然后要按照一定的格式来制作文件,当然你还必须得安装java才能运行软件;总之,我感觉没有在线版的方便。 1 将数据放入服务器中 在首页,你将被要求确定你想要分析的基因组序列的数量。输入这个数字之后,点击“提交”,将带你到主提交页面。 mVISTA服务器最多可以同时处理100条序列。 1.1主提交页面必填的内容 E-mail 地址 通过E-mail,我们可以提示你的在线处理已经得到结果。

序列 你可以用2种方式来上传你的序列: 1.使用“Browse”按钮从你的电脑上,上传纯文本的Fasta格式文件。如果是一个作为参 考的生物体的DNA序列必须作为一个contig提交(可以进行一定的定向排列将多个片段合并为一个contig),而其他非参考序列可以在一个或多个contig中提交(draft)。 Fasta格式的示例序列(您可以在NCBI站点上找到关于该格式的更多细节): >mouse ATCACGCTCTTTGTACACTCCGCCATCTCTCTCT … !!!注意:序列里面我们只接受字母CAGTN和X。请确保提交序列是作为一种纯文本格式,而不是Word或HTML文件格式。 如果您以FASTA格式提交序列,我们建议您为它取一个有意义的名称(比如直接是你的物种名之类的),因为这些名称将出现在我们生成的图形中。如果您使用的是一个draft草图序列,那么结果中每个contigs的命名都将按照您在“>”符号后指示的命名进行。 2.您可以给出它的GenBank登录号,系统将自动从GenBank数据库里进行检索序列。 在这两种情况下,序列的总大小都不应超过10M,而且任何一条序列都不应超过2M。 1.2主提交页面选填的内容 这些选项允许您自定义您的VISTA分析。您可以使用独立获得的基因注释,选择合适的Repeat Masker选项,给分析的序列指定名称,并改变序列保存分析的参数。如果您没有填写这些选填选项,我们将使用它们的默认值。 比对程序 根据您分析的具体内容(参见“about”-链接中的详细信息),您可以选择以下比对程序之一:1、AVID----全局两两比对。如果您选择使用这个程序,其中一个序列应该被完成比对,其他 所有序列可以完成或以草图draft格式完成。对于集合中所有已完成的序列,AVID生成所有相对所有成对的比对结果,可以使用任何序列作为基础(参考)来显示。如果某些序列是草图格式,AVID将生成它们与最终序列的比对,这将被用作基础(参考)。这是该服务器上唯一可以处理草图序列的比对程序。 (小知识:草图序列与完整序列DNA sequence, draft: Sequence of a DNA with less accuracy than a finished sequence. In a draft sequence, some segments are missing or are in the wrong order or are oriented incorrectly. A draft sequence is as opposed to a finished DNA sequence.)2、LAGAN----完成完整序列的全局两两比对和多重比对。如果某些序列是草图格式,您的查 询将被重定向到AVID以获得两两比对。多重比对将由VISTA可视化,它将计算并显示序列的保守区,以您指示的任何序列作为参考。这是该服务器上唯一能够产生真正的多重

比较基因组学1

1 Comparative Analysis and Visualization of Genomic Sequences Using VISTA Browser and Associated Computational Tools Inna Dubchak Summary This chapter discusses VISTA Browser and associated computational tools for analysis and visual exploration of genomic alignments.The availability of massive amounts of genomic data produced by sequencing centers stimulated active development of computational tools for analyzing sequences and complete genomes,including tools for comparative analysis.Among algorithmic and computational challenges of such analysis,i.e.,efficient and fast alignment, decoding of evolutionary history,the search for functional elements in genomes,and others, visualization of comparative results is of great importance.Only interactive viewing and manip-ulation of data allow for its in-depth investigation by biologists. We describe the rich capabilities of the interactive VISTA Browser with its extensions and modifications,and provide examples of the examination of alignments of DNA sequences and whole genomes,both eukaryotic and microbial.VISTA portal(https://www.sodocs.net/doc/4314662586.html,/vista) provides access to all these tools. Key Words:Comparative genomics;alignment;visualization;genome browser;VISTA. 1.Introduction Ongoing sequencing of a large number of prokaryotic and eukaryotic genomes provides biologists with invaluable datasets for investigating the evolution of individual species,differences and similarities between various species,and functional characteristics of https://www.sodocs.net/doc/4314662586.html,parative analysis of genomes makes From:Methods in Molecular Biology,vol.395:Comparative Genomics,Volume1 Edited by:N.H.Bergman?Humana Press Inc.,Totowa,NJ 3

基因序列分析的步骤和方法

基因序列分析的步骤和方法 拖鞋兰,大陆也有叫“鞋兰”的,指的是兰科植物中,它的下花瓣变形成奇特袋状花器一族的总称,中文名称的由来是源自于英文对这一族群的俗称”Lady Slipper Orchids”,当年订定这一花种中文名字的植物学者就将其直译为「拖鞋兰」,说真格的,这名称有点失之粗鄙,实在很难从字义上去意会这一群具观赏价值,又饶富趣味的兰属是甚么样子;做为商品的推广,近年来有不少有心人呼吁为其另立新词,吾人宁愿称其为「仙履兰」,即表达其传奇、趣味,又隐含高贵气质之意,同时也符合其中一属的学名。属于兰科,杓兰亚科,有四种遗产基因:凤仙花、Phragmipedium、Selenipedium和Mexipedium Google图片搜索:Google Image Search 为了访问在美国欧洲的基因数据库肯能要使用twisted,是python2.7的标准库。- 序列分析的步骤: 首先查看科学论文数据库例如,PubMed 从基因数据库例如GenBank中下载序列文件 https://www.sodocs.net/doc/4314662586.html,/DIST/docs/tutorial/examples/ls_orchid.fasta https://www.sodocs.net/doc/4314662586.html,/DIST/docs/tutorial/examples/ls_orchid.gbk 把序列信息转换成python可用的数据结构; 分析阶段:翻译、转录、权计算、k最近邻居、朴素贝叶斯算法等等 >>> from Bio import SeqIO >>> for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"): ... print seq_record.id ... print repr(seq_record.seq) ... print len(seq_record) ...... Found 94 records The last record Z78439.1 Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATC

功能基因的序列比对方法

<1>.切除载体和(或)引物 a.打开所有的原始引物序列于一个EditSeq的窗口中 b. export all as one c.保存 d.打开这个保存的文件,开始切除载体和引物 e.选择载体插入点两侧的序列(10-15个的样子)搜索注意:不存在正反向的问题,都是一个方向,因为测序的时候是选择两个载体上的引物其中的一条来往后测序的! 切完之后另存为 f.重新打开这个文件,开始切除引物 方法同切载体,但是要注意正反向的问题。比如mcrA基因,其引物为 Forward: 5'-GGTGGTGTMGGATTCACACARTAYGCWACAGC-3' Reverse: 5'-TTCATTGCRTAGTTWGGRTAGTT-3' 先找Forward 5’端,此时只找到的部分序列。切去5’端。 然后再切这些切掉5’端序列的3’端的序列,此时其3’端序列应该是Reverse 的反向互补序列。 切去这个反向互补序列,这样一来这个些序列就已经被切去两端的引物了。 但此时还剩下另一部分未切除任何引物的序列,此时记下这些序列的编号,先切去Reverse 5’端。 再用Forward 的反向互补序列切去3’端,这样剩下的序列也都被切除两端的引物了。 <2>将所有序列调整为同向序列:

a.选择前面记录编号的序列,将这些序列一个个都转换为其反向互补序列。这样一来所有的序列都成为同向序列了,即在DNA两条反向互补链的其中一条上的比较了。 b.保存该文件 <3>生成OTUs Google 搜索”Fastgroup II” 或grouping--注意勾选的选项) Choose method 里面相似度可以选97%或98% 提交之后出现的窗口如 可以看到被分为了10个OUT 每个OUT都自动选择了一个代表序列。全选将其复制到word中,备用。并把其中的那些代表序列都复制下来粘贴到TXT 保存。 <4>寻找嵌合体:一般是对16S rRNA来说的 两个网站: (或搜decipher chimera) (或搜bellerophon chimera check) <5>翻译 网站: 在保存有OTUs的TXT文件中,一个一个翻译成蛋白质序列。最后保存。 在用Expasy翻译的时候选择第二个选项 点击翻译

基因序列分析软件DNAStar简介

生物信息 基因序列分析软件DNAStar简介 郑伟文,林营志,刘波,曹宜,苏明星,朱育菁,蓝江林,车建美,郑斯平,陈坚 (福建省农科院生物技术中心) 1.设计公司 Sequence Analysis Software for Macintosh and Windows,GETTING STARTED,Introductory Tour of the LASERGENE System,MAY 2001,L A S E R G E N E f o r W i n d o w s & M a c i n t o s h,DNASTAR, Inc.,1228 South Park Street,Madison, Wisconsin 53715,(608) 258-7420,Copyright . 2001 by DNASTAR, Inc.,All rights reserved. Reproduction, adaptation, or translation without prior written permission is,prohibited,except as allowed under the copyright laws or with the permission of DNASTAR, Inc.,Sixth Edition, May 2001,Printed in Madison, Wisconsin, USA,Trademark Information。 2.应用程序 在安装Lasergene网络系统之前要熟悉以下术语:应用程序:指EditSeq, GeneMan, GeneQuest, MapDraw,MegAlign, PrimerSelect, Protean, and SeqMan II。应用程序服务器:是指存储应用程序的电脑,通常与dongle 服务,器是同一个服务器,但也可以不同,当在局部硬盘上安装网络程序,时,也可以在同一个网络系统中同时存在多个不同的应用程序服务,器,而且应用程序服务器不一定是苹果机,储存应用程序的机器也不一定必须能够运行该程序,仅仅是储存而已。 3.安装方式 3.1通过英特网升级 如果您以前已经安装了Lasergene 而且目前有升级和服务联系,您就可以通过英特网来升级您现有的版本,各种模块(module)都是以自解压形式存储的,你可以选择性的下载安装。 必备条件您的用户名和会员号是必需的,可以在安装盘上找到。 3.2程序升级 备份您已有的Lasergene,找到您要升级的执行程序,并把它转移到备份的文件夹中。连接到DNAstar 网站的主页(https://www.sodocs.net/doc/4314662586.html,),从菜单中的Customers中点击Lasergene Updates点,安提示输入密码和用户名(与会员名相同),这样就会打开下载页面。找到windows软件(Windows 95/98/NT Software.),就可以下载您想要的模块了。模块下载完毕以后,双击文件将其解压缩完毕。 看到“Application name”has been updated.说明升级完毕。 3.3软件安装 从CD在PC机(Windows)上安装Lasergene。注意安装是尽量关闭所有其它程序以保证安装顺利进行。必备条件,一张个人的Lasergene安装盘;一张Lasergene软件光碟;足够的硬盘空间和内存:至少30Mb的硬盘,32Mb的RAM。从光盘安装Lasergene,插入安装盘和安装光盘,双击安装图标,则出现下面的窗口,点击继续,则出现安装窗口。随后一次出现下面窗口,请按照提示做出选择然后点击Next,直至完成安装(图1)。

Gene 序列分析

Gene 序列分析 原文https://www.sodocs.net/doc/4314662586.html,/vionit/blog/item/98edb0dc706167a2cc116651.html 核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.sodocs.net/doc/4314662586.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.sodocs.net/doc/4314662586.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.sodocs.net/doc/4314662586.html,/fasta33/)和BLAST(https://www.sodocs.net/doc/4314662586.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。 BLAST根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN 在搜索相似序列进行新基因预测时特别有用。 使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。 (2)Needle和Pairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST仅适用于DNA序列(3)相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的

功能基因序列分析案例

青霉素基因序列分析 摘要:青霉素是抗菌素的一种,是指从青霉菌培养液中提制的分子中含有青霉烷、能破坏细菌的细胞壁并在细菌细胞的繁殖期起杀菌作用的一类抗生素,是第一种能够治疗人类疾病的抗生素。近年来,由于滥用抗生素,导致了大量耐药性菌株的出现,严重威胁着人类的健康,现在细菌耐药性已成为全球关注的医学与社会问题。本文以青霉素为例,阐述一种通过构建系统发育树研究不同青霉素间亲缘性,来研究细菌青霉素抗性的方法。 关键词:青霉素;基因序列;邻接法;系统发育树 引言 一、青霉素简介 青霉素( Penicillin ,或音译盘尼西林)是指分子中含有青霉烷、能破坏细菌的细胞壁并在细菌细胞的繁殖期起杀菌作用的一类抗生素,是由青霉菌中提炼出的抗生素。青霉素属于 3—内酰胺类抗生素(3—lactams), 3—内酰胺类抗生素包括青霉素、头孢菌素、碳青霉烯类、单环类、头霉素类等。青霉素是很常用的抗菌药品。但每次使用前必须做皮试,以防过敏。 青霉素是人类最早发现的抗生素,1928 年英国伦敦大学圣玛莉医学院(现属伦敦帝国学院)细菌学教授弗莱明在实验室中发现青霉菌具有杀菌作用[2] ,1938 年由麻省理工学院的钱恩、弗洛里及希特利( Norman Heatley ,1911-2004)领导的团队提炼出来。弗莱明因此与钱恩和弗洛里共同获得了1945 年诺贝尔生理医学奖。 青霉素类抗生素是3-内酰胺类中一大类抗生素的总称,它们具有相似的作用机理。细菌一般都处于低渗 (即外界的渗透压低于细菌体内部) 的环境中,因而会自发地吸收外界的水分。为了防止细胞因吸水过多而膨胀炸裂,细菌在其细胞壁中合成一种名为肽聚糖的物质,以此抵抗细菌体的自发吸水膨胀。青霉素即作用于肽聚糖的合成过程中,阻止它的合成,进而导致细菌体失去抵抗渗透压的能力而胀破。 二、抗生素抗性的产生 细菌抗药性产生的原因主要包括以下几种:(1)通过对抗生素的降解或取代活性基团,改变抗生素的结构,使抗生素失活;(2) 通过对抗生素靶位的修饰使抗生素无法与之结合而表现出抗性;(3)通过特异或通用的抗生素外排泵将抗生素排出细胞外,降低胞内抗生素浓度而表现出抗性;(4) 其他抗性机制包括在细胞膜上形成多糖类的屏障减少抗生素进入细胞内[1] 。 抗生素耐药性发生与传播与抗生素的使用直接相关,任何抗生素使用均可以导致抗生素耐药性的发生[2]。抗生素耐药性问题早在抗生素使用之初就为学者所认识。自20 世纪60 年代耐甲氧西林金黄色葡萄球菌(MRSA) 报道以来,随着更多抗生素特别是广谱抗生素如广谱3-内酰胺类和氟喹诺酮类抗生素等的广泛应用,耐药性的发生与传播越来越严重,且在上世 纪90年代学者们已开始警告后抗生素时代”的到来⑶。WHO在2001年也提出了需要全球采取紧急行动控制抗生素耐药性,并从抗生素使用(包括人与动物) 、药物和疫苗开发、药 品促销、耐药性监测及各国政府和卫生系统多个方面探讨控制耐药性问题的干预措施。在过去的10年里,抗生素耐药性已是公共卫生所面临的最大挑战之一,许多因素继续造成众多不必要的抗生素使用及浪费抗生素这一重要公共卫生资源[4]。 三、构建系统发育树对鉴定生物间亲缘关系的意义

EST分子标记开发及在比较基因组学中的应用

生物多样性 2006, 14 (6): 541-547 doi: 10.1360/biodiv.060148 Biodiversity Science http: //https://www.sodocs.net/doc/4314662586.html, —————————————————— 收稿日期: 2006-07-18; 接受日期: 2006-09-17 基金项目: 浙江省科委重点攻关课题“杂交油菜”项目(G2*******) * 通讯作者 Author for correspondence. E-mail: zml@https://www.sodocs.net/doc/4314662586.html, EST 分子标记开发及在比较基因组学中的应用 李小白 崔海瑞 张明龙* (浙江大学原子核农业科学研究所, 杭州 310029) 摘要: 数量迅速增加的EST (expressed sequence tags) 为分子标记的开发提供了宝贵的资源。与来自于基因组DNA 开发的传统标记相比, 以EST 为基础的分子标记是一种新型分子标记, 具有其显著的优势, 如开发简便、信息量高和通用性好等, 在多方面都有重要的利用价值。本文详细地介绍了目前基于EST 开发的5类分子标记以及基于生物信息学方法的开发策略, 这些标记包括EST-PCR 、EST-SSR 、EST-SNP 、EST-RFLP 和EST-AFLP 。此外, 对这些标记在比较基因组学研究中的应用进行了评述, 包括比较作图、遗传多样性评价及系统发育研究等。 关键词: EST, 标记开发, 比较作图, 遗传多样性, 系统发育学 Molecular markers derived from EST: their development and applica-tions in comparative genomics Xiaobai Li, Hairui Cui, Minglong Zhang* Institute of Nuclear-Agricultural Sciences, Zhejiang University , Hangzhou 310029 Abstract: Expressed sequence tags (EST), which have been increasing rapidly in number recently, provide important resources for the development of molecular markers. Compared with conventional markers derived from genomic DNA, the EST-derived markers are a novel type of molecular tool with remarkable advantages such as being easy to develop, more informative, and highly transferable. EST markers have been used in many research fields. In the present paper, five kinds of recently developed EST markers, including EST-PCR, EST-SSR, EST-SNP, EST-RFLP, and EST-AFLP, as well as their development strategies based on bioinformatics, are introduced. Moreover, the applications of these markers in comparative genomics studies, including comparative mapping, genetic diversity evaluation, and phylogenetics and so on, are also reviewed. Key words: EST, marker development, comparative mapping, genetic diversity, phylogenetics EST(expressed sequence tags)是指通过对cDNA 文库随机挑取的克隆进行大规模测序所获得的cDNA 的5′或3′端序列, 长度一般为150–500 bp (骆蒙和贾继增, 2001)。自从美国科学家Craig Venter 首先提出EST 计划以来 (Adams et al ., 1991), 随着EST 计划在不同物种间的不断扩展和深入研究, 数据库中已积累了大量的 EST 。到2006年4月, NCBI 数据库已经收录了1,059个物种的、总数达35,248,039条的EST 序列。EST 资源库的不断扩增极大地方便和加快了生命科学领域的研究, 也为利用 这些数据来开发EST 分子标记奠定了基础。 1 EST 分子标记的类型及特点 EST 标记是根据EST 本身的差异而建立的分子标记。根据开发的方法不同, EST 标记可分为4类: (1) EST-PCR 和EST-SSR(微卫星)。这一类以PCR 技术为核心, 操作简便、经济, 是目前研究和应用最多的一类; (2) EST-SNP (单核苷酸多态性)。它是以特定EST 区段内单个核苷酸差异为基础的标记, 可依托杂交、PCR 等较多种手段进行检测; (3)

DNAMAN 是一种常用的核酸序列分析软件

DNAMAN 是一种常用的核酸序列分析软件。由于它功能强大,使用方便,已成为一种普遍使用的DNA 序列分析工具。本文以DNAMAN 5.2.9 Demo version 为例,简单介绍其使用方法。打开DNAMAN,可以看到如下界面: 第一栏为主菜单栏。除了帮助菜单外,有十个常用主菜单,第二栏为工具栏: 第三栏为浏览器栏: 在浏览器栏下方的工作区左侧,可见Channel 工具条,DNAMAN 提供20 个Channel,(如左所示:)点击Channel 工具条上相应的数字,即可击活相应的Channel。每个Channel 可以装入一个序列。将要分析的序列(DNA 序列或氨基酸序列)放入Channel 中可以节约存取序列时间,加快分析速度。此版本DNAMAN 提供自动载入功能,用户只需激活某个Channel,然后打开一个序列文件,则打开的序列自动载入被激活的Channel 中。 本文以具体使用DNAMAN 的过程为例来说明如何使用DNAMAN 分析序列。 1.将待分析序列装入Channel (1)通过File Open 命令打开待分析序列文件,则打开的序列自动装入默认Channel。(初始为channel1)可以通过激活不同的channel (例如:channel5)来改变序列装入的Channel。(2)通过Sequence/Load Sequence 菜单的子菜单打开文件或将选定的部分序列装入Channel 。通过Sequence/Current Sequence/Analysis Defination 命令打开一个对话框,通过此对话框可以设定序列的性质(DNA 或蛋白质),名称,要分析的片段等参数。 2.以不同形式显示序列 通过Sequence//Display Sequence 命令打开对话框,如下图所示:根据不同的需要,可以选择显示不同的序列转换形式。对话框选项说明如下:Sequence &Composition 显示序列和成分 Reverse Complement Sequence 显示待分析序列的反向互补序列 Reverse Sequence 显示待分析序列的反向序列 Complement Sequence 显示待分析序列的互补序列 Double Stranded Sequence 显示待分析序列的双链序列 RNA Sequence 显示待分析序列的对应RNA 序列 3.DNA 序列的限制性酶切位点分析 将待分析的序列装入Channel,点击要分析的Channel,然后通过Restriction/Analysis 命令打开对 话框,如下所示: 参数说明如下: Results 分析结果显示 其中包括: Show summary(显示概要) Show sites on sequence(在结果中显示酶切位点) Draw restriction map(显示限制性酶切图)Draw restriction pattern(显示限制性酶切模式图) Ignore enzymes with more than(忽略大于某设定值的酶切位点) Ignore enzymes with less than(忽略小于某设定值的酶切位点) Target DNA (目标DNA 特性) circular(环型DNA),dam/dcm methylation(dam/dcm 甲基化) all DNA in Sequence Channel(选择此项,在Sequence Channel 中的所有序列将被分析,如果 选择了Draw restriction pattern,那么当所有的channel 中共有两条DNA 时,则只能选择两个酶

相关主题