搜档网
当前位置:搜档网 › 常用生物信息学数据库和分析工具网址

常用生物信息学数据库和分析工具网址

常用生物信息学数据库和分析工具网址
常用生物信息学数据库和分析工具网址

常用生物信息学数据库和分析工具网址

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.sodocs.net/doc/4a12830556.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

最新生物信息学名词解释(个人整理)

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 4.genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“//”结尾。 5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。 6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P94 7.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 11.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E 值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。代表测序方法:solid 测序。 4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测序仪 :用蛋白质序列查找核苷酸序列。 :STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。 :表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。 :生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

生物信息学简介范文

1、简介 生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。 具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。 生物信息学是一门利用计算机技术研究生物系统之规律的学科。 目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。 1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的? 生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。 生物信息学的主要研究方向:基因组学- 蛋白质组学- 系统生物学- 比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。 姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。 2、发展简介 生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测

生物信息学数据库或软件

一、搜索生物信息学数据库或者软件 数据库是生物信息学的主要内容,各种数据库几乎覆盖了生命科学的各个领域。 核酸序列数据库有GenBank,EMBL,DDB等,核酸序列是了解生物体结构、功能、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank ,欧洲分子生物学实验室的EMBL-Bank(简称EMBL),日本遗传研究所的DDBJ 蛋白质序列数据库有SWISS-PROT,PIR,OWL,NRL3D,TrEMBL等, 蛋白质片段数据库有PROSITE,BLOCKS,PRINTS等, 三维结构数据库有PDB,NDB,BioMagResBank,CCSD等, 与蛋白质结构有关的数据库还有SCOP,CATH,FSSP,3D-ALI,DSSP等, 与基因组有关的数据库还有ESTdb,OMIM,GDB,GSDB等, 文献数据库有Medline,Uncover等。 另外一些公司还开发了商业数据库,如MDL等。

生物信息学数据库覆盖面广,分布分散且格式不统一, 因此一些生物计算中心将多个数据库整合在一起提供综合服务,如EBI的SRS(Sequence Retrieval System)包含了核酸序列库、蛋白质序列库,三维结构库等30多个数据库及CLUSTALW、PROSITESEARCH等强有力的搜索工具,用户可以进行多个数据库的多种查询。 二、搜索生物信息学软件 生物信息学软件的主要功能有: 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间; 提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验;寻找、预测新基因及预测其结构、功能; 蛋白高级结构预测。 如:核酸序列分析软件BioEdit、DNAClub等;序列相似性搜索BLAST;多重系列比对软件Clustalx;系统进化树的构建软件Phylip、MEGA等;PCR 引物设计软件Primer premier6.0、oligo6.0等;蛋白质二级、三级结构预测及三维分子浏览工具等等。 NCBI的网址是:https://www.sodocs.net/doc/4a12830556.html,。 Entrez的网址是:https://www.sodocs.net/doc/4a12830556.html,/entrez/。 BankIt的网址是:https://www.sodocs.net/doc/4a12830556.html,/BankIt。 Sequin的相关网址是:https://www.sodocs.net/doc/4a12830556.html,/Sequin/。 数据库网址是:https://www.sodocs.net/doc/4a12830556.html,/embl/。

生物信息学复习题及答案

生物信息学复习题 一、名词解释 生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E 值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致 树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept, 折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。 二、问答题 1)生物信息学与计算生物学有什么区别与联系 2)试述生物信息学研究的基本方法。 3)试述生物学与生物信息学的相互关系。 4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI 维护的数据库。 5)序列的相似性与同源性有什么区别与联系 6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途 什么 7)简述BLAST搜索的算法。 8)什么是物种的标记序列 9)什么是多序列比对过程的三个步骤 10)简述构建进化树的步骤。 11)简述除权配对法(UPGMA)的算法思想。 12)简述邻接法(NJ)的算法思想。 13)简述最大简约法(MP)的算法思想。 14)简述最大似然法(ML)的算法思想。 15)UPGMA构树法不精确的原因是什么 16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其 含义。 17)试述DNA序列分析的流程及代表性分析工具。 18)如何用BLAST发现新基因 19)试述SCOP蛋白质分类方案。 20)试述SWISS-PROT中的数据来源。 21)TrEMBL哪两个部分 22)试述PSI-BLAST 搜索的5个步骤。 三、操作与计算题 1)如何获取访问号为U49845的genbank文件解释如下genbank文件的LOCUS行提供的信息: LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什

生物信息学分析方法

核酸和蛋白质序列分析 蛋白质, 核酸, 序列 关键词:核酸序列蛋白质序列分析软 件 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.sodocs.net/doc/4a12830556.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.sodocs.net/doc/4a12830556.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.sodocs.net/doc/4a12830556.html,/fasta33/)和BLAST (https://www.sodocs.net/doc/4a12830556.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两

生物信息学基础知识

分子生物学基础知识太仓生命信息研究所 2011-7

前言 本文仅适用于对非生物专业的员工进行基础知识普及。如有深入学习的要求,请选用正规权威教材。 本教材以蛋白质、DNA、RNA、复制、转录和翻译为主要讲解内容,目的是帮助员工理解在工作中会遇到的常见生物学概念及术语 目录 前言 (2) 目录 (2) 蛋白质 (3) 1. 什么是蛋白质 (3) 2. 蛋白质的3D结构 (5) DNA (7) 1. DNA的组成—4种碱基 (7) 2. DNA的复制 (8) 3. DNA转录为RNA (9) 4. mRNA翻译成氨基酸序列 (11)

蛋白质 1.什么是蛋白质 蛋白质是由20中基本氨基酸链接而成的,生物体的大部分是有蛋白质构成的。每种氨基酸由4部分组成:碳原子C,羧基coo-,氨基H3N和R group。 20中氨基酸按照不同的排列和不同的长度,就形成了蛋白质。不同的R group把氨基酸分为5类: 无极性脂肪类R Group:

芳香类R Group 有极性,无电荷R Group

正电荷R Group 负电荷R Group 2.蛋白质的3D结构 氨基酸链在三维空间里呈现出一定的结构。各个氨基酸分子于相邻的氨基酸之间有氢键连接。 一级结构:氨基酸的排列顺序,可以用氨基酸的缩写在书面上表达。 氨基和羧基之间的氢键使得单个的氨基酸分子能够链接起来。

二级结构:单条氨基酸链所形成的2D形态。常见的有Alpha helix Beta sheet。 Alpha helix:氨基酸分子按顺时针或逆时针的方向螺旋上升。 Beta sheet:多条氨基酸分子链并列在一起。 三级结构:氨基酸链在各个方向的形态综合在一起。

启动子生物信息学分析软件

https://www.sodocs.net/doc/4a12830556.html,/seq_tools/promoter.html 2. PlantCARE(plant cis-acting regulatory elements), a database of plant cis-acting regulatory elements http://bioinformatics.psb.ugent.be/webtoo ls/plantcare/html/ 3. promoter 2.0 prediction server http://www.cbs.dtu.dk/services/Promoter/ 4. 启动子分析网址: 1 https://www.sodocs.net/doc/4a12830556.html,/seq_tools/promoter.html 2 http://alggen.lsi.upc.es/recerca/menu_recerca.html 3 http://www.cbs.dtu.dk/services/Promoter/ 4 https://www.sodocs.net/doc/4a12830556.html,/~molb470/ ... s/solorz/index.html 5 https://www.sodocs.net/doc/4a12830556.html,/molbio/proscan/ http://bip.weizmann.ac.il/toolbo ... ters.html#databases https://www.sodocs.net/doc/4a12830556.html,/seq_tools/promoter.html https://www.sodocs.net/doc/4a12830556.html,.sg/promoter/CGrich1_0/CGRICH.htm https://www.sodocs.net/doc/4a12830556.html,/pub/programs.html#pmatch https://www.sodocs.net/doc/4a12830556.html,.hk/~b400559/arraysoft_pathway.html#Promoter http://www.dna.affrc.go.jp/PLACE/signalup.html http://intra.psb.ugent.be:8080/PlantCARE/ http://www.cbs.dtu.dk/services/Promoter/ https://www.sodocs.net/doc/4a12830556.html,/molbio/proscan/ https://www.sodocs.net/doc/4a12830556.html,/molbio/signal/ https://www.sodocs.net/doc/4a12830556.html,/thread-41571-1-1.htm 常用启动子分析网址: http://bip.weizmann.ac.il/toolbox/seq_analysis/promoters.html#databas es

生物信息学常用工具

常用DNA和蛋白质序列数据分析工具: ●序列比对工具: a)BLAST: ●网络比对,包括基础的Blast比对、参数、特殊Blast如PSI-Blast、Blast2 等; ●本地比对,包括程序下载、安装、数据库的下载及格式化、Blast程序的 运行等。 b)多序列比对ClustalX(Windows系统) 包括程序下载、安装、及程序的运行、结果的输入输出等。 ●真核生物基因结构的预测: a)基因可读框的识别: Genescan; CpG岛、转录终止信号和启动子区域预测; CpGPlot; POLYAH; PromoterScan; b)基因密码子偏好性: CodonW; c)采用mRNA序列预测基因: Spidey; d)ASTD数据库 ●分子进化遗传分析工具 ●MEGA;

●Phylip; ●蛋白质结构和功能预测 a)一级结构 ProtParam蛋白质序列理化参数检索; ProtScale蛋白质疏水性分析; COILS卷曲螺旋预测; b)二级结构 PredictProtein蛋白质结构预测; PSIPRED不同蛋白质结构预测方法; c)InterProScan: 模式和序列谱研究 Prosite:蛋白质结构域、家族和功能为点数据库; Pfam:蛋白质家族比对和HMM数据库; BLOCK:模块搜索数据库; SMART:简单模块架构搜索工具; TMHMM:跨膜结构预测工具; d)三级结构 Swiss-Model Workspace: 同源建模的网络综合服务器; Phyre:线串法预测蛋白质折叠; HMMSTR/Rosetta:从头预测蛋白质结构; Swiss-PdbViewer:分子建模和可视化工具; 序列模体的识别和解析; MEME程序包; ●蛋白质谱数据分析

生物信息学常用核酸蛋白数据库

(1)GenBank https://www.sodocs.net/doc/4a12830556.html,/ (2)dbEST (Database of Expressed Sequence Tags) https://www.sodocs.net/doc/4a12830556.html,/dbEST/index.html (3)UniGene 数据库 https://www.sodocs.net/doc/4a12830556.html,/UniGene/ (4)dbSTS (Database of Sequence Tagged Sites) https://www.sodocs.net/doc/4a12830556.html,/dbSTS/index.html (5)dbGSS (Database of Genome Survey Sequences) https://www.sodocs.net/doc/4a12830556.html,/dbGSS/index.html (6)HTG (High-Throughput Genomic Sequences) https://www.sodocs.net/doc/4a12830556.html,/HTGS/ (7)基因组数据库 https://www.sodocs.net/doc/4a12830556.html,/sites/entrez?db=genome (8)dbSNP (Database of Single Nucleotide Polymorphisms) 单核苷酸多态性数据库https://www.sodocs.net/doc/4a12830556.html,/sites/entrez?db=snp (9)EMBL (European Molecular Biology Laboratory) https://www.sodocs.net/doc/4a12830556.html,/embl (10)DDBJ (DNA Data Bank of Japan) http://www.ddbj.nig.ac.jp/Welcome-e.html 启动子(11)EPD (Eukaryotic Promoter Database) http://www.epd.isb-sib.ch/ 2、蛋白质数据库 https://www.sodocs.net/doc/4a12830556.html,/swissprot (2)TrEMBL (Translation of EMBL) https://www.sodocs.net/doc/4a12830556.html,/swissprot/ (3)PIR (Protein Information Resource) https://www.sodocs.net/doc/4a12830556.html, (4)PRF (Protein Research Foundation) http://www.prf.or.jp/en/os.html (5)PDBSTR (Re-Organized Protein Data Bank) http://www.genome.ad.jp (6)Prosite https://www.sodocs.net/doc/4a12830556.html,/prosite 3、结构数据库 (1)PDB (Protein Data Bank) https://www.sodocs.net/doc/4a12830556.html, (2)NDB(Nucleic Acid Database) https://www.sodocs.net/doc/4a12830556.html,/ (3)DNA-Binding Protein Database https://www.sodocs.net/doc/4a12830556.html,/ (4)SWISS-3D IMAGE http://www.expasy.ch/sw3d/

常用生物信息学软件

常用生物信息学软件 一、基因芯片 1、基因芯片综合分析软件。 ArrayVision 7.0 一种功能强大的商业版基因芯片分析软件,不仅可以进行图像分析,还可以进行数据处理,方便protocol的管理功能强大,商业版正式版:6900美元。 Arraypro 4.0 Media Cybernetics公司的产品,该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者,相信arraypro也不会差。 phoretix? Array Nonlinear Dynamics公司的基因片综合分析软件。 J-express 挪威Bergen大学编写,是一个用JA V A语言写的应用程序,界面清晰漂亮,用来分析微矩阵(microarray)实验获得的基因表达数据,需要下载安装JA V A运行环境JRE1.2后(5.1M)后,才能运行。 2、基因芯片阅读图像分析软件 ScanAlyze 2.44 ,斯坦福的基因芯片基因芯片阅读软件,进行微矩阵荧光图像分析,包括半自动定义格栅与像素点分析。输出为分隔的文本格式,可很容易地转化为任何数据库。 3、基因芯片数据分析软件 Cluster 斯坦福的对大量微矩阵数据组进行各种簇(Cluster)分析与其它各种处理的软件。 SAM Significance Analysis of Microarrays 的缩写,微矩阵显著性分析软件,EXCEL软件的插件,由Stanford大学编制。 4.基因芯片聚类图形显示 TreeView 1.5 斯坦福开发的用来显示Cluster软件分析的图形化结果。现已和Cluster成为了基因芯片处理的标准软件。 FreeView 是基于JA V A语言的系统树生成软件,接收Cluster生成的数据,比Treeview 增强了某些功能。 5.基因芯片引物设计 Array Designer 2.00 DNA微矩阵(microarray)软件,批量设计DNA和寡核苷酸引物工具 三、序列综合分析 V ector NTI Suite 8.0 不喜欢装备各种专业性强的软件,而希望用一个综合性的软件代替的同志可以选择本软件。本阶段的大部分功能它都有。该软件具体特有良好的数据库管理(增加、修改、查找),对要操作的数据放在一个界面相同的数据库中统一管理。软件中的大部分分析可以通过在数据库中进行选定(数据)->分析->结果(显示、保存和入库)三步完成。在分析主界面,软件可以对核酸蛋白分子进行限制酶分析、结构域查找等多种分析和操作,生成重组分子策略和实验方法,进行限制酶片段的虚拟电泳,新建输入各种格式的分子数据、

生物信息学复习总结

生物信息期末总结 1.生物信息学(Bioinformatics)定义:(第一章)★ 生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。 (或:) 生物信息学是运用计算机技术和信息技术开发新的算法和统计方法,对生物实验数据进行分析,确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的获取和管理的学科。(NSFC) 2. 科研机构及网络资源中心: NCBI:美国国立卫生研究院NIH下属国立生物技术信息中心; EMBnet:欧洲分子生物学网络; EMBL-EBI:欧洲分子生物学实验室下属欧洲生物信息学研究所; ExPASy:瑞士生物信息研究所SIB下属的蛋白质分析专家系统;(Expert Protein Analysis System) Bioinformatics Links Directory; PDB (Protein Data Bank); UniProt 数据库 3. 生物信息学的主要应用: 1.生物信息学数据库;2.序列分析;3.比较基因组学;4.表达分析;5.蛋白质结构预测;6.系统生物学;7.计算进化生物学与生物多样性。 4.什么是数据库:★1、定义:数据库是存储与管理数据的计算机文档、结构化记录形式的数据集合。 (记录record、字段field、值value) 2、生物信息数据库应满足5个方面的主要需求: (1)时间性;(2)注释;(3)支撑数据;(4)数据质量;(5)集成性。 3、生物学数据库的类型:一级数据库和二级数据库。 库等;DDBJ核酸库和EMBL数据库、Genbank(国际著名的一级核酸数据库有. 蛋白质序列数据库有SWISS-PROT等;蛋白质结构库有PDB等。) ★4、一级数据库与二级数据库的区别: 1)一级数据库: 包括:a.基因组数据库----来自基因组作图; b.核酸和蛋白质一级结构序列数据库; c.生物大分子(主要是蛋白质)的三维空间结构数据库,(来自X-衍射和核磁共振结

比较齐全的生物信息学常用网站

生物信息学机构 NCBI https://www.sodocs.net/doc/4a12830556.html,/ International Nucleotide Sequence Database Collaboration. https://www.sodocs.net/doc/4a12830556.html,/collab/ EBI https://www.sodocs.net/doc/4a12830556.html,/ USDA https://www.sodocs.net/doc/4a12830556.html,/ Sanger Centre https://www.sodocs.net/doc/4a12830556.html,/ 北京大学生物信息学中心 https://www.sodocs.net/doc/4a12830556.html, 核苷酸数据库 GenBank https://www.sodocs.net/doc/4a12830556.html,/ dbEST https://www.sodocs.net/doc/4a12830556.html,/dbEST/index.html dbSTS https://www.sodocs.net/doc/4a12830556.html,/dbSTS/index.html dbGSS https://www.sodocs.net/doc/4a12830556.html,/dbGSS/index.html Genome (NCBI) https://www.sodocs.net/doc/4a12830556.html,/entrez/query.fcgi?db=Geno me dbSNP https://www.sodocs.net/doc/4a12830556.html,/SNP/ HTGS https://www.sodocs.net/doc/4a12830556.html,/HTGS/ UniGene https://www.sodocs.net/doc/4a12830556.html,/UniGene/ EMBL核苷酸数据库 https://www.sodocs.net/doc/4a12830556.html,/embl Genome (EBI) https://www.sodocs.net/doc/4a12830556.html,/genomes/ 向EMBL数据库提交序列 https://www.sodocs.net/doc/4a12830556.html,/embl/Submission/webin.html DDBJ http://www.ddbj.nig.ac.jp/ Plant R gene database https://www.sodocs.net/doc/4a12830556.html,/rgenes 启动子数据库 Eukaryotic promoter database http://www.epd.isb-sib.ch http://www.genome.ad.jp/dbget/dbget2.html 转录因子数据库 FRANSFAC http://transfac.gbf.de ooTFD https://www.sodocs.net/doc/4a12830556.html, 基因分类数据库 Gene Ontology (GO) https://www.sodocs.net/doc/4a12830556.html,

生物信息学工具介绍

生物信息学工具介绍 1、FASTA[10](https://www.sodocs.net/doc/4a12830556.html,/fasta33/)和BLAST[11](http://www.nc https://www.sodocs.net/doc/4a12830556.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。比较和确定某一数据库中的序列与某一给定序列的相似性是生物信息学中最频繁使用和最有价值的操作。本质上这与两条序列的比较没有什么两样,只是要重复成千上万次。但是要严格地进行一次比较必定需要一定的耗时,所以必需考虑在一个合理的时间内完成搜索比较操作。FASTA使用的是Wilbur-Lipman 算法的改进算法,进行整体联配,重点查找那些可能达到匹配显著的联配。虽然FASTA不会错过那些匹配极好的序列,但有时会漏过一些匹配程度不高但达显著水平的序列。使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST(Basic Loc al Alignment Search Tool,基本局部联配搜索工具)是基于匹配短序列片段,用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配。BLAST 是现在应用最广泛的序列相似性搜索工具,相比FASTA 有更多改进,速度更快,并建立在严格的统计学基础之上。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。BLAST根据搜索序列和数据库的不同类型分为5种:1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN在搜索相似序列

生物信息学数据库综述

生物信息学数据库综述 摘要本文对生物信息学常见的数据库进行了汇总。常见数据库分为三类:核酸序列数据库、蛋白质序列数据库、三维分子结构数据库。并分别对其中常见数据库进行了介绍。对于生物信息学数据库的现存问题也进行了论述。 关键词数据库;核酸序列数据库;蛋白质序列数据库;三维分子结构数据库; 随着生物信息的发展,生物信息学数据库的数量在不断的递增,内部结构也不断的复杂化,功能也越来越细化。根据数据的类型可以将数据库分为核酸序列数据库、蛋白质序列数据库三维分子结构数据库。本文将比较常见的数据进行了汇总。 1 核酸序列数据库 常用的核酸序列数据库有GenBank核酸序列数据库、EMBL核酸数据库、DDBJ数据库、GDBD等。 1.1GenBank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(N CBI)建立和维护的。Genbank每天都会与欧洲分子生物学实验室(EM BL)的数据库,和日本的DNA 数据库(DDBJ)交换数据,使这三个数据库的数据同步。Genbank的数据可以从N CBI的FrP服务器上免费下载完整的库,或下载积累的新数据。N CBI还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从N CBI的主页上找到这些服务。Gel~ bank 库里的所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件 1.2 EM BL核酸序列数据库 EM BL 核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)N务完成l 6J。向E M BL核酸序列数据库提交序列可以通过基于W eb的WEBI N工具,也可以用Sequi n 软件来完成。 1.3 DD BJ 数据库 D D BJ数据库创建于1984 年,由日本国立遗传学研究所遗传信息中心维护。它首先反映日本所产生的DNA数据,同时与Genbank、EMBL合作互通有无,同步更新,每年四版。日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库。可以使用其主页上提供的SAS工具进行数据检索和分析。可以用Sequin 软件向该数据库提交序列。 1 .4 G D B 人类基因组数据库(GD B)是人类基因图谱和疾病的数据库。GDB的目标是构建关于人类基因组图谱和测序。目前GDB中有:人类基因组区域(包括基因、克隆、amplimersPCR标记、断点breakpoint细胞遗传标记cytogenetic markers、

生物信息学数据库大全

综合数据库 ★INSD,国际核酸序列数据库(International Nucleotide Sequence Databank)。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。 ★EMBL库,欧洲分子生物学实验室的DNA和RNA 序列库。https://www.sodocs.net/doc/4a12830556.html,/embl.html ★GenBank ,美国国家生物技术信息中心(NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。https://www.sodocs.net/doc/4a12830556.html,/Web/Genbank/ ★DNA Databank of Japan (DDBJ) ,日本核酸数据库。http://www.ddbj.nig.ac.jp/ ★GSDB是由美国国家基因组资源中心(NCGR)维护的DNA序列关系数据库(Genome Sequence DataBase)。https://www.sodocs.net/doc/4a12830556.html,/gsdb/ ★TIGR DATAbase,是世界上最大的cDNA数据库,还有大量的EST序列和人类基因索引(HGI)。https://www.sodocs.net/doc/4a12830556.html,/tdb/hcd/overview.html DNA序列数据库 包括与DNA的复制、转录、修复等有密切关系的蛋白质因子。 ★BioSino是中国自主开发的核酸序列公共数据库。 https://www.sodocs.net/doc/4a12830556.html,/ ★CUTG,MM子使用频度表。 http://www.dna.affrc.go.jp/~nakamura/CUTG.html http://www.kazusa.or.jp/codon/ http://www.dna.affrc.go.jp/~nakamura/CUTG.html ★EPD,真核生物启动子数据库(Eukaryotic Promotor Database)。 http://www.epd.isb-sib.ch/ ★TRANSFAC,真核生物基因表达调控因子的数据库。 http://transfac.gbf.de/TRANSFAC ★TRRD.真核生物基因组转录调控区数据库。 http://www.mgs.bionet.nsc.ru/mgs/dbases/trrd4/ ★OOTFD,转录因子和基因表达数据库。 https://www.sodocs.net/doc/4a12830556.html,/ ★RepBase,真核生物DNA中重复序列数据库。 https://www.sodocs.net/doc/4a12830556.html,/~server/repbase.html ★MicroSatellite,微卫星重复序列数据库。 https://www.sodocs.net/doc/4a12830556.html,/gopher-menus/MicroSatelliteDatabase.html ★ALU数据库是人及其他灵长类代表性的Alu重复片段。 https://www.sodocs.net/doc/4a12830556.html,(/pub/jmc/alu/) ★Simple Repeats,简单重复序列库。 https://www.sodocs.net/doc/4a12830556.html, ★COMPEL,复合元件数据库。 ftp://ftp.gbf-braunschweig.de(/pub/compel/) ★MPDB,分子探针数据库。 http://www.biotech.ist.unige.it/interlab/mpdb.html ★HvrBase,灵长类mtDNA调控区序列库,主要是人的HVI和HVII两个高变异区的序列。http://monolith.eva.mpg.de/hvrbase/ ★PlantCARE,植物顺式作用(cis-acting)调控因子数据库。 http://sphinx.rug.ac.be:8080/PlantCare/

相关主题