当前位置：搜档网 › 生物信息学在生物研究中的应用

生物信息学在生物研究中的应用

生物信息学在生物学研究中的应用

(四川大学生命科学学院生物学基地班 )

摘要：生物信息学（Bioinformatics）是80年代兴起的一门新的交叉学科，随即在基因组学研究、蛋白质组学研究及相关领域广泛应用。生物信息学对生物数据进行收集、整理与服务，并从中发现规律指导研究，是当今生物学研究不可或缺的重要工具。

关键词：生物信息学；基因组学；蛋白质组学；生物学研究生物信息学是20世纪80年代末伴随着基因组测序数据的迅猛增长而逐渐兴起的一门新兴科学，是当今世界的研究热点。了解生物信息学的定义、研究内容及其在生物学上的应用，对于生命科学领域的研究具有重大意义。

1.生物信息学的定义和研究内容

1.1生物信息学定义

由于生物信息学是一门新兴的、正在迅速发展的交叉学科，目前国内外对生物信息学的定义众说纷纭，没有形成统一认识。概括来说，现代生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、储存、传递、检索、分析和解读的科学，是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。

1.2生物信息学的研究内容

目前，国际上公认的生物信息学的主要研究内容大致包括以下方面：①生物信息的收集、储存、分析、管理和提供；②基因组序列信

息的提取和分析；③功能基因组相关信息分析；④生物大分子结构模拟和药物设计；⑤生物信息分析的技术与方法研究；⑥应用与发展研究。

2．生物信息在生物学研究上的应用

2.1 基因组学研究

基因组（genome）表示一个生物体所有的遗传信息的总和。一个生物体基因所包含的信息决定了该生物体的生长、发育、繁殖和消亡等所有生命现象。有关基因组的研究称为基因组学(Genomics)，基因组学根据研究重点的不同分为序列基因组学(Sequence genomics)、结构基因组学(Structural genomics)、功能基因组学(Functional genomics)与比较基因组学(Comparative genomics)。

结构基因组学的研究：结构基因组学(Structural genomics)是基于基因组学的一个重要组成部分和研究领域，它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学口。生物信息学在结构基因组学中的应用主要在于：基因组作图、核苷酸序列信息分析、基因定位、新基因的发现和鉴定等方面。

比较基因组学的研究：借助生物信息学的手段对不同生物基因组的比较、分析，可以进行生物进化等方面的研究。

功能基因组学的研究：功能基因组学(Functional genomics)是指在全基因组序列测定的基础上，从整体水平研究基因及其产物在不同时空、条件下的结构与功能关系及活动规律的学科。功能基因组的研究是后基因组时代的关键点，它将借助生物信息学的技术平台，利用

先进的基因表达技术及庞大的生物功能检测体系，从浩瀚无垠的基因库筛选并确知某一特定基因的功能，并通过比较分析基因及其表达的状态，确定出基因的功能内涵，揭示生命奥秘，甚至开发出基因产品。

2.2 蛋白质组学的研究

蛋白质组(proteome)是指一个基因组，一种生物或一种组织／细胞所表达的全套蛋白质，蛋白质组学(proteomics)是以蛋白质组为研究对象的新的研究领域，主要研究细胞内蛋白质的组成及其活动规律，建立完整的蛋白质文库。现有的蛋白质研究方法。如双向电泳等电聚焦(2一D)，色谱分析，质谱分析等，都需要特殊设备且价格昂贵；体外翻译表达系统可研究蛋白质的加工，释放和亚细胞定位，但操作烦琐，而生物信息学为我们提供了一条可以直接由基因或蛋白质序列进行

蛋白质功能预测和结构分析的捷径。生物信息学在蛋白质组学方面的研究主要在于以下两个方面：

蛋白质的结构与功能的研究：现有的研究结果表明，蛋白质的结构与功能有着密切的关系，尤其是蛋白质的三维结构。通过研究蛋白质三维结构可以预测其特定的功能。通过计算机辅助预测将序列、结构与功能分析等方法联系起来，可克服同源建模、折叠识别、threading 以及聚类分析法等方法的不足。生物信息学在蛋白质结构研究中的应用主要有：(1)靶点的选择；（2)同源性模拟；(3)基于结构基础上的功能的研究等。

蛋白质分子相互作用及其作用途径的研究：检测蛋白质分子间相互作用的方法，一是通过实验。另一种是通过计算机法，如启动子分析

技术。该技术的理论基础是，共调节基因的产物通常处于同一代谢通路中，而且，共表达意味着拥有共同的启动子或增强子。通过已知基因的作用途径来预测其相关基因的作用途径。但是，由于目前没法获得足够的参考数据，所以，对预测蛋白质分子间的相互作用及其作用途径的方法还很难进行评估。试验方法获得的有关蛋白质间的作用的数据主要来自于酵母双杂交实验，用这种方法得到的有关蛋白质间相互作用的方式只是结构域间的作用，并不代表完整蛋白分子间的作用方式，且作用的时间和地点也都发生了改变。因此，通过计算机技术模拟生物大分子的相互作用是一条比较理想的研究途径。

结语

生物信息学的发展将给生命科学研究带来革命性的变革，将帮助人类认识生命的起源、进化、遗传和发育的本质，揭示人体生理和病理过程的分子基础，为人类疾病的预测、诊断、预防和治疗提供合理和有效的方法或途径，同时还将对医药、卫生、食品、农业等产业产生巨大的推动作用，甚至可能引发新的产业革命。21世纪是生命科学的时代，生物信息学为生命科学的发展提供了便利和强有利的技术支持，推动着生命科学的迅速发展。

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学广义：生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达；细胞、组织、器官的生理、病理、药理过程的中各种生物信息。狭义：生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划人类基因组计划准备用15年时间，投入30亿美元，完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定，主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序，以及信息系统的建立。作图和测序是基本的任务，在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则是指遗传信息从传递给，再从RNA传递给，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较序列比较的根本任务是：（1）发现序列之间的相似性；（2）辨别序列之间的差异目的：相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化关系 7、一级数据库数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 8、基因识别基因识别，是生物信息学的一个重要分支，使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因，也包括其他具有一定生物学功能的因子，如RNA基因和调控因子。 9、系统发生学系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片基因芯片（gene chip），又称DNA微阵列（microarray），是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列，其工作的基本原理是通过杂交检测信息。

计算机在生物信息学中的应用_王帆

2012年第35期生物信息学是利用计算机为工具，用数学及信息科学的理论和方法研究生命现象，对生物信息进行收集、加工、存储、检索和分析的科学。生物信息学的核心是基因组信息学，基因组学是研究生物基因组和如何利用基因的一门学问，该学科提供基因组信息以及相关数据系统，试图解决生物、医学和工业领域的重大问题。对于基因组学研究所产生的大量数据必须借助于先进的计算机技术收集和分析处理这些生物学信息，因此计算机科学为生物信息学的研究和应用提供了非常好的支撑。 1.序列比对序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性，进而推测其结构功能及进化上的联系。研究序列相似性的目的是通过相似的序列得到相似的结构或功能，也可以通过序列的相似性判别序列之间的同源性，推测序列之间的进化关系。序列比对是生物信息学的基础，非常重要。序列比对中最基础的是双序列比对，双序列比较又分为全局序列比较和局部序列比较，这两种比较均可用动态程序设计方法有效解决。在实际应用中，某些在生物学上有重要意义的相似性不是仅仅分析单条序列，只能通过将多个序列对比排列起来才能识别。比如当面对许多不同生物但蛋白质功能相似时，我们可能想知道序列的哪些部分是相似的，哪些部分是不同的，进而分析蛋白质的结构和功能。为获得这些信息，我们需要对这些序列进行多序列比对。多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等，这些算法都可以通过计算机得以解决。 2.数据库搜索随着人类基因组计划的实施，实验数据急剧增加，数据的标准化和检验成为信息处理的第一步工作，并在此基础上建立数据库，存储和管理基因组信息。这就需要借助计算机存储大量的生物学实验数据，通过对这些数据按一定功能分类整理，形成了数以百计的生物信息数据库，并要求有高效的程序对这些数据库进行查询，以此来满足生物学工作者的需要。数据库包括一级数据库和二级数据库，一级数据库直接来源于实验获得的原始数据，只经过简单的归类整理和注释；二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。分子生物学的三大核心数据库是GenBank 核酸序列数据库，SWISS-PROT 蛋白质序列数据库和PDB 生物大分子结构数据库，这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构，破译基因组信息提供了必要的支撑。但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐，对于大量的实验结果必须利用计算机进行自动分析，以此来寻找数据之间存在的密切关系，并且用来解决实际中的问题。 3.基因组序列分析基因组学研究的首要目标是获得人的整套遗传密码，要得到人的全部遗传密码就要把人的基因组打碎，测完每个小的序列后再把它们重新拼接起来。所以目前生物信息学的大量工作是针对基因组DNA 序列的，建立快速而又准确的DNA 序列分析方法对研究基因的结构和功能有非常重要的意义。对于基因组序列，人们比较关心的是从序列中找到基因及其表达调控信息，比如对于未知基因，我们就可以通过把它与已知的基因序列进行比较，从而了解该基因相关的生理功能或者提供疾病发病机理的信息，从而为研发新药或对疾病的治疗提供一定的依据，使我们更全面地了解基因的结构，认识基因的功能。因此，如何让计算机有效地管理和运行海量的数据也是一个重要问题。 4.蛋白质结构预测蛋白质是组成生物体的基本物质，几乎一切生命活动都要通过蛋白质的结构与功能体现出来，因此分析处理蛋白质数据也是相当重要的，蛋白质的生物功能由蛋白质的结构所决定，因此根据蛋白质序列预测蛋白质结构是很重要的问题，这就需要分析大量的数据，从中找出蛋白质序列和结构之间存在的关系与规律。蛋白质结构预测分为二级结构预测和空间结构预测，在二级结构预测方面主要有以下几种不同的方法：①基于统计信息；②基于物理化学性质；③基于序列模式；④基于多层神经网络；⑤基于图论；⑥基于多元统计；⑦基于机器学习的专家规则；⑧最邻近算法。目前大多数二级结构预测的算法都是由序列比对算法BLAST 、FASTA 、CLUSTALW 产生的经过比对的序列进行二级结构预测。虽然二级结构的预测方法其准确率已经可以达到80%以上，但二级结构预测的准确性还有待提高。在实际进行蛋白质二级结构预测时，往往会把结构实验结果、序列比对结果、蛋白质结构预测结果，还有各种预测方法结合起来，比较常用的是同时使用多个软件进行预测，把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。将序列比对与二级结构预测相结合也是一种常见的综合分析方法。蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角等几种形式，它们是构成蛋白质高级结构的基本要素，常见的二级结构有α-螺旋和β-折叠。三级结构是在二级结构的基础上进一步盘绕，折叠形成的。研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系，预测蛋白质的二级结构预测只是预测蛋白质三维形状的第一步，蛋白质折叠问题是非常复杂的，这就导致了蛋白质的空间结构预测的复杂性。蛋白质三维结构预测方法有：同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法，结果都是预测，采用不同的算法，可能产生不同的结果，因此还需要研究新的理论计算方法来预测蛋白质的三维结构。图4.1蛋白质结构（下转第100页）计算机在生物信息学中的应用王帆刘帅（长春工程学院计算机基础教学中心吉林长春 130012）【摘要】生物信息学是一门新兴的、正在迅速发展的交叉学科，它不仅对认识生物体的起源与进化研究有重要意义，而且还可以为人类诊断疾病及物种的改良提供一定的理论依据。生物研究过程中产生的海量数据又需要具有数据处理和分析能力的大容量、高性能的超级计算机的支持，因此计算机技术在生物信息学的研究中显得尤为重要，本文就简单介绍了计算机在生物信息学研究中的哪些方面起到了不可忽略的作用。【关键词】生物信息学；计算机科学；基因组学作者简介：王帆(1980—)，男，长春人，毕业于长春理工大学，本科学历，信息与计算科学专业。刘帅(1979—)，女，长春人，东北师范大学硕士研究生，主要研究方向为计算机软件与理论。 ◇高教论述◇

生物信息学的主要研究内容

常用数据库在DNA序列方面有GenBank、EMBL和等在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等在蛋白质和其它生物大分子的结构方面有PDB等在蛋白质结构分类方面有SCOP和CATH等生物信息学的主要研究内容 1、序列比对（Alignment）基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础，非常重要。两个序列的比对有较成熟的动态规划算法，以及在此基础上编写的比对软件包BLAST和FASTA，可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测，包括2级和3级结构预测，是最重要的课题之一从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建（Homology）和指认（Threading）方法属于这一范畴。虽然经过30余年的努力，蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一，而且越来越重要。经过20余年的努力，提出了数十种算法，有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些，结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子，是个相当困难的问题，研究现状不能令人满意，仍有大量的工作要做。 5、非编码区分析和DNA语言研究，是最重要的课题之一在人类基因组中，编码部分进展总序列的3~5%，其它通常称为“垃圾”DNA，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中。 6、分子进化和比较基因组学，是最重要的课题之一早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化，构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做，甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成，为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群（Contigs）装配一般来说，根据现行的测序技术，每次反应只能测出500或更多一些碱基对的序列，这就有一个把大量的较短的序列全体构成了重叠群（Contigs）。逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明，这是一个NP-完备

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程息的存贮、信息的涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。 2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。 5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。（来自百度） 6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。（来自百度） 7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。 8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度） 9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。 10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。（来自百度） 11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。（来自文献） 12.Gene Ontology 协会： 13.HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。 17.Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。（来自百度） 18.Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。（来自百度）

浅谈生物信息学在生物方面的应用

浅谈生物信息学在生物方面的应用生物信息学（bioinformaLics）是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象，以数学、信息学、计算机科学为主要手段，对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工，使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析，从中获得基因的编码、凋控、遗传、突变等知识；研究核酸和蛋白质等生物大分子的结构、功能及其相互关系；研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。从生物信息学研究的具体内容上看，生物信息学可以用于序列分类、相似性搜索、DNA 序列编码区识别、分子结构与功能预测、进化过程的构建等方面的计算工具已成为变态反应研究工作的重要组成部分。针对核酸序列的分析就是在核酸序列中寻找过敏原基因，找出基因的位置和功能位点的位置，以及标记已知的序列模式等过程。针对蛋白质序列的分析，可以预测出蛋白质的许多物理特性，包括等电点分子量、酶切特性、疏水性、电荷分布等以及蛋白质二级结构预测，三维结构预测等。生物信息学中的主要方法有：序列比对，结构比对，蛋白质结构的预测，构造分子进化树，聚类等。基因芯片是基因表达谱数据的重要来源。目前生物信息学在基因芯片中的应用主要体现在三个方面。 1、确定芯片检测目标。利用生物信息学方法，查询生物分子信息数据库，取得相应的序列数据，通过序列比对，找出特征序列，作为芯片设计的参照序列。 2、芯片设计。主要包括两个方面，即探针的设计和探针在芯片上的布局，必须根据具体的芯片功能、芯片制备技术采用不同的设计方法。 3、实验数据管理与分析。对基因芯片杂交图像处理，给出实验结果，并运用生物信息学方法对实验进行可靠性分析，得到基因序列变异结果或基因表达分析结果。尽可能将实验结果及分析结果存放在数据库中，将基因芯片数据与公共数据库进行链接，利用数据挖掘方法，揭示各种数据之间的关系。生物信息学在人类基因组计划中也具有重要的作用。大规模测序是基因组研究的最基本任务，它的每一个环节都与信息分析紧密相关。目前，从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙，到重复序列标识、读框预测和基因标注的每一步都是紧密依赖基因组信息学的软件和数据库的。特别是拼接和填补序列间隙更需要把实验设计和信息分析时刻联系在一起．拼接与组装中的难点是处理重复序列，这在含有约30％重复序列的人类基因组中显得尤其突出。人类基因组的工作草图即将完成，因此发现新基因就成了当务之急。使用基因组信息学的方法通过超大规模计算是发现新基因的重要手段，可以说大部分新基因是靠理论方法预测出来的。比如啤酒酵母完整基因组（约1300万bp）所包含6千多个基因，大约60％是通过信息分析得到的。当人类基因找到之后，自然要解决的问题是：不同人种间基因有什么差别；正常人和病人基因又有什么差别。”这就是通常所说的SNPs（单核苷酸多态性）。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。1998年国际已开展了以EST为主发现新Spps 的研究。在我国开展中华民族SNPs研究也是至重要的。总之，生物信息学不仅将赋予人们各种基础研究的重要成果，也会带来巨大的经济效益和社会效益。在未来的几年中DNA 序列数据将以意想不到的速度增长，这更离不开利用生物信息学进行各类数据的分析和解释，研制有效利用和管理数据新工具。生物信息学在功能基因组学同样具有重要的应用目前应用最多的是同源序列比较、模式识别以及蛋白结构预测。所谓同源序列，是指从某一共同祖先经趋异进化而形成的不同序列。利用数据库搜索找出未知核酸或蛋白的同源序列，是序列分析的基础[lol。如利用BLASTn和BLASTx两种软件分别进行核苷酸和氨基

生物信息学中的机器学习方法

生物信息学中的机器学习方法摘要：生物信息学是一门交叉学科，包含了生物信息的获取、管理、分析、解释和应用等方面，兴起于人类基因组计划。随着人类基因组计划的完成与深入，生物信息的研究工作由原来的计算生物学时代进入后基因组时代，后基因组时代中一个最重要的分支就是系统生物学。本文从信息科学的视角出发，详细论述了机器学习方法在计算生物学和系统生物学中的若干应用。关键词：生物信息学；机器学习；序列比对；人类基因组；生物芯片 1.相关知识 1.1 生物信息学生物信息学时生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它综合运用生物学、计算机科学和数学等多方面知识与方法，来阐明和理解大量生物数据所包含的生物学意义，并应用于解决生命科学研究和生物技术相关产业中的各种问题。生物信息学主要有三个组成部分：建立可以存放和管理大量生物信息学数据的数据库；研究开发可用于有效分析与挖掘生物学数据的方法、算法和软件工具；使用这些工具去分析和解释不同类型的生物学数据，包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达以及生化途径等。生物信息学这个术语从20世纪90年代开始使用，最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。自从20世纪60年代就有了序列分析的计算机工具，但是那时并未引起人们很大的关注，直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。现在该术语已扩展到几乎覆盖各种类型的生物学数据，如蛋白质结构、基因表达和蛋白质互作等。目前的生物信息学研究，已从早期以数据库的建立和DNA序列分析为主的阶段，转移到后基因组学时代以比较基因组学（comparative genomics）、功能基因组学（functional genomics）和整合基因组学（integrative genomics）为中心的新阶段。生物信息学的研究领域也迅速扩大。生物信息学涉及生物学、计算机学、数学、统计学等多门学科，从事生物信息学研究的工作者或生物信息学家可以来自以上任何一个领域而侧重于生物信息学的不同方面。事实上，我们今天正需要具备各种背景知识、才能和研究思路的研究人员，集思广益

BLOSUM矩阵和其在生物信息学中的应用

[生工0902] BLOSUM矩阵及其在生物信息学中的使用生物信息学齐阳，汪锴，袁理 2011/11/25 什么是BLOSUM矩阵？BLOSUM矩阵有什么使用？

BLOSUM矩阵及其在生物信息学中的使用齐阳汪锴袁理摘要BLOSUM矩阵是一种蛋白质序列对比的算法，在生物信息学领域中被广泛使用。本文综述了BLOSUM矩阵的由来、如何构建BLOSUM矩阵和其打分规则、使用以及现代算法。并指出了BLOSUM矩阵的发展前景。关键词BLOSUM矩阵；生物信息学；使用 0 引言序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对，通过比较两个序列之间的相似区域和保守性位点，寻找二者可能的分子进化关系，进而可以有效地分析和预测一些新发现基因的功能。目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性，过去所普遍使用的Dayhoff矩阵只能用来进行相似度85%以上的序列对比「1」，为了满足大量生命科学研究的需求，1992年Henikoff夫妇从蛋白质模块数据库BLOCKS中找出一组替代矩阵，即BLOSUM系列，很好的解决了序列的远距离相关的问题，此后十几年来BLOSUM及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。 1BLOSUM矩阵概况序列比对是现代生物学最基本的研究方法之一，常见的比对是蛋白质序列之间或核酸序列之间的两两比对，通过比较两个序列之间的相似区域和保守性位点，寻找二者可能的分子进化关系，进而可以有效地分析和预测一些新发现基因的功能。在比对两个序列时，不仅要考虑完全匹配的字符，还要考虑一个序列中的空格或间隙（或者，相反地，要考虑另一个序列中的插入部分）和不匹配，这两个方面都可能意味着突变「2」。在序列比对中，需要找到最优的比对即将匹配的数量最大化，将空格和不匹配的数量最小化。为了确定最优的比对，必须为每个比对进行评估和打分，于是引入了打分函数「3」。

生物信息学基本知识

1.DNA:遗传物质(遗传信息的载体) 双螺旋结构,A,C,G,T四种基本字符的复杂文本 2.基因（Gene）：具有遗传效应的DNA分子片段 3.基因组(Genome)：包含细胞或生物体全套的遗传信息的全部遗传物质。人类包括细胞核基因组和线粒体基因组 OR一个物种中所有基因的整体组成 4.人类基因组：3.0×109bp模式生物 5.HGP的最初目标通过国际合作，用15年时间(1990～2005)至少投入30亿美元，构建详细的人类基因组遗传图和物理图，确定人类DNA的全部核苷酸序列，定位约10万基因，并对其它生物进行类似研究。 6.HGP的终极目标阐明人类基因组全部DNA序列；识别基因；建立储存这些信息的数据库；开发数据分析工具；研究HGP实施所带来的伦理、法律和社会问题。 7.遗传图谱（genetic map）又称连锁图谱(linkage map)，它是以具有遗传多态性（在一个遗传位点上具有一个以上的等位基因，在群体中的出现频率皆高于1%）的遗传标记为“路标”，以遗传学距离（在减数分裂事件中两个位点之间进行交换、重组的百分率，1%的重组率称为1cM）为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。 8.遗传连锁图：通过计算连锁的遗传标志之间的重组频率，确定它们的相对距离，一般用厘摩（cM，即每次减数分裂的重组频率为1%）表示。 9.物理图谱（physical map）是指有关构成基因组的全部基因的排列和间距的信息，它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。 10.转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。 11.序列图谱:随着遗传图谱和物理图谱的完成，测序就成为重中之重的工作。 DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱 12.大规模测序基本策略逐个克隆法：对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装（公共领域测序计划）全基因组鸟枪法：在一定作图信息基础上，绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序，利用超级计算机进行组装（美国Celera公司） 13.基因识别（gene identification）是HGP的重要内容之一，其目的是识别全部人类的基因。基因识别包括：识别基因组编码区识别基因结构基因识别目前常采用的有二种方法：从基因组序列中识别那些转录表达的DNA片段从cDNA文库中挑取并克隆。 14.基因组多态性（Polymorphism）:是指在一个生物群体中，同时和经常存在两种或多种不连续的变异型或基因型（genotype）或等位基因（allele），亦称遗传多态性（genetic

生物信息学完整版

一、名词解释 1. 生物信息学： 1）生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科； 2）它综合运用了数学、计算机学和生物学的各种工具来进行研究； 3）目的在于阐明大量生物学数据所包含的生物学意义。 2. BLAST（Basic Local Alignment Search Tool）直译：基本局部排比搜索工具意译：基于局部序列排比的常用数据库搜索工具含义：蛋白质和核酸序列数据库搜索软件系统及相关数据库 3. PSI-BLAST：是一种迭代的搜索方法，可以提高BLAST和FASTA的相似序列发现率。 4. 一致序列：这些序列是指把多序列联配的信息压缩至单条序列，主要的缺点是除了在特定位置最常见的残基之外，它们不能表示任何概率信息。 5. HMM 隐马尔可夫模型：一种统计模型，它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。（课件定义）是蛋白质结构域家族序列的一种严格的统计模型，包括序列的匹配，插入和缺失状态，并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。 6. 信息位点：由位点产生的突变数目把其中的一课树与其他树区分开的位点。 7. 非信息位点：对于最大简约法来说没有意义的点。 8. 标度树：分支长度与相邻节点对的差异程度成正比的树。 9. 非标度树：只表示亲缘关系无差异程度信息。 10. 有根树：单一的节点能指派为共同的祖先，从祖先节点只有唯一的路径历经进化到达其他任何节点。 11. 无根树：只表明节点间的关系，无进化发生方向的信息，通过引入外群或外部参考物种，可以在无根树中指派根节点。 12. 注释：指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基因和其他功能元件（结构注释），并给出这些序列的功能（功能注释）。 13. 聚类分析：一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。 14. 无监督分析法：这种方法没有内建的分类标准，组的数目和类型只决定于所使用的算法和数据本身的分析方法。 15. 有监督分析法：这种方法引入某些形式的分类系统，从而将表达模式分配到一个或多个预定义的类目中。 16. 微阵列芯片：将探针有规律地排列固定于载体上，与标记荧光分子的样品进行杂交，通过扫描仪扫描对荧光信号的强度进行检测，从而迅速得出所要的信息。 17. 虚拟消化：是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切（课件定义）。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上，由计算机进行的一种理论上的蛋白裂解反应。 18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法，从而使分子质量的准确确定成为可能。 19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。 20. 虚拟细胞：一种建模手段，把细胞定义为许多结构，分子，反应和物质流的集合体。 21. 先导化合物：是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中，搜索能与生物大分子靶点匹配的化合物，或者搜索能与结合药效团相符的化合物，又称原型物，简称先导物，是通过各种途径或方法得到的具有生物活性的化学结构

生物信息学分析方法

核酸和蛋白质序列分析蛋白质, 核酸, 序列关键词：核酸序列蛋白质序列分析软件在获得一个基因序列后，需要对其进行生物信息学分析，从中尽量发掘信息，从而指导进一步的实验研究。通过染色体定位分析、内含子／外显子分析、ORF分析、表达谱分析等，能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等，识别调控区的顺式作用元件，可以为基因的调控研究提供基础。通过蛋白质基本性质分析，疏水性分析，跨膜区预测，信号肽预测，亚细胞定位预测，抗原性位点预测，可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白，这对确定实验研究方向有重要的参考意义。此外，通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等，尽量挖掘网络数据库中的信息，可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接，放在北京大学人类疾病基因研究中心网站（https://www.sodocs.net/doc/e99485313.html,/science/bioinfomatics.htm）,可以直接点击进入检索网站。下面介绍其中一些基本分析。值得注意的是，在对序列进行分析时，首先应当明确序列的性质,是mRNA序列还是基因组序列？是计算机拼接得到还是经过PCR扩增测序得到？是原核生物还是真核生物？这些决定了分析方法的选择和分析结果的解释。（一）核酸序列分析 1、双序列比对（pairwise alignment）双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置，它是用计算机进行序列分析的强大工具，分为全局比对和局部比对两类，各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式（heuristic）的算法，因此并没有最优值。根据比对的需要，选用适当的比对工具，在比对时适当调整空格罚分（gap penalty）和空格延伸罚分（gap extension penalty），以获得更优的比对。除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外，我们还推荐使用EMBOSS软件包中的Needle软件（http://bioinfo.pbi.nrc.ca:8090/EMBOSS/），和Pairwise BLAST （https://www.sodocs.net/doc/e99485313.html,/BLAST/）。以上介绍的这些双序列比对工具的使用都比较简单，一般输入所比较的序列即可。（1）BLAST和FASTA FASTA（https://www.sodocs.net/doc/e99485313.html,/fasta33/）和BLAST （https://www.sodocs.net/doc/e99485313.html,/BLAST/）是目前运用较为广泛的相似性搜索工具。这两

生物信息学在医学领域的应用前沿

生物信息学在医学领域的应用前沿摘要：生物信息学是有生命科学、信息学、数学、物理、化学等学科相互交融而形成的新兴学科。生物信息数据库几乎覆盖了生命科学的各个领域，截止至2010年，总数已达1230个。生物信息学已不断渗透到医学领域的研究中。生物信息学在医学领域中主要应用于医学基础研究、临床医学、药物研发和建立与医学有关的生物信息学数据库。关键词：生物信息学；医学；基因；应用生物信息学是20世纪80年代以来随着人类基因组生命科学与信息科学以及数学、物理、化学等学科相互交融而形成的新兴学科，是当今最具发展前途的学科之一。人类基因组计划的顺利推进产生了海量基因数据，这些数据中蕴藏着丰富的生物学内涵，如果能充分挖掘并加以利用，可能揭示出很多对人类有用的信息。生物信息学已经成为生物学、医学、农学、遗传学、细胞生物学等学科发展的强大推动力量。随着生物信息学研究的深入与发展，它已不断渗透到医学领域的研究中。近年来，伴随着对基因组的研究不断深入，部分应用领域取得了令人瞩目的突破，其潜在的经济利益更是吸引了众多国家、企业及大量科研人员投入到相关研究中，生物信息学得到了迅猛的发展。一、主要数据库数据库是生物信息学的主要内容，各种数据库几乎覆盖了生命科学的各个领域。截止至2010年，生物信息数据库总数已达1230个。生物信息数据可可分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据，只经过简单的归类整理和注释，如Genbank数据库、SWISS-PROT数据库；二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步整理，如人类基因组图谱库GDB。在医学领域中常用的生物信息数据库主要有：核酸类数据库，如NCBI核苷酸序列数据库(Gen Bank )、欧洲核苷酸序列数据库(EMBL)、日本DNA 数据库(DDB)等；蛋白相关数据库，如蛋白质数据库(SWISS-PROT)、蛋白质信息资源库(HR)、Entrez 的蛋白三维结构数据库(MMDB)、蛋白质交互作用数据库(DIP)等；疾病相关数据库，包括综合临床数据库，如NCBI疾病基因数据库、Gene Cards等；遗传性疾病数据库，如遗传性疾病数据库(GDB)、人类遗传性疾病数据库(Gene Dis)等；肿瘤相关数据库，如肿瘤基因组解剖工程(CGAP)等；心血管疾病相关数据库，如心血管疾病相关生物医学数据库(Cardio)、心脏疾病计划及临床决策支持系统(HDP &CDM)等；免疫性疾病数据库，如免疫功能分子数据库( HMM)、免疫缺陷资源库(IDR)等；药物相关数据库，如药物和疾病数据库(Drugs)、FDA药品评审与研究中心(CDER)等。二、生物信息学在医学领域的应用 2.1 生物信息学在医学基础研究中的应用 2.1.1 新基因的发现与鉴定疾病的发生发展与特异基因的改变有关，鉴定与疾病相关的基因是科学家在积极探索的一个方向，对治疗某些疑难杂症带来新的契机。发现新基因是当前国际上基因组研究的热点，使用生物信息学的方法是发现新基因的重要手段。现在很多疾病的致病基因已经发现，包括癌症、肥胖、哮喘、心脑血管病等，其中与癌症相关的原癌基因约有1000个，抑癌基因约有100个。目前发现新基因的主要方法有以下3种：①通过多序列比对从基因组DNA序列中预测新基因，其本质是把基因组中编码蛋白质的区域和非编码蛋白质的区域区分开来。②基因的电子克隆，即以计算机和互联网为手段，通过发展新算法，对生物信息数据库中存储的表达序列标签进行修正、聚类、拼接和组装，获得完整的基因序列，以期发现新基因。③发现单核苷酸多态性。例如，2010年我国学者通过生物信息学EST 拼接技术，RT－PCR等技术，克隆出30个人类未知功能的新基因，并通过生物信息学分析该基因

生物信息学基本分析

核酸序列的基本分析运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用BioEdit（版本7.0.5.3）软件对基因做酶切谱分析。碱基同源性分析运用NCBI信息库的BLAST程序对基因进行碱基同源性分析(Translated query vs.protien database(blastx))网站如下：https://www.sodocs.net/doc/e99485313.html,/BLAST/ 参数选择：Translated query-protein database [blastx]；nr;stander1 开放性阅读框（ORF）分析利用NCBI的ORF Finder程序对基因做开放性阅读框分析，网址如下： https://www.sodocs.net/doc/e99485313.html,/projects/gorf/orfig.cgi 参数选择：Genetic Codes：1 Standard 对蛋白质序列的结构功能域分析运用简单模块构架搜索工具（Simple Modular Architecture Research Tool,SMART）对基因的ORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立，其中集成了大部分目前已知的蛋白质结构功能域的数据。网址如下：http://smart.embl-heidelberg.de/ 运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析参数选择：Search Database：CDD v2.07－11937PSSM Expect：0.01 Filter：Low complexity Search mode：multiple hits 1－pass 同源物种分析用DNAMAN软件将蛋白质序列相关基因序列比对，根据结果绘出系统进化树，并进行分析。蛋白质一级序列的基本分析运用BioEdit（版本7.0.5.3）软件对基因ORF翻译的蛋白的一些基本性质，对分子量、等电点、氨基酸组成等作出分析。二级结构和功能分析信号肽预测利用丹麦科技大学（DTU）的CBS服务器蛋白质序列的信号肽（signal peptide）预测，进入Prediction Serves 页面。网址如下：http://www.cbs.dtu.dk/services/SignalP/ 参数选择： Eukaryotes；Both；GIF (inline)；Standard；疏水性分析利用瑞士生物信息学研究所（Swiss Institute of Bioinformatics，SIB）的ExPASy服务器上的ProtScale程序对ORF 翻译后的氨基酸序列做疏水性分析网址如下： https://www.sodocs.net/doc/e99485313.html,/cgi-bin/protscale.pl 参数选择：

生物信息学基础知识

分子生物学基础知识太仓生命信息研究所 2011-7

前言本文仅适用于对非生物专业的员工进行基础知识普及。如有深入学习的要求，请选用正规权威教材。本教材以蛋白质、DNA、RNA、复制、转录和翻译为主要讲解内容，目的是帮助员工理解在工作中会遇到的常见生物学概念及术语目录前言 (2) 目录 (2) 蛋白质 (3) 1. 什么是蛋白质 (3) 2. 蛋白质的3D结构 (5) DNA (7) 1. DNA的组成—4种碱基 (7) 2. DNA的复制 (8) 3. DNA转录为RNA (9) 4. mRNA翻译成氨基酸序列 (11)

蛋白质 1.什么是蛋白质蛋白质是由20中基本氨基酸链接而成的，生物体的大部分是有蛋白质构成的。每种氨基酸由4部分组成：碳原子C，羧基coo-，氨基H3N和R group。 20中氨基酸按照不同的排列和不同的长度，就形成了蛋白质。不同的R group把氨基酸分为5类：无极性脂肪类R Group：

芳香类R Group 有极性，无电荷R Group

正电荷R Group 负电荷R Group 2.蛋白质的3D结构氨基酸链在三维空间里呈现出一定的结构。各个氨基酸分子于相邻的氨基酸之间有氢键连接。一级结构：氨基酸的排列顺序，可以用氨基酸的缩写在书面上表达。氨基和羧基之间的氢键使得单个的氨基酸分子能够链接起来。

二级结构：单条氨基酸链所形成的2D形态。常见的有Alpha helix Beta sheet。 Alpha helix：氨基酸分子按顺时针或逆时针的方向螺旋上升。 Beta sheet：多条氨基酸分子链并列在一起。三级结构：氨基酸链在各个方向的形态综合在一起。

生物信息学名词解释

1.生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。 2.二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。序列格式：是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（>）表示一个新文件的开始，其他无特殊要求。序列格式：是GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“询序列（query sequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵（scoring matrix）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P29 9.空位（gap）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P29 10.空位罚分：空位罚分是为了补偿插入和缺失对序列相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P37 值：衡量序列之间相似性是否显着的期望值。E值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域：BLAST搜索的过滤选项。指序列中包含的重复度高的区域，如 poly（A）。 13.点矩阵（dot matrix）：构建一个二维矩阵，其X轴是一条序列，Y轴是另一个序列，然后在2个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。 14.多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。 15.分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。 18.直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。） 19.旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。) 20.外类群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。 21.有根树：能够确定所有分析物种的共同祖先的进化树。 22.除权配对算法（UPGMA）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。 23.邻接法（neighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服UPGMA算法要求进化速率保持恒定的缺陷。 24.最大简约法（MP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。 25.最大似然法（ML）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。 26.一致树（consensus tree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。 27.自举法检验（Bootstrap）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用来检查给定树的分枝可信度。 28.开放阅读框（ORF）：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。 29.密码子偏好性（codon bias）：氨基酸的同义密码子的使用频率与相应的同功 tRNA的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子，这种效应称为密码子偏好性。 30.基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。 31.结构域（domain）：保守的结构单元，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他