搜档网
当前位置:搜档网 › 基因组注释

基因组注释

基因组注释

基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位

置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析mRNA 和EST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据[1 ] ; (3) 基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2)序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG) [2 ] 。随着微生物全基因组序列测定速率的加快,开发有Web 接口的高效、综合基因组注释系统十分要。近年来,国际上已有一些这样的工具,如基于Java 的微生物基因组数据库接口。尽管JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大[3 ] ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。

在基因组学中,对基因和其他生物特征的标注称为基因组注释。

(1) 基因组组分分析

GC含量分析, Contig N50 和Scaffold N50统计

(2) 基因预测

(3) 基因结构注释(4) 重复序列分析与注释

(5) 启动子和motif预测

(6) 非编码RNA的注释tRNA, rRNA, microRNA靶基因预测, snoRNA及其甲

基化位点预测

(7) 基因功能注释GO, KEGG, InterPro, COG, NR, NT

(8) 免疫防御关键基因, 转录因子预测

(9) Pseudogene 预测

(10) 基因组的倍增(tandem and segmental duplication)

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。 1:重复序列的识别。 重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。 重复序列识别的发展现状:目前,识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。 重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复序列和转座子元件。一方面,我们采用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等从头预测软件预测重复序列。为了获得从头预测方法得到的重复序列的类别信息,我们把这些序列与Repbase数据库比对,将能够归类的重复序列进行分类。另一方面,我们利用Repeatmasker 识别与已知重复序列相似的重复序列或蛋白质序列。通过构建Repbase数据库在DNA水平和蛋白质水平的重复序列,Repeatmasker能够分别识别在DNA水平和蛋白质水平重复的序列,提高了识别率。 重复序列识别的关键技术难点: 1):第二代测序技术测基因组,有成本低、速度快等优点。但是由于目前产生的读长(reads)较短。由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。 2):某些高度重复的序列用现有的组装方法难以组装出来,成为未组装reads (unassembled reads)。有必要同时分析未组装reads以得到更为完整的重复序列分布图。之前,华大已开发了ReAS软件,专门用于识别未组装reads中

gene_ontology(GO基因注释)

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能. 基因本体论(gene ontology)的建立 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。 Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。 GO发展了具有三级结构的标准语言(ontologies),如表所示。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。 本体论内容分子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP 水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等 基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持更为便捷。 本体论(The ontologies) GO的结构包括三个方面?D?D分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们可能在每一个方面都有多种性质。如细胞色素C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。下面,将进一步的分别说明GO的具体定义情况。 基因产物 基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物,也表明了它的功能。但是这之间其实是存在差别

真核基因组注释流程

真核基因组注释入门指南 doi:10.1038/nrg3174 Mark Yandell 和 Daniel Ence Department of Human Genetics, Eccles Institute of Human Genetics, School of Medicine, University of Utah, Salt Lake City, Utah 84112-5330, USA. Correspondence to M.Y. e-mail: myandell@https://www.sodocs.net/doc/e55425280.html, 摘要:基因组测序价格的下降给考虑进行基因组测定和注释的研究团体带来了显著的影响。基因组注释项目普遍变成由单个实验室实施的小规模事件。尽管注释一个真核基因组已经可由非专业人士完成,但仍较难。本文综述了基因组注释的概貌、相关软体并描述了一些最适用的方法。 引言:测序费用下降如此快以致单个实验室也能支付人类基因组的测定。尽管测序变得容易了,许多因素却使基因组注释却变得更难: 首先,第二代测序平台的更短的原始读长意味着现在基因组组装很少获得接近果蝇和人类基因组那样用经典shotgun组装的结果。 第二,许多近来测定的基因组具有的独特性也带来了挑战,尤其是对基因的发掘。不同于第一代基因组项目依赖于大量已知的基因模型,今天的基因组常常缺乏前期研究。这导致难于训练、优化和设定基因预测等注释工具的参数。 第三个新挑战来自对升级和融合注释数据的需求。RNA水平数据(RNA-seq)为升级陈旧的注释数据集提供了显而易见的途径。而且,这一工作十分重要。然而,也不能直接保证可以改进原始的注释结果。另外,今天常常有多个团队用不同的注释过程去注释同一个基因组,众多信息整合获得一致注释是一个相对复杂的任务。 最后一点,基因组注释项目的团队大小发生了变化。不像以往,今天的基因组注释项目常是更小规模团队完成,相关研究者常缺乏生物信息学和计算生物学的专业知识。真核基因组注释不是一个简单的过程,需要一些基本的UNIX技能。但利用现在的工具软体,自己动手进行基因组项目注释十分可行。本文综述了基因组注释的概貌、相关工具并描述了一些最适用的方法。 概述:组装和注释 组装 成功注释任何基因组的第一步是决定组装是否已经达到要求。许多总结性统计用来描述基因组组装的完整性和连续性。最重要的是N50 。其他的统计参数有scaffold的平均gap大小和数目。大多数现有基因组是“标准的草图”组装,这意味着它们达到了递交至公共数据库的最低标准。然而,“高质量草图”组装是注释的更高目标,至少达到90%的完整性。 尽管没有绝对的标准,但是对注释而言,scaffold N50长度达到基因平均长度是一个合理的目标。原因十分简单:此时,基因中约有50%有望包括在单个scaffold;这些完整的基因与其它片段一同提供下游分析的素材。如图1所示,平均基因长度与基因组大小存在粗略的对应关系。因此,如果基因组大小已知,就可以粗略的获得基因大小从而获得注释所需的最小scaffold N50。CEGMA提供了估算组装的完整性和连续性的另外一种补充方式,该方式依靠所收集的真核单拷贝基因并确定每一个基因存在于单个scaffold中的百分比来检测组装效果。 获得高质量组装草图是大多数基因组项目都可以完成的目标。如果组装不完全或者scaffold的N50长度过短,我们建议补充进行shotgun测序。

基因功能注释

Gene Annotation 基因注释主要基于蛋白序列比对。将基因的序列与各数据库进行比对,得到对应的功能注释信息。为便于分析,还需要将各种注释信息进行综合,选取最为准确的注释。可以先用程序来选取比对最相似,形式最好的注释信息,然后再做少量的人工校正。 请注意:对于Nt, Nr, Swissprot, trEMBL, COG, KEGG, InterPro的搜索,我们默认的方法是只取best hit, 也就是每个基因只对应数据库中比对最好的那条记录。这样可以简化分析,但是会丢失一些信息。如果要求严格,可以采用一定E-value条件下所有的hit。 Blast database Nt, Nr is the non-redundant NCBI collection of nucleotide and protein sequence database. ftp://https://www.sodocs.net/doc/e55425280.html,/blast/db/FASTA/ 注意:Nt,Nr数据库由于很大,被分成很多部分,使用时直接指定Nt,Nr即可。 UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases. UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 注意:Swissprot/trembl数据库不能直接跑blast,必须先用simplify_uniprot.pl程序把蛋白序列名字简化; COG(Cluster of Orthologous Groups of pretein)蛋白相邻类的聚簇。该数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成的。对于预测单个蛋白质的功能和整个新基因组中的蛋白质的功能非常有用。 COG: https://www.sodocs.net/doc/e55425280.html,/COG/ COG:ftp://https://www.sodocs.net/doc/e55425280.html,/pub/COG/ 准备数据库,首先将没有COG归类的基因的filter掉,减少无效计算量。 有用文件:readme whog fun.txt myva org.txt。 注意:COG单细胞版本(Unicellular)里包含的都是原核生物,数据量较小,搜索COG 的目的是对应出COG号。 KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因及基因组百科全书,是一个有关生物系统较完善的数据库,关联基因组信息和功能信息的知识库。其由基因蛋白序列(KEGG Genes)、具有内源性和外源性的化学物质(KEGG Ligand)、分子相互作用和代谢通路图(KEGG Pathway)和各种生物之间的层次关系(KEGG Brite)构成,在功能注释分析中,我们主要关注的是KEGG代谢通路图的分析 KEGG:ftp://ftp.genome.jp/pub/kegg/ 需要ko genome,pathway/map 和seq_pep文件。通过genome文件中的物种可分为原核与真核两部分。通过ko文件,可确定ko分类各层级的关系。序列文件seq_pep中含有基

基因组注释

基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位 置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析mRNA 和EST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据[1 ] ; (3) 基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2)序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG) [2 ] 。随着微生物全基因组序列测定速率的加快,开发有Web 接口的高效、综合基因组注释系统十分要。近年来,国际上已有一些这样的工具,如基于Java 的微生物基因组数据库接口。尽管JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大[3 ] ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。 在基因组学中,对基因和其他生物特征的标注称为基因组注释。 (1) 基因组组分分析 GC含量分析, Contig N50 和Scaffold N50统计 (2) 基因预测 (3) 基因结构注释(4) 重复序列分析与注释 (5) 启动子和motif预测 (6) 非编码RNA的注释tRNA, rRNA, microRNA靶基因预测, snoRNA及其甲 基化位点预测 (7) 基因功能注释GO, KEGG, InterPro, COG, NR, NT (8) 免疫防御关键基因, 转录因子预测 (9) Pseudogene 预测 (10) 基因组的倍增(tandem and segmental duplication)

全基因组重测序数据分析详细说明

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。 实验设计与样本 (1)Case-Control 对照组设计; (2)家庭成员组设计:父母-子女组(4人、3人组或多人); 初级数据分析 1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。 3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、

相关主题