搜档网
当前位置:搜档网 › 真核基因组注释流程

真核基因组注释流程

真核基因组注释流程
真核基因组注释流程

真核基因组注释入门指南

doi:10.1038/nrg3174

Mark Yandell 和 Daniel Ence

Department of Human Genetics, Eccles Institute of Human Genetics, School of Medicine, University of

Utah, Salt Lake City, Utah 84112-5330, USA.

Correspondence to M.Y. e-mail: myandell@https://www.sodocs.net/doc/b97224468.html,

摘要:基因组测序价格的下降给考虑进行基因组测定和注释的研究团体带来了显著的影响。基因组注释项目普遍变成由单个实验室实施的小规模事件。尽管注释一个真核基因组已经可由非专业人士完成,但仍较难。本文综述了基因组注释的概貌、相关软体并描述了一些最适用的方法。

引言:测序费用下降如此快以致单个实验室也能支付人类基因组的测定。尽管测序变得容易了,许多因素却使基因组注释却变得更难:

首先,第二代测序平台的更短的原始读长意味着现在基因组组装很少获得接近果蝇和人类基因组那样用经典shotgun组装的结果。

第二,许多近来测定的基因组具有的独特性也带来了挑战,尤其是对基因的发掘。不同于第一代基因组项目依赖于大量已知的基因模型,今天的基因组常常缺乏前期研究。这导致难于训练、优化和设定基因预测等注释工具的参数。

第三个新挑战来自对升级和融合注释数据的需求。RNA水平数据(RNA-seq)为升级陈旧的注释数据集提供了显而易见的途径。而且,这一工作十分重要。然而,也不能直接保证可以改进原始的注释结果。另外,今天常常有多个团队用不同的注释过程去注释同一个基因组,众多信息整合获得一致注释是一个相对复杂的任务。

最后一点,基因组注释项目的团队大小发生了变化。不像以往,今天的基因组注释项目常是更小规模团队完成,相关研究者常缺乏生物信息学和计算生物学的专业知识。真核基因组注释不是一个简单的过程,需要一些基本的UNIX技能。但利用现在的工具软体,自己动手进行基因组项目注释十分可行。本文综述了基因组注释的概貌、相关工具并描述了一些最适用的方法。

概述:组装和注释

组装

成功注释任何基因组的第一步是决定组装是否已经达到要求。许多总结性统计用来描述基因组组装的完整性和连续性。最重要的是N50 。其他的统计参数有scaffold的平均gap大小和数目。大多数现有基因组是“标准的草图”组装,这意味着它们达到了递交至公共数据库的最低标准。然而,“高质量草图”组装是注释的更高目标,至少达到90%的完整性。

尽管没有绝对的标准,但是对注释而言,scaffold N50长度达到基因平均长度是一个合理的目标。原因十分简单:此时,基因中约有50%有望包括在单个scaffold;这些完整的基因与其它片段一同提供下游分析的素材。如图1所示,平均基因长度与基因组大小存在粗略的对应关系。因此,如果基因组大小已知,就可以粗略的获得基因大小从而获得注释所需的最小scaffold N50。CEGMA提供了估算组装的完整性和连续性的另外一种补充方式,该方式依靠所收集的真核单拷贝基因并确定每一个基因存在于单个scaffold中的百分比来检测组装效果。

获得高质量组装草图是大多数基因组项目都可以完成的目标。如果组装不完全或者scaffold的N50长度过短,我们建议补充进行shotgun测序。

注释

尽管基因组注释流程存在细节上的差异,它们的核心都是一致的。一般,基因组水平的基因结构注释分为两个明显的阶段。第一阶段,即计算阶段,表达序列标签(ESTs)、蛋白质等与基因组进行比对,从头预测或者依靠已知的知识进行基因预测。第二阶段,即注释阶段,已有的数据被集成进基因注释。因为这一过程十分复杂且涉及许多工具——组装计算所得(已知知识和证据)并使用数据生成基因组注释——一般意义上称之为注释流程。尽管Ensembl也对non-coding RNAs (ncRNAs)进行注释,现在的流程主要面向蛋白编码基因的注释。

第一步:运算阶段

Step one: the computation phase

识别重复序列(repeats identification )

专有名词"重复序列"稍微容易混淆为两类:低度重复序列和转座子 (LINEs、SINEs)。真核基因组富含重复区,例如人类基因组的47%由重复序列组成可能还是比重较低的。另外,重复的边界常被误判;常常相互镶嵌;常常仅出现片段-----完整的很少。总之,重复使注释变得复杂,且要用不同于基因识别的专用软体对其进行识别和注释。

重复序列保守性差,难于识別;因此准确的定位重复序列常要求事先构建所分析基因组的重复序列库。已有的识别软体有两类:基于同源性的工具和从头预测工具。需要特别注意,从头预测所得重复序列不仅有转座单元,可能还包括高度保守的蛋白编码基因,比如组蛋白和微管蛋白。因此我们必须仔细的对从头预测结果进行后期处理,排除蛋白编码基因。另外,结果中还可能包含一些新的重复家族。重复序列本身就很有研究价值,对其产生和进化的研究正在增多。因此重复序列的注释应该是每个基因组注释项目的一部分。

建好的重复序列库可与RepeatMasker等软体配合,使用BLAST和Crossmatch识别目标基因组内与已知重复序列同源的序列。术语 ‘masking' 简单地表示将被识别为重复的核苷酸转换为N或者小写的a, t, g 和c --------后者称为 ‘soft masking'。此步示意后续的序列比对和基因预测软体相应区域是重复序列区。基因组未成功进行该处理可能是灾难性的。未被mask的重复序列可能引发大量徒劳无功的BLAST比对,误导基因的注释。更糟糕的后果是许多发生转座的开放阅读框 (ORFs)看来象真的基因,被作为基因的外显子,最终完全拖垮基因注释。因而,好的重复序列masking对于蛋白质编码基因的准确注释十分关键。

证据比对(Evidence alignment). 隐藏重复序列后,大多流程将已知的蛋白、EST和RNA-Seq数据与全基因组组装结果比对。其他物种的序列也可以引用,但一般局限于相对更保守的蛋白质序列。按规则,TBLASTX可用来自系统发育上相距较远物种的ESTs和RNA-seq数据进行比对,但是因为运算量过大而极少使用。

UniProtKB/SwissProt是蛋白质序列的核心资源库。由于SwissProt局限于高度挖掘的蛋白质,许多使用者可能想使用相关的蛋白质和之前注释的基因组数据进行补充。组合附加蛋白和EST数据集的一个简便方法是通过NCBI taxonomy browser下载相关物种序列。

EST和蛋白质序列数据集常通过两个相互衔接的过程与基因组进行比对。最频繁使用的是BLAST和BLAT确定percent similarity或percent identity。过滤后余下的数据有时可聚合并识别重叠比对和预测。聚合有两个目标:第一,将分化的计算结果聚合成单个聚类的数据支持同一个基因;第二,识别并简化多余的证据,例如高度表达基因可能获得成百上千一样的ESTs数据。

术语“修正(polishing)” 常被用于描述比对后的下一阶段。将证据聚类并简化后,将BLAST和BLAT识别出来的高度相似序列与基因组进行再次比对,以便获得外显子边界更为精细的结果。例如,BLAST尽管很快,但没有识别选择性剪接位点的模型,所以序列比对获得外显子-内含子边界仅仅是一个十分粗略的结果。因此,剪接位点识别比对算法

(splice-site-aware alignment algorithms),比如Splign、Spidey、sim4和Exonerate等常用来再次比对那些匹配且高度相似的ESTs、mRNAs、proteins到genomic序列。尽管这些程序运行需要很长的时间,但结果将大大改进选择性剪接和外显子边界的注释信息。

在各种形式的证据中,RNA-seq对于改进基因注释的准确性最有潜力。这类数据提供了丰富的证据优化外显子、剪接位点和选择性剪接外显子的界定。然而,RNA-seq数据量十分大且复杂,难于使用。现在,相关软件发展迅猛。RNA-seq原始序列(reads)的组装处理方式有两个:①重头组装——独立于基因组,使用ABySS、SOAPdenovo和Trinity等软件组装,而后与基因组比对;②RNA-seq数据能直接与基因组进行比对,相关工具软件有TopHat、GSNAP或Scripture,接着再用Cufflinks等将比对序列组装成转录组。

对于如何使用RNA-seq数据最好,至今看法不一,其前景可能很大程度依赖于基因组生物学(比如:基因密度)和基因组组装的连续性和完整性。基因密度是一个重要的方面。如果基因十分密集,则Cufflinks等软件有时会错误地将相邻基因RNA-seq融合到一起。此时,从头组装可以解决这个问题——Trinity正是针对这个问题设计的软件。许多的注释流程融合了RNA-seq数据,例如:PASA使用尺蠖的输出数据;MAKER直接使用Cufflinks输出文件或者是RNA-seq组装前数据。

从头基因预测(Ab initio gene prediction).一些软件常被称为从头基因预测软件(ab initio gene predictors)是因为它们基于数学模型而非外部证据(例如:EST和蛋白质序列比对)来识别基因并决定外显子-内含子结构。当基因预测软件在20世纪90年代首次出现时,它们给基因组分析带来了革命性改变,因为它们提供了一种快速简便的组装序列基因识别方式。

然而,这些工具的应用限制来自注释方面。例如,大多数的基因预测软件找到单一最可能编码序列coding sequence (CDS)而不列出不翻译的上下游序列(untranslated regions,UTRs) 或选择性剪接转录本。训练也是一个问题。从头基因预测软件使用物种特异基因组特征——例如密码子频率和内含子-外显子长度分布——区分间隔区域和基因并决定内含-外显子结构。而大多数软件的预设参数文件包含的信息多来自经典的基因组,例如线虫、果蝇、拟南芥、人类和小鼠。因此,如果所分析的基因组与这些模式物种差异很大,参数将

很难保证适合。因而,基因预测软件需要针对性训练,考虑相应的内含子长度、密码子使用偏好和GC含量等。

如果训练足够,基因水平的灵敏度可接近100%。然而,外显-内含子结构的预测准确率仅有大约60–70%。大量已有的的高质量基因模型和近乎完美的基因组组装对于高度准确的基因预测帮助很大。然而,新测定的基因组往往缺乏这些数据。

原则上,即使缺乏参考基因模型,ESTs、 RNA-seq和蛋白质序列与基因组的比对能用于训练基因预测软件。许多常用的基因预测软件能按这一方式训练,但一般要求使用者具备一定的编程能力。MAKER、Augustus和SNAP都提供了简单的过程。另外,GeneMark-ES等自训练(self-training)软件提供了不同的方式供选择,但是其算法起始准确率较低。

证据驱动的基因预测(Evidence-driven gene prediction).近年来,从头预测和基因注释间的差异日益模糊。许多从头类软件,例如TwinScan、FGENESH、 Augustus、Gnomon、GAZE和 SNAP都能使用外部证据改进预测的准确性。例如,利用ESTs确定外显子界限。与从头预测相对,这个过程常被称为证据驱动(evidence-driven)基因预测,该方式对改进新基因组数据的基因预测质量有巨大潜力,但实际的应用还较难。首先,ESTs、蛋白质序列、RNA-seq data 都必须进行比对;接着,剪接位点必须识别出来;其后,在将数据集成至基因预测软件前对组装证据进行后处理。实际操作时,这需要大量针对性软件,工作量很大,是基因组注释流程需要克服的主要障碍之一。

第二步:注释阶段

Step two: the annotation phase

注释的最终目标是获取从头预测和比对证据预测综合出来的基因注释集。传统上,这是手工完成的。例如,人类基因组注释者们检查每一个基因的背景资料从而决定内含子-外显子结构。尽管手工所得结果质量高,但工作量大。出于资金考虑,小基因组项目更依赖自动注释。

几乎各种注释流程都有自己的自动注释策略,共同的主线都是通过组合基因预测的前后过程,并使用证据改进基因模型的准确性。

自动注释(Automated annotation).自动注释最简单的形式是针对基因组数据运行一连串不同的基因查找软件,然后使用选择算法(chooser algorithm或combiner)选择某一预测,其内含子-外显子结构最能代表和综合各种预测结果,从而定义相应的预测基因位点。运用这类过程的软件JIGSAW、EVidenceModeler (EVM)和GLEAN (以及后续软件 Evigan) 。通过估计每一个来源的基因证据误差的类型和频率,进而选择误差最小的组合结果。像从头预测软件,JIGSAW必须针对每一个新测定的基因组做重新的训练,因而要求已知的基因模型资源。从头预测软体不使用这些资源优先进行训练。 EVM容许使用者人工设置期望的证据误差率或者通过训练获得这些。相反,GLEAN和Evigan使用无监督学习法评估链接误差模型。在最近的预测竞赛中,组合各种证据后的类型的软件都优于从头预测的模型, JIGSAW、EVM 或 Evigan表现相近。

另一个流行的方法是将比对证据反馈给基因预测软件,即证据驱动预测,以改进预测过程的准确性。接着,选择器(chooser)将识别最有代表性的预测结果。通过综合 RNA-seq 和EST数据,这一预测还可以获得进一步的改进。此过程被 PASA、 Gnomon和MAKER所使用。通过提取后处理的与蛋白、EST和RNA-seq 比对吻合的基因模型,已知的证据还能用于确认上述软件选择器算法的选择确认。

那么,你将选择哪种方法?也许,考虑这个问题的最好方法是综合考虑工作量和准确性。即使是非常大的基因组,简单运行单一的从头预测软件只需要耗费中央处理器数小时。相对,如果要跑完MAKER或者PASA流程,则需要耗费数周,但它们的输出结果将提供注释挖掘和下游分析的起点,例如利用RNA-seq

数据进行差异表达分析。另一个考虑的因素是对正研究的基因组与已经注释的基因组进行系统进化分析。如果是首次对该该目或者科进行注释,最好使用尽量多的外部证据,尤其是RNA-seq数据来确认基因注释结果。否则,结果质量将很难保证。

注释结果的可视化Visualizing the annotation data

输出数据:使用全文本格式的重要性(Output data: the importance of using a fully documented format).基因组注释流程的输出结果将包括每一个注释的转录本和蛋白质序列,它们基本都以FASTA格式列出。尽管FASTA文档很有用,但仅仅为后续分析提供小部分支持。通过基因组浏览器将注释进行可视化,构建基因组数据库都可以获得更多的描述性输出文档。最少,输出文档需要描述内含子-外显子结构、起始-终止密码子、UTRs和选择性转录本。最好这些输出文档进一步包括序列比对和支持每一个基因模型的基因预测结果。

四个常用的注释格式是:GenBank、GFF3、GTF 和EMBL。使用完整的文档格式十分重要,原因有三点:①可以写软件转换格式的麻烦;②常用格式尤其是 GenBank 和 GFF3使用可控的词汇和术语,保证分析软件可交叉操作;③如果用了不常用的词汇描述基因模型,比较基因组分析将十分困难、难以完成。因此,通用生物模型数据库 Generic Model Organism Database (GMOD) 项目协会采用GFF3格式开发了一系列标准和软件来描述、分析、可视化和发布基因组注释。

通用生物模型数据库(GMOD)项目是一个庞大的组织,提供一大套工具创建、管理和使用基因组注释结果,包括分析、可视化和发布数据。使用者通过GMOD软件可以浏览许多模式物种的基因组注释结果。另外,GMOD可以协助构建在线基因组数据库。关键是GFF3格式编辑的注释和协助证据可以被GMOD软件使用。通过GBROWSE和JBROWSE使用者可以直接查看这些文档,从而制作数据的视窗。另外,使用者还可以使用Apollo基因组浏览器和JBROWSE直接编辑基因模型。Bioperl也提供了一系列数据库软件加载GFF3文档到制作好的Chado数据库框架中。基于此,在线的基因组数据库能够快熟的建立起来。

质量控制

Quality control

不正确的注释结果将毒害使用它们的每一个实验。更糟糕的是,当其他不知情的研究者引用这些不正确的结果辅助注释它们的基因组时,这种错误将从一个物种扩散到另一个物种。基因组注释的标准操作已经在细菌、病毒和真核基因组水平提出,但是质量控制仍然是问题。既使是最好的基因预测软件和基因组注释流程都难以在外显子部分达到80%的准确率。这意味着,大多数基因注释包括至少一个错误注释的外显子。考虑到这一事实,对基因组注释准确率的评估十分重要。

这些年来,以估计基因预测准确性进行的各种挑战赛是一股重要的推动力量。然而,鲜有软件考虑基因组水平的注释。问题的核心在于缺乏已被准确预测的基因组参考系。第一代的基因组项目——拟南芥、线虫、果蝇——都基于几十年的工作基础,基因预测软件和注释流程基础都很牢固。现在大多数基因组项目不具备这种条件。而且,某一个基因预测软件对某一个基因组表现良好还难以保证在另一个基因组也表现好。缺乏参考基因组注释的情况下,估计注释质量十分困难。实验确认是一个解决方案,但很少有项目进行大规模的验证。

注释质量的评估方法(Approaches for assessing annotation quality).获得初略的注释质量指标的简单方法是获得已知domain的编码蛋白的注释百分比。InterProScan和Pfam的MAKER都可进行自动分析。尽管domain的相对数目随物种和基因家族有所差别,编码domain的蛋白整体百分比基本稳定。人类、果蝇、线虫、拟南芥和啤酒酵母等真核基因组的domain含量介于 57% ~75%。未经训练的基因识别软件无法很好识别—— 常仅5%~ 25% 。因此,当真核蛋白组的domain百分比较低,警示注释质量差。

但domain百分比仅可以初略估计整体注释质量,当要判断某一给定基因注释的准确性是就无能为力了。此时,一种办法是探讨蛋白、EST和RNA-seq证据是否支持注释的基因结构。当使用肉眼评估,这种操作相对直接;若要自动化,则需要计算的客观判断标准。为了解答这一问题,序列本体项目(Sequence Ontology Project)开发了许多标准用于基因组注释的质量控制。例如,注释编辑距离(Annotation edit distance,AED)测定每个注释与重叠证据的一致性,从而可以识别有问题的自动注释作为手工修正的优先考虑对象。AED的打分还可以用于测定注释循环间的变化。 MAKER2 的基因组注释流程中提供了自动计算AED的工具软件。

当然,识别不准确注释才解决了一半的问题,错误还需要校正。最直接的方法是手工编辑内含子-外显子协调性。Apollo、Argo 和 Artemis等浏览器都可以进行这一校正。基因模型以图形化的拖拽方式和鼠标点击进行修改,编辑的结构在后台被备份到文档或者远程数据库。

注释团队(Annotation jamborees). 许多基因组注释项目选择手工复查和编辑注释数据集。尽管这一过程耗时耗力,但它提供了一个机会进行团体建设、教育和训练。

BLAST数据库服务器外加一个图形界面(graphical user interface,GUI),比如网页浏览器。WWW BLAST server package101提供了一种容易的方式。GBrowse和JBrowse也能方便的设置参数,从而允许远程使用者查看注释的基因组,与Apollo基因组类似,也能编辑不正确的注释。因为这些资源能建立并远程赋值,现在我们可以通过网络建立一个协作的注释团队。这种模式已经成功的运用于蚂蚁基因组社团。

发布基因组注释数据

Making data publicly available

成功的基因组注释项目不会以文章的发表而告终,还需要发布注释信息。基因组注释推动分子生物学和生物信息学的融合发展,为其他基因组注释提供了关键的资源。转录本和蛋白数据可能为其他基因组提供参考。发布注释基因组有3个基本的途径:在线发布,递交到GenBank和Ensembl,或者其他数据库。

递交到公共数据库(Submitting annotations to public databases). 除了GenBank,脊椎动物基因组的工作可以考虑Ensembl——每年约5–10个新物种。GenBank和Ensembl为较小的genome项目提供了许多方便,包括强大数据的集市,允许使用者浏览和下载数据。同时,Ensembl 和GenBank可自动完成有难度的工作,涉及基因模型,识别同源、直系或旁系同源。作为补充,中等大小的基因组项目自己建立了数据库进行管理和维护,例如BeeBase , Gramene , PlantGDB, Phytozome和VectorBase。

升级注释(Updating annotations). GLEAN 和 PASA 可用于报道基因组不同版本之间的差异。 Ensembl 可以执行融合过程获得一致注释集。PASA 可以整合RNA-seq 数据对基因组注释进行升级。MAKER注释流程提供了自动处理的工具箱,可以修订、升级和融合现有的注释数据,并可映射到新的组装结果上。

GenBank 提供了两个途径对数据进行从新的发布和修订。Ensembl也同样提供了修订方式。

结论:某种方面,便宜的测序价格是基因组注释更加复杂。像我们所解释的,片段化的组装和许多现有测序项目的特质一定程度上导致了这种复杂性。基因组注释不再仅仅是识别蛋白编码基因,还包括转座子、调控区域、假基因和ncRNA的注释。注释质量控制和管理的瓶颈日益明显。只要软件和测序技术技术改进,注释的定期升级就是必然。正在进行的基因组注释项目必须面对这一实际,如同亲子关系,注释责任不会因为出生而终止。注释的错误和不完全都将毒害使用它们的实验。在当今这个基因组驱动的世界,提供准确且不断更新的注释是一个简单的必然。

真核生物基因组

第二讲真核生物基因组 真核生物的基因组比较庞大,并且不同生物种间差异很大,例如人的单倍体基因组由3.16×109 bp组成。在人细胞的整个基因组中实际上只有很少一部份(约占2%~3%)的DNA序列用以编码蛋白质。 第一节真核生物基因组特点 真核生物体细胞内的基因组分细胞核基因组与细胞质基因组,细胞核基因组是双份的(二倍体,diploid),即有两份同源的基因组;细胞质基因组可有许多拷贝。真核细胞基因转录产物为单顺反子,一个结构基因经过转录和翻译生成一个mRNA分子和一条多肽链。细胞核基因组存在重复序列,重复次数可达百万次以上,大多为非编码序列;因此,基因组中不编码的区域多于编码区域。大部分基因含有内含子,因此,基因是不连续的。真核生物基因组远远大于原核生物的基因组,具有许多复制起点,但每个复制子的长度较小。 一、细胞核基因组与细胞质基因组 (一)细胞核基因组 细胞核基因组的DNA与蛋白质结合形成染色体(chromosome)。除配子细胞外,体细胞有两个同源染色体,因此基因组有两份同源的基因组。染色体储存于细胞核内,是基因组遗传信息的载体。 (二)线粒体基因组 线粒体基因组DNA(mitochondrial DNA,mtDNA)为双链环状超螺旋分子,类似

于质粒DNA,分子量小,大多在1~200×106之间,如人类mtDNA仅由16569bp组成。mtDNA的复制属于半保留复制,可以是θ型复制,或滚环复制,或D环复制,由线粒体DNA聚合酶催化完成。 线粒体基因组主要编码与生物氧化有关的一些蛋白质和酶,如:呼吸链中的细胞色素氧化酶有七个亚基,其中三个亚基由mtDNA编码,其余四个亚基由细胞核DNA编码;细胞色素还原酶有七个亚基,基中的一个亚基由mtDNA编码;ATP酶含有十个亚基,其中四个亚基由mtDNA编码。线粒体基因组可能还包括一些抗药性基因。此外,线粒体基因组有自己的rRNA,tRNA,核糖体等系统,因此线粒体本身的一些蛋白质基因也可以在线粒体内独立地进行表达。 近几年的研究发现,哺乳动物mtDNA的遗传密码与通用的遗传密码有以下区别:①UGA不是终止密码,而是编码色氨酸的密码;②多肽内部的甲硫氨酸由AUG和AUA 两个密码子编码,而起始甲硫氨酸由AUG、AUA、AUU和AUC四个密码子编码;③AGA、AGG不是精氨酸的密码子,而是终止密码子,因此,在线粒体密码翻译系统中有4个终止密码子(UAA、UAG、AGA、AGG)。 二、单顺反子结构 真核细胞结构基因为单顺反子(monocistron),一个结构基因经过转录生成一个单顺反子mRNA分子,翻译成一条多肽链,真核生物基本上没有操纵子结构。 三、断裂基因 真核细胞基因组的大部分序列属于非编码区,不编码具有生物活性的蛋白质或多肽。编码区通常为结构基因,结构基因不仅在两侧有非编码区,而且在基因内部也有许多不编码蛋白质的间隔序列(intervening sequences),因此,真核细胞的基因大多由不连续的几个编码序列所组成,称之为断裂基因(split gene)。 (一)内含子与外显子 内含子(intron)是结构基因中的非编码序列,往往与编码序列呈间隔排列。当基因转录后,在mRNA的成熟过程中被剪切(splicing)。 外显子(exon)是结构基因中的编码序列,当基因转录后,mRNA在成熟过程中切去内含子,外显子才被拼接成完整的序列,成为成熟的mRNA作为指导蛋白质合成的模板。

原核生物基因组和真核生物基因组比较区别

原核生物基因组和真核生物基因组的区别: 1、真核生物基因组指一个物种的单倍体染色体组(1n)所含有的一整套基因。还包括叶绿体、线粒体的基因组。 原核生物一般只有一个环状的DNA分子,其上所含有的基因为一个基因组。 2、原核生物的染色体分子量较小,基因组含有大量单一顺序 (unique-sequences),DNA仅有少量的重复顺序和基因。 真核生物基因组存在大量的非编码序列。包括: .内含子和外显子、.基因家族和假基因、重复DNA序列。真核生物的基因组的重复顺序不但大量,而且存在复杂谱系。 3、原核生物的细胞中除了主染色体以外,还含有各种质粒和转座因子。质粒常为双链环状DNA,可独立复制,有的既可以游离于细胞质中,也可以整合到染色体上。转座因子一般都是整合在基因组中。 真核生物除了核染色体以外,还存在细胞器DNA,如线粒体和叶绿体的DNA,为双链环状,可自主复制。有的真核细胞中也存在质粒,如酵母和植物。 4、原核生物的DNA位于细胞的中央,称为类核(nucleoid)。 真核生物有细胞核,DNA序列压缩为染色体存在于细胞核中。 5、真核基因组都是由DNA序列组成,原核基因组还有可能由RNA组成,如RNA病毒。 原核生物和真核生物区别(从细胞结构、基因组结构和遗传过程分析)主要差别 由真核细胞构成的生物。包括原生生物界、真菌界、植物界和动物界。真核细胞与原核细胞的主要区别是:

【从细胞结构】 1.真核细胞具有由染色体、核仁、核液、双层核膜等构成的细胞核;原核细胞无核膜、核仁,故无真正的细胞核,仅有由核酸集中组成的拟核 2.真核细胞有内质网、高尔基体、溶酶体、液泡等细胞器,原核细胞没有。 真核细胞有发达的微管系统,其鞭毛(纤毛)、中心粒、纺锤体等都与微管有关,原核生物则否。 3.真核细胞有由肌动、肌球蛋白等构成的微纤维系统,后者与胞质环流、吞噬作用等密切相关;而原核生物却没有这种系统,因而也没有胞质环流和吞噬作用。 真核细胞的核糖体为80S型,原核生物的为70S型,两者在化学组成和形态结构上都有明显的区别。 4.原核细胞功能上与线粒体相当的结构是质膜和由质膜内褶形成的结构,但后者既没有自己特有的基因组,也没有自己特有的合成系统。真核生物的植物含有叶绿体,它们亦为双层膜所包裹,也有自己特有的基因组和合成系统。与光合磷 酸化相关的电子传递系统位于由叶绿体的内膜内褶形成的片层上。原核生物中的蓝细菌和光合细菌,虽然也具有进行光合作用的膜结构,称之为类囊体,散布于细胞质中,未被双层膜包裹,不形成叶绿体。 【从基因组结构】 1.真核生物中除某些低等类群(如甲藻等)的细胞以外,染色体上都有5种或4种组蛋白与DNA结合,形成核小体;而在原核生物则无。 2.真核生物中除某些低等类群(如甲藻等)的细胞以外,染色体上都有5种或4种组蛋白与DNA结合,形成核小体;而在原核生物则无。 3.真核细胞含有的线粒体,为双层被膜所包裹,有自己特有的基因组、核酸合成系统与蛋白质合成系统,其内膜上有与氧化磷酸化相关的电子传递链

基因组学重点整理

生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物 具有催化活性的RNA分子称为核酶(ribozyme)核酶催化的生化反应有:自我剪接、催化切断其它RNA、合成多肽键、催化核苷酸的合成 新基因的产生:基因与基因组加倍1)整个基因组加倍;2)单条或部分染色体加倍;3)单个或成群基因加倍。DNA水平转移:原核生物中的DNA水平转移可通过接合转移,噬菌体转染,外源DNA的摄取等不同途径发生,水平转移的基因大多为非必须基因。动物中由于种间隔离不易进行种间杂交,但其主要来源于真核细胞与原核细胞的内共生。动物种间基因转移主要集中在逆转录病毒及其转座成分。 外显子洗牌与蛋白质创新:产生全新功能蛋白质的方式有二种:功能域加倍,功能域或外显子洗牌 基因冗余:一条染色体上出现一个基因的很多复份(复本)当人们分离到某一新基因时,为了鉴定其生物学功能,常常使其失活,然后观察它们对表型的影响。许多场合,由于第二个重复的功能基因可取代失活的基因而使突变型表型保持正常。这意味着,基因组中有冗余基因存在。看家基因很少重复,它们之间必需保持剂量平衡,因此重复的拷贝很快被淘汰。与个体发育调控相关的基因表达为转录因子,具有多功能域的结构。这类基因重复拷贝变异可使其获得不同的表达控制模式,促使细胞的分化与多样性的产生,并导致复杂形态的建成,具有许多冗余基因。 非编码序列扩张方式:滑序复制、转座因子 模式生物海胆、果蝇、斑马鱼、线虫、蟾蜍、小鼠、酵母、水稻、拟南芥等。模式生物基因组中G+C%含量高, 同时CpG 岛的比例也高。进化程度越高, G+C 含量和CpG 岛的比例就比较低 如果基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的可能只会发生在非编码区。细菌基因组中缺少内含子,非编码序列仅占11%, 对阅读框的排查干扰较少。细菌基因组的ORF阅读相对比较简单,错误的机率较少。高等真核生物DNA的ORF阅读比较复杂:基因间存在大量非编码序列(人类占70%);绝大多数基因内含有非编码的内含子。高等真核生物多数外显子的长度少于100个密码子 内含子和外显子序列上的差异:内含子的碱基代换很少受自然选择的压力,保留了较多突变。由于碱基突变趋势大多为C-T,故A/T的含量内含子高于外显子。由于终止密码子为TAA\TAG\TGA,如果以内含子作为编码序列,3种读码框有很高比例的终止密码子。 基因注释程序编写的依据:1)信号指令,包括起始密码子,终止密码子,终止信号,剪接受体位和供体位,多聚嘧啶序列,分支点保守序列2)内容指令,密码子偏好,内含子和外显子长短 基因功能的检测:基因失活、基因过表达、RNAi干涉 双链DNA的测序可从一端开始,亦可从两端进行,前者称单向测序,后者称双向测序。 要获得大于50 kb的DNA限制性片段必需采用稀有切点限制酶。 酵母人工染色体(YAC)1)着丝粒在细胞分裂时负责染色体均等分配。2)端粒位于染色体端部的特异DNA序列,保持人工染色体的稳定性3)自主复制起始点(ARS)在细胞中启动染色体的复制 合格的STS要满足2个条件:它应是一段序列已知的片段,可据此设计PCR反应来检测不同的DNA片段中是否存在这一顺序;STS必需在染色体上有独一无二的位置。如果某一STS在基因组中多个位点出现,那么由此得出的作图数据将是含混不清的。 遗传图绘制主要依据由孟德尔描述的遗传学原理,第一条定律为等位基因随机分离,第二条定律为非等位基因自由组合,显隐性规律/不完全显性、共显性、连锁 衡量遗传图谱的水平覆盖程度饱和程度 基因类型:transcribed, translatable gene (蛋白基因) ;transcribed but non-translatable gene ( RNA基因)Non- transcribed, non-translatablegene ( promoter, operator ) rRNA基因,tRNA基因, scRNA基因, snRNA基因, snoRNA基因, microRNA基因 基因组(genome):生物所具有的携带遗传信息的遗传物质总和。 基因组学(genomic):用于概括涉及基因作图、测序和整个基因功能分析的遗传学分支。 染色体组(chromosome set):不同真核生物核基因组均由一定数目的染色体组成,单倍体细胞所含有的全套染色体。 比较基因组学(comparative genomics):比较基因组学是基因组学与生物信息学的一个重要分支。通过模式生物基因组与人类基因组之间的比较与鉴别,为分离重要的候选基因,预测新的基因功能,研究生物进化提供依据。(目标)

原核生物基因组和真核生物基因组比较区别

、真核生物基因组指一个物种地单倍体染色体组()所含有地一整套基因.还包括叶绿体、线粒体地基因组. 原核生物一般只有一个环状地分子,其上所含有地基因为一个基因组. 、原核生物地染色体分子量较小,基因组含有大量单一顺序(),仅有少量地重复顺序和基因.个人收集整理勿做商业用途 真核生物基因组存在大量地非编码序列.包括:.内含子和外显子、.基因家族和假基因、重复序列.真核生物地基因组地重复顺序不但大量,而且存在复杂谱系.个人收集整理勿做商业用途 、原核生物地细胞中除了主染色体以外,还含有各种质粒和转座因子.质粒常为双链环状,可独立复制,有地既可以游离于细胞质中,也可以整合到染色体上.转座因子一般都是整合在基因组中.个人收集整理勿做商业用途 真核生物除了核染色体以外,还存在细胞器,如线粒体和叶绿体地,为双链环状,可自主复制.有地真核细胞中也存在质粒,如酵母和植物.个人收集整理勿做商业用途 、原核生物地位于细胞地中央,称为类核(). 真核生物有细胞核,序列压缩为染色体存在于细胞核中. 、真核基因组都是由序列组成,原核基因组还有可能由组成,如病毒. 原核生物和真核生物区别(从细胞结构、基因组结构和遗传过程分析)主要差别 由真核细胞构成地生物.包括原生生物界、真菌界、植物界和动物界.真核细胞与原核细胞地主要区别是: 【从细胞结构】 .真核细胞具有由染色体、核仁、核液、双层核膜等构成地细胞核;原核细胞无核膜、核仁,故无真正地细胞核,仅有由核酸集中组成地拟核个人收集整理勿做商业用途 .真核细胞有内质网、高尔基体、溶酶体、液泡等细胞器,原核细胞没有. 真核细胞有发达地微管系统,其鞭毛(纤毛)、中心粒、纺锤体等都与微管有关,原核生物则否. .真核细胞有由肌动、肌球蛋白等构成地微纤维系统,后者与胞质环流、吞噬作用等密切相关;而原核生物却没有这种系统,因而也没有胞质环流和吞噬作用.个人收集整理勿做商业用途 真核细胞地核糖体为型,原核生物地为型,两者在化学组成和形态结构上都有明显地区别. .原核细胞功能上与线粒体相当地结构是质膜和由质膜内褶形成地结构,但后者既没有自己特有地基因组,也没有自己特有地合成系统真核生物地植物含有叶绿体,它们亦为双层膜所包裹,也有自己特有地基因组和合成系统.与光合磷酸化相关地电子传递系统位于由叶绿体地内膜内褶形成地片层上.原核生物中地蓝细菌和光合细菌,虽然也具有进行光合作用地膜结构,称之为类囊体,散布于细胞质中,未被双层膜包裹,不形成叶绿体.个人收集整理勿做商业用途 【从基因组结构】 .真核生物中除某些低等类群(如甲藻等)地细胞以外,染色体上都有种或种组蛋白与结合,形成核小体;而在原核生物则无.个人收集整理勿做商业用途 .真核生物中除某些低等类群(如甲藻等)地细胞以外,染色体上都有种或种组蛋白与结合,形成核小体;而在原核生物则无.个人收集整理勿做商业用途 .真核细胞含有地线粒体,为双层被膜所包裹,有自己特有地基因组、核酸合成系统与蛋白质合成系统,其内膜上有与氧化磷酸化相关地电子传递链个人收集整理勿做商业用途 【从遗传过程】 .真核细胞地转录在细胞核中进行,蛋白质地合成在细胞质中进行,而原核细胞地转录与蛋

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。 1:重复序列的识别。 重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。 重复序列识别的发展现状:目前,识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。 重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复序列和转座子元件。一方面,我们采用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等从头预测软件预测重复序列。为了获得从头预测方法得到的重复序列的类别信息,我们把这些序列与Repbase数据库比对,将能够归类的重复序列进行分类。另一方面,我们利用Repeatmasker 识别与已知重复序列相似的重复序列或蛋白质序列。通过构建Repbase数据库在DNA水平和蛋白质水平的重复序列,Repeatmasker能够分别识别在DNA水平和蛋白质水平重复的序列,提高了识别率。 重复序列识别的关键技术难点: 1):第二代测序技术测基因组,有成本低、速度快等优点。但是由于目前产生的读长(reads)较短。由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。 2):某些高度重复的序列用现有的组装方法难以组装出来,成为未组装reads (unassembled reads)。有必要同时分析未组装reads以得到更为完整的重复序列分布图。之前,华大已开发了ReAS软件,专门用于识别未组装reads中

gene_ontology(GO基因注释)

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能. 基因本体论(gene ontology)的建立 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。 Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。 GO发展了具有三级结构的标准语言(ontologies),如表所示。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。 本体论内容分子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP 水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等 基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持更为便捷。 本体论(The ontologies) GO的结构包括三个方面?D?D分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们可能在每一个方面都有多种性质。如细胞色素C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。下面,将进一步的分别说明GO的具体定义情况。 基因产物 基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物,也表明了它的功能。但是这之间其实是存在差别

病毒、真核和原核生物的基因组结构特点

病毒、真核和原核生物的基因组结构特点 病毒基因组结构特点: 1.病毒基因组所含核酸类型不同 2.不同病毒基因组大小相差较大 3.病毒基因组可以是连续的也可以是不连续的 4.病毒基因组的编码序列大 5.基因可以是连续的也可以是间断的 6.病毒基因组都是单倍体和单拷贝 7.基因重叠 8.病毒基因组功能单位或转录单位 9.病毒基因组含有不规则结构基因 (1)几个结构基因的编码区无间隔 (2)结构基因本身没有翻译起始序列 (3) mRNA没有 5’端的帽结构 原核生物基因组结构特点: 1.细菌等原核生物的基因组是一条双链闭环的DNA分子 2.具有操纵子结构 3.原核基因组中只有1个复制起点 4.结构基因无重叠现象 5.基因序列是连续的,无内含子,因此转录后不需要剪切 6.编码区在基因组中所占的比例远远大于真核基因组,但又远远小于病毒基 因组。非编码区主要是一些调控序列

7.基因组中重复序列很少 8.具有编码同工酶的基因 9.细菌基因组中存在着可移动的DNA序列,包括插入序列和转座子 10.在DNA分子中具有多种功能的识别区域,如复制起始区、复制终止区、转 录启动区和终止区等。这些区域往往具有特殊的序列,并且含有反向重复序列 真核生物基因组结构特点: 1)真核基因组远远大于原核生物的基因组。 2)真核基因具有许多复制起点,每个复制子大小不一。每一种真核生物都有一定的染色体数目,除了配子为单倍体外,体细胞一般为双倍体, 即含两份同源的基因组。 3)真核基因都出一个结构基因与相关的调控区组成,转录产物的单顺反子,即一分子mRNA只能翻译成一种蛋白质。 4)真核生物基因组中含有大量重复顺序。 5)真核生物基因组内非编码的顺序(NCS)占90%以上。编码序列占5%。 6)真核基因产断列基因,即编码序列被非编码序列分隔开来,基因与基因内非编码序列为间隔DNA,基因内非编码序列为内含子,被内含子隔 开的编码序列则为外显子。 7)真核生物基因组功能相关的基因构成各种基因家族,它们可串联在一起,亦可相距很远,但即使串联在一起成族的基因也是分别转录的。 8)真核生物基因组中也存在一些可移动的遗传因素,这些DNA顺序并无明显生物学功能,似科为自己的目的而级织,故有自私DNA之称,其移 动多被RNA介导,也有被DNA介导的。

真核生物转录特点

真核生物RNA的转录与原核生物RNA的转录过程在总体上基本相同,但是,其过程要复杂得多,主要有以下几点不同(图3-27)。 ⒈真核生物RNA的转录是在细胞核内进行的,而蛋白质的合成则是在细胞质内进行的。所以,RNA转录后首先必须从核内运输到细胞质内,才能指导蛋白质的合成。 ⒉真核生物一个mRNA分子一般只含有一个基因,原核生物的一个mRNA分子通常含有多个基因,而除少数较低等真核生物外,一个mRNA分子一般只含有一个基因,编码一条多态链。 ⒊真核生物RNA聚合酶较多在原核生物中只有一种RNA聚合酶,催化所有RNA的合成,而在真核生物中则有RNA聚合酶Ⅰ、RNA聚合酶Ⅱ和RNA聚合酶Ⅲ三种不同酶,分别催化不同种类型RNA的合成。三种RNA聚合酶都是由10个以上亚基组成的复合酶。RNA聚合酶Ⅰ存在于细胞核内,催化合成除5SrRNA 以外的所有rRNA的合成;RNA聚合酶Ⅱ催化合成mRNA前体,即不均一核RNA(hnRNA)的合成;RNA 聚合酶Ⅲ催化tRNA和小核RNA的合成。 ⒋真核生物RNA聚合酶不能独立转录RNA 。原核生物中RNA聚合酶可以直接起始转录合成RNA ,真核生物则不能。在真核生物中,三种RNA聚合酶都必须在蛋白质转录因子的协助下才能进行RNA的转录。另外,RNA聚合酶对转录启动子的识别,也比原核生物更加复杂,如对RNA聚合酶Ⅱ来说,至少有三个DNA的保守序列与其转录的起始有关,第一个称为TATA框(TATA box),具有共有序列TATAAAA,其位置在转录起始点的上游约为25个核苷酸处,它的作用可能与原核生物中的-10共有序列相似,与转录起始位置的确定有关。第二个共有序列称为CCAAT框(CCAAT box),具有共有序列GGAACCTCT,位于转录起始位置上游约为50-500个核苷酸处。如果该序列缺失会极大地降低生物的活体转录水平。第三个区域一般称为增强子(enhancer),其位置可以在转录起始位置的上游,也可以在下游或者在基因之内。它虽不直接与转录复合体结合,但可以显著提高转录效率。

真核基因组注释流程

真核基因组注释入门指南 doi:10.1038/nrg3174 Mark Yandell 和 Daniel Ence Department of Human Genetics, Eccles Institute of Human Genetics, School of Medicine, University of Utah, Salt Lake City, Utah 84112-5330, USA. Correspondence to M.Y. e-mail: myandell@https://www.sodocs.net/doc/b97224468.html, 摘要:基因组测序价格的下降给考虑进行基因组测定和注释的研究团体带来了显著的影响。基因组注释项目普遍变成由单个实验室实施的小规模事件。尽管注释一个真核基因组已经可由非专业人士完成,但仍较难。本文综述了基因组注释的概貌、相关软体并描述了一些最适用的方法。 引言:测序费用下降如此快以致单个实验室也能支付人类基因组的测定。尽管测序变得容易了,许多因素却使基因组注释却变得更难: 首先,第二代测序平台的更短的原始读长意味着现在基因组组装很少获得接近果蝇和人类基因组那样用经典shotgun组装的结果。 第二,许多近来测定的基因组具有的独特性也带来了挑战,尤其是对基因的发掘。不同于第一代基因组项目依赖于大量已知的基因模型,今天的基因组常常缺乏前期研究。这导致难于训练、优化和设定基因预测等注释工具的参数。 第三个新挑战来自对升级和融合注释数据的需求。RNA水平数据(RNA-seq)为升级陈旧的注释数据集提供了显而易见的途径。而且,这一工作十分重要。然而,也不能直接保证可以改进原始的注释结果。另外,今天常常有多个团队用不同的注释过程去注释同一个基因组,众多信息整合获得一致注释是一个相对复杂的任务。 最后一点,基因组注释项目的团队大小发生了变化。不像以往,今天的基因组注释项目常是更小规模团队完成,相关研究者常缺乏生物信息学和计算生物学的专业知识。真核基因组注释不是一个简单的过程,需要一些基本的UNIX技能。但利用现在的工具软体,自己动手进行基因组项目注释十分可行。本文综述了基因组注释的概貌、相关工具并描述了一些最适用的方法。 概述:组装和注释 组装 成功注释任何基因组的第一步是决定组装是否已经达到要求。许多总结性统计用来描述基因组组装的完整性和连续性。最重要的是N50 。其他的统计参数有scaffold的平均gap大小和数目。大多数现有基因组是“标准的草图”组装,这意味着它们达到了递交至公共数据库的最低标准。然而,“高质量草图”组装是注释的更高目标,至少达到90%的完整性。 尽管没有绝对的标准,但是对注释而言,scaffold N50长度达到基因平均长度是一个合理的目标。原因十分简单:此时,基因中约有50%有望包括在单个scaffold;这些完整的基因与其它片段一同提供下游分析的素材。如图1所示,平均基因长度与基因组大小存在粗略的对应关系。因此,如果基因组大小已知,就可以粗略的获得基因大小从而获得注释所需的最小scaffold N50。CEGMA提供了估算组装的完整性和连续性的另外一种补充方式,该方式依靠所收集的真核单拷贝基因并确定每一个基因存在于单个scaffold中的百分比来检测组装效果。 获得高质量组装草图是大多数基因组项目都可以完成的目标。如果组装不完全或者scaffold的N50长度过短,我们建议补充进行shotgun测序。

真核生物染色体基因组的结构和功能

真核生物染色体基因组的结构和功能 ?真核生物基因组特点 ?高度重复序列 o反向重复序列 o卫星DNA o较复杂的重复单位组成的重复顺序 o高度重复序列的功能 ?中度重复顺序 o Alu家族 o KpnⅠ家族 o Hinf家族 o rRNA基因 o多聚dT-dG家族 o组蛋白基因 ?单拷贝顺序(低度重复顺序) ?多基因家族与假基因 ?自私DNA(selfish DNA) 真核生物的基因组一般比较庞大,例如人的单倍体基因组由3×106 bp硷基组成,按1000个碱基编码一种蛋白质计,理论上可有300万个基因。但实际上,人细胞中所含基因总数大概会超过10万个。这就说明在人细胞基因组中有许多DNA序列并不转录成mRNA用于指导蛋白质的合成。DNA的复性动力学研究发现这些非编码区往往都是一些大量的重复序列,这些重复序列或集中成簇,或分散在基因之间。在基因内部也有许多能转录但不翻译的间隔序列(内含子)。因此,在人细胞的整个基因组当中只有很少一部份(约占2-3%)的DNA 序列用以编码蛋白质。 真核生物基因组有以下特点。 1.真核生物基因组DNA与蛋白质结合形成染色体,储存于细胞核内,除配子细胞外,体细胞内的基因的基因组是双份的(即双倍体,diploid),即有两份同源的基因组。 2.真核细胞基因转录产物为单顺反子。一个结构基因经过转录和翻译生成一个mRNA 分子和一条多肽链。 3.存在重复序列,重复次数可达百万次以上。

4.基因组中不编码的区域多于编码区域。 5.大部分基因含有内含子,因此,基因是不连续的。 6.基因组远远大于原核生物的基因组,具有许多复制起点,而每个复制子的长度较小。高度重复序列: 高度重复序列在基因组中重复频率高,可达百万(106)以上,因此复性速度很快。在基因组中所占比例随种属而异,约占10-60%,在人基因组中约占20%。高度重复顺序又按其结构特点分为三种。 (1)倒位(反向)重复序列 这种重复顺序复性速度极快,即使在极稀的DNA浓度下,也 能很快复性,因此又称零时复性部分,约占人基因组的5%。反向 重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而 成。变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基 配对,形成发夹式或“+”字形结构。倒位重复(即两个互补拷贝) 间可有一到几个核苷酸的间隔,也可以没有间隔。没有间隔的又称 回文(palimdr-ome),这种结构约占所有倒位重复的三分之一。若以两个互补拷贝组成的倒位重复为一个单位,则倒位重复的单位约长300bp或略少。两个单位之间有一平均1.6kb 的片段相隔,两对倒位重复单位之间的平均距离约12kb,亦即它们多数散布非群集于基因组中。 (2)卫星DNA 卫星DNA(satelliteDNA)是另一类高度重复序列,这类重复顺序的重复单位一般由 2-10bp组成,成串排列。由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA分开,因而称为卫星DNA或随体DNA。在人细胞组中卫星DNA约占5-6%。按照它们的浮力密度不同,人的卫星DNA可分为Ⅰ、Ⅱ、Ⅲ、Ⅳ四种。果蝇的卫星DNA顺序已经搞清楚,可分为三类,这三类卫星DNA都是由7bp组成的高度重复顺序:卫星Ⅰ为5'ACAACT3',卫星Ⅱ为5'ACAAATT3'。而蟹的卫星DNA为只有AT两个碱基的重复顺序组成。 (3)较复杂的重复单位组成的重复顺序 这种重复顺序为灵长类所独有。用限制性内切酶HindⅢ消化非洲绿猴DNA,可以得到重复单位为172bp的高度重复顺序,这种顺序大部份由交替变化的嘌呤和嘧啶组成。有人把这类称为α卫星DNA。而人的α卫星DNA更为复杂,含有多顺序家族。 (4)高度重复顺序的功能 a.参与复制水平的调节反向序列常存在于DNA复制起点区的附近。另外,许多反向重复序列是一些蛋白质(包括酶)和DNA的结合位点。

基因功能注释

Gene Annotation 基因注释主要基于蛋白序列比对。将基因的序列与各数据库进行比对,得到对应的功能注释信息。为便于分析,还需要将各种注释信息进行综合,选取最为准确的注释。可以先用程序来选取比对最相似,形式最好的注释信息,然后再做少量的人工校正。 请注意:对于Nt, Nr, Swissprot, trEMBL, COG, KEGG, InterPro的搜索,我们默认的方法是只取best hit, 也就是每个基因只对应数据库中比对最好的那条记录。这样可以简化分析,但是会丢失一些信息。如果要求严格,可以采用一定E-value条件下所有的hit。 Blast database Nt, Nr is the non-redundant NCBI collection of nucleotide and protein sequence database. ftp://https://www.sodocs.net/doc/b97224468.html,/blast/db/FASTA/ 注意:Nt,Nr数据库由于很大,被分成很多部分,使用时直接指定Nt,Nr即可。 UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases. UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 注意:Swissprot/trembl数据库不能直接跑blast,必须先用simplify_uniprot.pl程序把蛋白序列名字简化; COG(Cluster of Orthologous Groups of pretein)蛋白相邻类的聚簇。该数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成的。对于预测单个蛋白质的功能和整个新基因组中的蛋白质的功能非常有用。 COG: https://www.sodocs.net/doc/b97224468.html,/COG/ COG:ftp://https://www.sodocs.net/doc/b97224468.html,/pub/COG/ 准备数据库,首先将没有COG归类的基因的filter掉,减少无效计算量。 有用文件:readme whog fun.txt myva org.txt。 注意:COG单细胞版本(Unicellular)里包含的都是原核生物,数据量较小,搜索COG 的目的是对应出COG号。 KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因及基因组百科全书,是一个有关生物系统较完善的数据库,关联基因组信息和功能信息的知识库。其由基因蛋白序列(KEGG Genes)、具有内源性和外源性的化学物质(KEGG Ligand)、分子相互作用和代谢通路图(KEGG Pathway)和各种生物之间的层次关系(KEGG Brite)构成,在功能注释分析中,我们主要关注的是KEGG代谢通路图的分析 KEGG:ftp://ftp.genome.jp/pub/kegg/ 需要ko genome,pathway/map 和seq_pep文件。通过genome文件中的物种可分为原核与真核两部分。通过ko文件,可确定ko分类各层级的关系。序列文件seq_pep中含有基

原核细胞与真核细胞相比最主要特点

. 原核细胞与真核细胞相比最主要特点:没有核膜包围的典型细胞核。 2. 细胞分裂间期最主要变化:DNA的复制和有关蛋白质的合成。 3. 构成蛋白质的氨基酸的主要特点是:(a-氨基酸)都至少含一个氨基和一个羧基,并且都有一氨基酸和一个羧基连在同一碳原子上。 4. 核酸的主要功能:一切生物的遗传物质,对生物的遗传、变异及蛋白质的生物合成有重要意义。 5. 细胞膜的主要成分是蛋白质分子和磷脂分子。 6. 选择透过性膜主要特点是水分子可自由通过,被选择吸收的小分子、离子可以通过,而其他小分子、离子、大分子却不能通过。 7. 线粒体功能:细胞进行有氧呼吸的主要场所。 8. 叶绿体色素的功能:吸收、传递和转化光能。 9. 细胞核的主要功能:遗传物质的储存和复制场所,是细胞遗传性和代谢活动的控制中心。 10. 新陈代谢主要场所:细胞质基质。 11. 细胞有丝分裂的意义:使亲代和子代细胞之间保持遗传性状的稳定性。 12. A TP的功能:生物体生命活动所需能量的直接来源。 13. 与分泌蛋白形成有关的细胞器:核糖体、内质网、高尔基体、线粒体。 14. 能产生ATP的细胞器(结构):线粒体、叶绿体、(细胞质基质(结构))。能产生水的细胞器(结构):线粒体、叶绿体、核糖体、(细胞核(结构))。能碱基互补配对的细胞器(结构):线粒体、叶绿体、核糖体、(细胞核(结构))。 15. 渗透作用必备的条件是:一是半透膜;二是半透膜两侧要有浓度差。 16. 内环境稳态的生理意义:机体进行正常生命活动的必要条件。 17. 呼吸作用的意义是:(1)提供生命活动所需能量;(2)为体内其他化合物的合成提供原料。 18. 减数分裂和受精作用的意义是:对维持生物体前后代体细胞染色体数目的恒定性,对生物的遗传和变异有重要意义。 19. DNA是主要遗传物质的理由是:绝大多数生物的遗传物质是DNA,仅少数病毒遗传物质是RNA。 20. DNA规则双螺旋结构的主要特点是:(1)DNA分子是由两条反向平行的脱氧核苷酸长链盘旋成的双螺旋结构。(2)DNA分子中的脱氧核糖和磷酸交替连接,排列在外侧,构成基本骨架;碱基排列在内侧。(3)DNA分子两条链上的碱基通过氢键连接成碱基对,遵循碱基互补配对原则。 21. DNA结构的特点是:稳定性——DNA两单链有氢键等作用力;多样性——DNA碱基对的排列顺序千变万化;特异性——特定的DNA分子有特定的碱基排列顺序。 22. 遗传信息:DNA(基因)的脱氧核苷酸排列顺序。遗传密码或密码子:mRNA上决定一个氨基酸的三个相邻的碱基。 23. DNA复制的意义:使遗传信息从亲代传给子代,从而保持了遗传信息的连续性。DNA 复制的特点:半保留复制,边解旋边复制。 24. 基因是指控制生物性状的遗传物质的基本单位,是有遗传效应的DNA片段。 25. 基因的表达是指基因使遗传信息以一定的方式反映到蛋白质的分子结构上,从而使后代表现出与亲代相同的性状。包括转录和翻译两阶段。 26. 遗传信息的传递过程:中心法则。 27. 基因自由组合定律的实质:位于非同源染色体上的非等位基因的分离或组合是互不干扰的。在进行减数分裂形成配子的过程中,同源染色体上的等位基因彼此分离,同时,非

基因组注释

基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位 置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析mRNA 和EST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据[1 ] ; (3) 基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2)序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG) [2 ] 。随着微生物全基因组序列测定速率的加快,开发有Web 接口的高效、综合基因组注释系统十分要。近年来,国际上已有一些这样的工具,如基于Java 的微生物基因组数据库接口。尽管JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大[3 ] ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。 在基因组学中,对基因和其他生物特征的标注称为基因组注释。 (1) 基因组组分分析 GC含量分析, Contig N50 和Scaffold N50统计 (2) 基因预测 (3) 基因结构注释(4) 重复序列分析与注释 (5) 启动子和motif预测 (6) 非编码RNA的注释tRNA, rRNA, microRNA靶基因预测, snoRNA及其甲 基化位点预测 (7) 基因功能注释GO, KEGG, InterPro, COG, NR, NT (8) 免疫防御关键基因, 转录因子预测 (9) Pseudogene 预测 (10) 基因组的倍增(tandem and segmental duplication)

基因组测序术语解释

DNA关键词: WG-BSA (全基因组重测序BSA) 对已有参考基因组序列的物种的所有作图群体(F1、F2、RIL、DH 和BC1等),对亲本进行个体重测序,对某个极端性状材料混池测序,检测SNP,获得与性状紧密关联的分子标记和精细定位区域,是目前最高效的基因定位方法。通过选取某个极端性状,利用高效率低成本的混池测序技术,勿需开发分子标记进行遗传图的构建,快速定位与性状相关的候选QTL。 MP-Reseq (多混池全基因组重测序) 针对特有的优良地方品种中的不同品种/品系,通过群体内pooling 建库的方法,进行全基因组重测序,采用生物信息学方法全基因组范围内扫描变异位点,能快速的定位不同混池样品基因组中明显经过人工或自然选择的区域,检测与性状相关的基因区域及其功能基因。 全基因组个体重测序 基于全基因组重测序的变异图谱通过测序手段结合生物信息分析研究同一物种不同个体之间的变异情况,获得大量的变异信息,如SNP、Indel、SV 等。主要可以快速地获得大量的分子标记以及不同个体在基因组水平上的差异。 全基因组关联分析-GWAS 通过重测序对动植物重要种质资源进行全基因组基因型鉴定,与关注的表型数据进行全基因组关联分析,找出与关注表型相关的SNP位点,定位数量性状基因,与数量性状相关的基因紧密连锁的SNP标记,后续可用于分子标记辅助育种,助力育种进程。 全基因组重测序-遗传进化 通过对来自全国各地、具有代表性的XX 份XX 材料进行全基因组重测序,检测SNP、Indel、SV,并利用获得的SNP 与SV 数据进行群体多样性分析,包括连锁不平衡分析、群体进化分析、群体结构分析、群体主成分分析等。 全基因组重测序-遗传图谱 基于全基因组重测序技术对已有参考基因组序列的物种进行个体或群体的全基因组测序,利用高性能计算平台和生物信息学方法,检测单核苷酸多态性位点(SNP),并计算多态性标记间的遗传连锁距离,绘制高密度的遗传图谱。通过与表型性状进行关联分析,利用获得的强关联性标记进行下游基因的精细定位。遗传图可用于分子标记辅助育种,重要性状候选基因克隆,辅助基因组组装,比较基因组学等研究。 细菌基因组de novo 测序 细菌是生物的主要类群之一,是所有生物中数量最多的一类。细菌广泛分布于土壤和水中,或者与其他生物共生,也有部分种类分布在极端环境中,例如温泉,甚至是放射性废弃物中。由于细菌自身的营

相关主题