搜档网
当前位置:搜档网 › gene ontology(GO基因注释)

gene ontology(GO基因注释)

gene ontology(GO基因注释)
gene ontology(GO基因注释)

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.

基因本体论(gene ontology)的建立

现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质

合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。

Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。

GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。

GO发展了具有三级结构的标准语言(ontologies),如表所示。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。

本体论内容分子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP 水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等

基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将

位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持更为便捷。

本体论(The ontologies)

GO的结构包括三个方面?D?D分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们可能在每一个方面都有多种性质。如细胞色素C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。下面,将进一步的分别说明GO的具体定义情况。

基因产物

基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物,也表明了它的功能。但是这之间其实是存在差别的?D?D一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种

分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。所以,在GO中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。

许多基因产物会形成复合物后执行功能。这些“基因复合物”有些非常简单(如血红蛋白由血红蛋白基因产物α-球蛋白、β-球蛋白和小分子的亚血红素组成),有些非常复杂(如核糖体)。现在,小分子的描述还没有包括在GO中。在未来,这个问题可望由和现在的Klotho和LIGAND等小分子数据库联合而解决。

分子功能

分子功能描述在分子生物学上的活性,如催化活性或结合活性。GO分子功能定

义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。

生物学途径

生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或α-配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等。

因此,GO并不涉及到通路中复杂的机制和所依赖的因素。

细胞组件

细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等)。

GO的形式

GO 定义的术语有着直接非循环式(directed acyclic graphs (DAGs)的特点,

而并非是传统的等级制(hierarchy)定义方式(随着代数增加,下一级比上一级更为具体)。举个例子来说,生物学途径中有一个定义是己糖合成,它的上一级为己糖代谢和单糖合成。当某个基因被注解为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。因为在GO中,每个术语必须遵循“真途径“法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。

GO的注释(Annotation)

那么,GO中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数

据库来完成的,它们使用GO的定义方法,对它们所包含的基因产物进行注解,并且提供支持这种注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的GO术语。每个数据库都会给出这些基因产物和GO术语的联系数据库,并且也可以在GO的ftp站点上和WEB方式查询到。

并且,GO联合会提供了简化的本体论术语(GO slim),这样,可以在更高级的层面上研究基因组的功能。比如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。

GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。基因产物指一个基因编码的RNA或蛋白产物。因为一个基因可能编码多个具有很不相同性质的产物,所以GO推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。

一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。GO联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:一.所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果;二.注释必须提供支持这种基因产物和GO术语之间

联系的证据。

GO文件格式

GO的所有数据都是免费获得的。GO数据有三种格式:flat(每日更新)、XML(每月更新)和MySQL(每月更新)。这些数据格式都可以在GO ftp的站点上下载。XML 和 MySQL 文件是被储存于独立的GO数据库中。

如果需要找到与某一个GO术语相关的基因或基因产物,可以找到一个相应表格,搜寻到这种注解的编号,并且可以链接到与之对应的位于不同数据库的基因相关文件。

GO浏览器和修改器(browser and editor)

GO术语和注释使用了多种不同的工具软件,它们都可以在web方式的“GO 浏览器”下“GO software page”中找到。大多数GO浏览器都是web模式的,允许你直观的看到术语和其相关信息,如定义、同义词和数据库参考等。有些GO浏览器如AmiGO和 QuickGO,可以看到每个术语的注释。而可下载的DAG-Edit编辑器,一样可以离线地显示注释和所有本体论定义的信息。对于每一个浏览器来说,都可以选择最适用于你要求的工具软件。

常见的三种浏览器

AmiGO from BDGP在AmiGO中,可以通过查询一个GO术语而得到所有具有这个注释的基因产物,或查询一个基因产物而得到它所有的注释关系。还可以浏览本体论,得到术语之间的关系和术语对应的基因产物数目。AmiGO直接连接GO

下的MySQL。MGI GO Browser MGI GO的功能类似于AmiGO,所不同的在于它所得到的基因为小鼠基因。MGI GO浏览器直接连接GO下的MGI数据库。QuickGO at EBI QuickGO,整合在EBI下的InterPro中,可以通过查询一个GO术语而得到它的定义与关系描述、在SWISS-PROT中的定位、在酶分类学(EC)和转运分类学(TC)中的定位和InterPro中的定位等。

其他还有一些特殊的浏览GO的浏览器,其中括号中为建立机构和主要特色:

EP GO Browser(EBI,基因表达情况),、GoFish(Harvard,Boolean查询、GenNav (NLM, 图像化展示)、GeneOntology@RZPD(RZPD,UniGene)、ProToGO(Hebrew University,GO的亚图像化)、CGAP GO Browser(癌症基因组解剖工程,癌症)、GOBrowser(Illuminae,perl.、TAIR Keyword Browser (TAIR,拟南芥)、PANDORA(Hebrew University,非一致化蛋白)。

修改器

GO 术语和本体论结构可以由任何可以读入GO平板文件的文本修改器进行编辑,但是这需要对平板文件非常熟悉。因此,DAG-Edit是被推荐使用的,它是为 GO 特别设计的,能够保证文件的句法正确。GO注释可以被多种数据库特异性的工具所编辑,如TIGR的Manatee和EBI的Talisman tool。但是GO数据库中写入新的注释是需要通过GO认证的管理员方可进行的,如果想提出新的注释或对本体论的建议,可以联系GO。

主要修改器为DAG-Edit和COBrA。DAG-Edit基于Java语言,提供了能浏览、查询、编辑具有DAG数据格式的GO数据界面。在SourceForge可以免费下载,伴随着帮助文件。COBrA能够编辑和定位GO和OBO本体论。它一次显示两个本体论,因此可以在不同的水平相应定位。(如组织和细胞类型水平)优点在于可以综合几种本体论,支持的文件格式多,包括GO平板文件、GO RDF和OWL格式等。

如图为DAG-Edit的界面,可以分为四个部分:

1)定义编辑面板(term editor panel)

显示当下的本体论。也是主要的编辑本体论结构的工具,可以通过点击和拖动术语来修改本体论的从属关系。

2)文本编辑面板(text editor panel)

修改术语中的内容。在修改多个术语时,会出现一个选择菜单,可以选中后逐个修改。

3) DAG浏览器

DAG浏览器是一个插件,能够以图形的方式展示具有复杂的从属关系的术语。4) 搜寻/屏蔽面板

可搜寻术语、术语类型和术语间关系。可自定义屏蔽条件,限制得出的搜寻结果。GO数据库的查找和浏览FAQ

1. 如何搜寻注释?

使用AmiGO浏览器,可以在所有参与的数据库中搜寻一个特定的注解。AmiGO允许使用GO术语或基因产物的搜寻。搜寻结果包括GO对这个术语的等级分级情况,定义和近义结构,外部链接,所有相联系的基因产物和它的下一级术语。2. 如何得到全部的GO注释?

在GO网站上,基因产物与GO联系的组信息都有提供。这些文件储存了基因/基因产物的ID和引用文献等支持证据(如FlyBase 基因ID, SWISS-PROT蛋白ID),在ftp站点上都可以获得。

3.在一些模式生物中,一个基因通常有多个与之相关的核苷酸序列,如EST、蛋白序列等。要查询到这些序列,可以从该模式生物数据库中通过基因联系(gene association)查询到基因获得ID(gene accession ID),或是分别在Compugen

中查询大的转录产物(transcipt)和SWISS-PROT/TrEMBL中查询蛋白。

4. 如何得到由GO术语注解的蛋白序列?

在GO网页上选择能查询到所有数据库的Amigo浏览器,键入GO术语(如“线粒体”),在结果中显示了被注释的基因。然后选择你所需基因,在网页的最低端把选项拖至“get fasta sequence”区域,再确定即可。

5.如何能够找到所有和一个特定的GO术语相关的人类基因呢?

GO术语是和SWISS-PROT/TrEMBL/InterPro and Ensembl中的蛋白序列无赘余地对应的。这些注释在EBI上的GOA-Human 文件中,GO的FTP站点上,Ensembl,EMBL-Bank上都可找到。

6.可以直接使用GenBank的gi获取码在GO数据库中进行查询吗?

GO数据库中除了Compugen所提供的GenBank获取码之外,没有包含其他GenBank 获取码的信息,但是在EBI的GOA(GO Annotation)中,有一个综合的对GenBank/EMBL/DDBJ进行查询的方式,详细请见:

ftp://https://www.sodocs.net/doc/15188370.html,/pub/databases/GO/goa/HUMAN/xrefs.goa.

GO与其他分类系统的定位关系(Mapping to GO)

GO 并不只是希望为基因组建立一个标准化的、结构清晰的注释语言。GO致力于各种基因组数据库的标准化。GO为各种基因组分类系统和GO注释之间的转化提供了转化表,见https://www.sodocs.net/doc/15188370.html,/GO.indices.html

数据库索引文件来源UniProt Knowledgebase spkw2go Evelyn Camon (Note: spkw2go used to be called swp2go, all files remain the same.)Enzyme Commission ec2go Michael Ashburner EGAD egad2go Michael Ashburner GenProtEC genprotec2go Heather Butler and Michael AshburnerTIGR role tigr2go Michael Ashburner TIGR Families tigrfams2go TIGR Staff InterPro interpro2go Nicola MulderMIPS Funcat mips2go Michael Ashburner and Midori HarrisMetaCyc Pathways metacyc2go Michael Ashburner and Midori HarrisMultiFun Classifications multifun2go Michael Ashburner, Jane Lomax and Margrethe Hauge SerresPfam Domains pfam2go Nicola MulderProdom Domains prodom2go Nicola MulderPrints Domains prints2go Nicola MulderProSite Domains prosite2go Nicola MulderSmart Domains smart2go Nicola Mulder README

需要注意的是,这些转化不是完全而精确的。其中的一个原因可能是GO有一套完整的定义系统,而很多数据库并不具有。

GO的应用

GO的局限性

1. GO 不是基因序列或基因产物数据库,相反的,GO强调基因产物在细胞中的

功能。

2. GO不是整合数据库的一种方式(如联邦式整合数据库),它并不能做到这点是因为:

a. 更新速度较慢

b. 由于每个人对数据定义的方式不同,标准难以达到一致。

c. GO并不对生物学的每个方面进行描述。如功能域的结构、3D结构、进化等。3.GO 是对基因功能的注解,但是有其局限性。比如说,GO不能反映此基因的

表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO虽然不涉及这些方面,但是支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)

用于基因组分析

基因组和全长cDNA序列工程通常会根据序列的相似性,推测基因与已注释的基

因功能类似。现在最常用的手段是在SWISS-PROT序列中设定一个相似性的域值,使用计算机化的方法来判断。因此,根据这一原理,也可以得到新的GO注释(被标记为“根据电子注释推测”)。一个GO的重要应用方面是对于一个 GO术语,能形成一个相联系的基因产物组。举例来说,某一基因产物可以被精确地注释为在碳水化合物代谢的一个特定的功能,如葡萄糖代谢,而在总结碳水化合物代

谢时,所有这些基因产物都会聚集到一起。GO计划为每一个高频出现的术语建

立文档总汇,现在有些已经在“GO Slim”中实现了。

用于基因表达分析

如在芯片数据中引入GO注释,通常可以揭示出为什么一个特定组的基因拥有相似的表达模式。共表达的基因可能编码在同一个生物过程中出现的基因产物,或定位于同一个细胞部位的。如果未知基因和一些已被GO过程术语相似地注释了的基因共表达,那么这个未知基因很有可能在同一个过程中发挥功能。分析和操作基因表达芯片数据,并且又能结合GO注释的软件已产生。EBI 提供的Expression Profiler,和EP:GO都具有此功能。

GO可能的应用

GO的应用前景很广阔,不可能一一列出,现在已用到的包括:

1.整合来自于不同生物的蛋白组信息。

2.判定蛋白结构域的功能。

3.找到在疾病/衰老中异常表达的基因的功能类似性。

4.预测与一种疾病相关的基因

5.分析在发育中同时表达的基因

6.建立起自动的能从文献中获取基因功能信息的工具。

GO规模

如上所述,GO的三层结构是分子功能、生化途径和细胞组件。GO包含的大部分为平板格式文件(GO flat file),由每一种本体论中定义的文件为文本文件,而包含本体论和定义两种格式的是OBO格式的平板文件,XML作为可以用于三种本体论和所有定义的文件格式也有提供。这些文件都在每月的1日更新,GO每月将给出月份更新报告。

GO的使用和引用

GO 的使用

基因本体论联合会是由国家人类基因组研究所 (NHGRI) 的R1拨款所赞助,此外还有欧盟RTD项目“生活质量和生活资源管理”拨款。Gene OntologyTM 由AstraZeneca公司提供资金赞助,而SGD小组得到了IncyteGenomics的赞助。

GO数据库中的术语、注释等都属于公共范畴。GO的资源是免费的,但是必须在以下三种情况下使用:

1. 必需引用基因本体论联合会。

2. 所使用的GO文件必需标明GO的版本号和日期。(GO处于不断更新中)

3. GO文件的内容和内在的逻辑关系不得被更改。

引用GO

当使用GO资源时,请引用以下文献:

Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium (2000) Nature Genet. 25: 25-29.

当引用亚数据库资源时,请参考GO的 publication list

gene ontology(GO基因注释)

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能. 基因本体论(gene ontology)的建立 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质 合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。 Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。 GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。 GO发展了具有三级结构的标准语言(ontologies),如表所示。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。 本体论内容分子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP 水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等 基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将

关于GO分析

【引用】关于GO分析 2011-07-13 17:19:27| 分类:默认分类| 标签:|字号大中小订阅 Gene Ontology 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个 在字面上相差甚远却在功能上相一致的定义。 Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database (小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。 GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添 加对此基因产物特性的认识。 GO发展了具有三级结构的标准语言(ontologies),如表所示。根据基因产物的相关分子功能,生物学途 径,细胞学组件而给予定义,无物种相关性。 本体论内容 分子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等 细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等 基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,形成网络;第三,发展相关工具,使本体论的标准语言的产生和维持 更为便捷。 本体论(The ontologies) GO 的结构包括三个方面?D?D分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们可能在每一个方面都有多种性质。如细胞色素C,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。下面,将进一步的分别说明GO的 具体定义情况。 基因产物 基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf管里的基因产物,也表明了它的功能。但是这之间其实是存在差别的?D?D一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。所以,在GO中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是 功能,并不是基因产物。 许多基因产物会形成复合物后执行功能。这些“基因复合物”有些非常简单(如血红蛋白由血红蛋白基因产物α-球蛋白、β-球蛋白和小分子的亚血红素组成),有些非常复杂(如核糖体)。现在,小分子的描述

转录组测序

真核mRNA测序是基于HiSeq平台,对真核生物特定组织或细胞在某个时期转录出来的所有mRNA进行测序,既可研究已知基因,亦能发掘新基因,全 面快速地获得mRNA序列和丰度信息。真核mRNA测序方法可以分为:有参考转录组、无参考转录组以及数字基因表达谱(DGE)三大类。 技术参数 案例解析 [案例一] mRNA和small RNA转录组揭示新合成异源六倍体小麦杂种 优势的动态部分同源调控 诺禾致源携手中国农业科学院作物科学研究所,利用转录组测序技术,对杂交亲本、新合成异源六倍体小麦的幼苗、穗和种子进行了mRNA和smallRNA测序及信息分析,发现新合成异源六倍体小麦绝大部分基因表现为12类基因表达模式,包括加性表达,少部分的基因表现为非加性,基因的非加性表现出非常强的发育时期特异性,与生长势密切相关;miRNA的丰度随着倍性的增加逐渐下降,新合成异源六倍体小麦中非加性表达的 miRNA也同样表现出亲本显性表 达,miRNA的表达敏感性与生长势和适应性密切相关。该研究揭示了不同倍性 非对等杂种优势的分子基础。 [案例二] 磷酸三(2,3-二氯丙基)酯(TDCPP)对四膜虫生长繁殖的 抑制作用与核糖体相关 诺禾携手华中农业大学,利用转录组测序和信息分析技术,研究了TDCPP处理组和对照组差异基因表达,并对差异表达基因进行KEGG通路分析,发现核糖体基因通路显著富集, 同时伴随胞浆和粗面内质网上核糖体数量减少体积增大。这些探索表明四膜虫可以作为TDCPP反应的生物指标,为后续研究TDCPP作用其他生物的毒理机制提供了新视角。 [案例三] 转录组揭示寄主植物与宿主之间进行RNA交换的机制 参考文献 菟丝子被称作勒死草,会用被称作吸根的专用器官穿透宿主组织与其建立联系,可以吸取宿主的水份与营养物质,也能吸取RNA(mRNA)分子。本研究分别选取菟丝子和拟南芥及番茄的共生体茎上的三段组织进行转录组学的研究,发现寄生植物与寄主之间mRNA的转移量很大且是一种双向转移的模式;两种宿主相比,更多的拟南芥RNA被转移到菟丝子植物之中,而且菟丝子与拟南芥之间较自由的交换,可表明调节菟丝子吸根选择性的机制可能是宿主特异性的,从而揭示了寄主与宿主之间进行RNA转移的遗传机制。 [1] Li A, Liu D, Wu J, et al . mRNA and small RNA transcriptomes reveal insights into dynamic homoeolog regulation of allopolyploid heterosis in nascent hexaploid wheat [J]. The Plant Cell, 2014: tpc. 114.124388.[2] Jing Li, John P , Giesy, Liqin Yu, et al . Effects of Tris (1,3-dichloro-2-propyl) Phosphate (TDCPP) in Tetrahymena Thermophila: Targeting the Ribosome. Scientific Reports. 2015, 5:10562. [3] Kim G, LeBlanc M L, et al . Genomic-scale exchange of mRNA between a parasitic plant and its hosts [J]. Science, 2014, 345(6198): 808-811. 图1 非加性表达miRNA与亲本显性表达miRNA的 等级聚类分析和两者的关联 图2 显著富集的KEGG通路 图3 菟丝子与拟南芥、番茄转移RNA和非转移RNA的表达和富集分析 样品要求文库类型测序策略数据量类型 分析内容 项目周期 真核有参转录组测序 真核无参转录组测序 6 Gb、8 Gb、10 Gb、12 Gb clean data 6 M clean reads 3 Gb clean data 项目数据至少12 Gb clean data 数字基因表达谱(DGE) HiSeq PE150 HiSeq PE150 HiSeq SE50HiSeq PE125普通转录组文库; 链特异性转录组文库 40天50天30天 35天(有参)45天(无参) RNA样品总量≥1.5 μg; RNA样品浓度≥50 ng/μL 参考基因组比对 新转录本预测可变剪切分析SNP/InDel分析 基因表达水平分析RNA-seq整体质量评估 转录因子注释GO/KEGG富集分析蛋白互作网络分析基因共表达网络构建可视化结果展示 参考转录组拼接 转录本/Unigene长度统计 基因功能注释NR,NT,Swiss Prot GO,KEGG,KOG Protein Family CDS预测分析SNP/SSR分析

go分析===

go分析 Gene Ontology可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对于到Term,即功能类别或者细胞定位。功能富集分析: 功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。该功能或者定位有可能与研究的目前有关。GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究都挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表示。 1.GO分析根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。 2.Pathway分析根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。Pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过芯片结果得到的是编码这些蛋

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别;非编码RNA的预测;基因结构预测和基因功能注释。我们将分别对这四个领域进行阐述。 1:重复序列的识别。 重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类。其中串联重复序列包括有微卫星序列,小卫星序列等等;散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon)。常见的反转录转座子类别有LTR,LINE和SINE等。 重复序列识别的发展现状:目前,识别重复序列和转座子的方法为序列比对和从头预测两类。序列比对方法一般采用Repeatmasker软件,识别与已知重复序列相似的序列,并对其进行分类。常用Repbase重复序列数据库。从头预测方法则是利用重复序列或转座子自身的序列或结构特征构建从头预测算法或软件对序列进行识别。从头预测方法的优点在于能够根据转座子元件自身的结构特征进行预测,不依赖于已有的转座子数据库,能够发现未知的转座子元件。常见的从头预测方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。 重复序列识别的研究内容:获得组装好的基因组序列后,我们首先预测基因组中的重复序列和转座子元件。一方面,我们采用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等从头预测软件预测重复序列。为了获得从头预测方法得到的重复序列的类别信息,我们把这些序列与Repbase数据库比对,将能够归类的重复序列进行分类。另一方面,我们利用Repeatmasker 识别与已知重复序列相似的重复序列或蛋白质序列。通过构建Repbase数据库在DNA水平和蛋白质水平的重复序列,Repeatmasker能够分别识别在DNA水平和蛋白质水平重复的序列,提高了识别率。 重复序列识别的关键技术难点: 1):第二代测序技术测基因组,有成本低、速度快等优点。但是由于目前产生的读长(reads)较短。由于基因组序列采用kmer算法进行组装,高度相似的重复序列可能会被压缩到一起,影响对后续的重复序列识别。 2):某些高度重复的序列用现有的组装方法难以组装出来,成为未组装reads (unassembled reads)。有必要同时分析未组装reads以得到更为完整的重复序列分布图。之前,华大已开发了ReAS软件,专门用于识别未组装reads中

GO数据库使用指南

GO数据库使用指南Version No.2010.09.03 (内部资料仅供参考)

目录 目录 第一部分GO是什么? (2) 1.1基因本体论(gene ontology)的建立 (2) 1.2本体论(The ontologies)简介 (3) 1.3本体论语义之间的关系及其组织结构 (4) 1.3.1语义之间关系的基本理解 (4) 1.3.2关系之间的推导 (5) 1.3.3调节控制关系(the regulates relation)及其推导 (6) 1.3.4本体论的组织结构 (7) 1.4GO的注释(Annotation) (8) 第二部分GO怎么用? (10) 2.1下载本体论文件和注释文件 (10) 2.2GO语义及其相关注释的浏览与搜索 (17) 2.2.1AmiGO的基本使用说明 (17) 2.2.2语义关系的图形化描述 (20) 2.2.3根据语义检索 (22) 2.2.4根据基因产物检索 (25)

第一部分GO是什么? GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能. ontology))的建立 1.1基因本体论(gene ontology 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样。不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人体中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个数据库描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。 Gene Ontology就是为了解决上述问题,使各种数据库中基因产物功能描述相一致而发起的一个项目。这个项目最初是由1988年对三个模式生物数据库的整合开始:the FlyBase(果蝇数据库Drosophila),the Saccharomyces Genome Database(酵母基因组数据库SGD)和the Mouse Genome Informatics(小鼠基因组数据库MGI)。从那开始,GO不断发展扩大,现在已是包含数十个动物、植物、微生物的数据库(详见GO Consortium Page)。 GO开发了具有三级结构的语义词汇标准(Ontologies),根据基因产物的相关生物学途径、细胞学组件以及分子功能而分别给予定义,与具体物种无关。GO的工作大致可分为三个部分:第一,给予并维持语义(terms);第二,将位于数据库当中的基因、基因产物与GO 本体论语言当中的语义(terms)进行关联,形成网络;第三,开发相关工具,使本体论标准语言的产生和维持更为便捷。 GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高

表达谱数据的 GO分析和聚类分析

表达谱数据的 GO分析和聚类分析 王琼萍上海交通大学 GO(gene ontology)是基因本体联合会(Gene Ontology Consortium)所建立的数据库。GO 是多种生物本体语言中的一种,旨在建立一个能阐释各种物种的基因以及基因产物。这个数据库最开始起源于三个模式生物的数据库:果蝇基因组数据库(Drosophila)、酵母基因组数据库(Saccharomyces Genome Database,SGD)、小鼠基因组数据库(Mouse GenomeDatabase,MGD)。在这之后,在基因本体联合会成员的努力下,将GO 数据库扩展到了植物、动物、微生物等世界范围内各个主要的数据库。GO 数据库建立了具有三层结构的定义方式来描述基因及其产物的生物学过程、细胞组分及分子功能,对不同信息源的信息进行整合,以DAG(有向无环图)结构组织起来作为多个分支,节点的高低也代表了每个节点的意义的广泛程度。每个父项(parent terms)下包含若干子项(children terms),分支越远,匹配的GO 条目就越具体。在这个层级结构中,一个生物学注释可以由一个基因集表示。这个数据库的建立为基因功能数据挖掘提供了新的思路。一套基因本体,其实也就是一套基因的树状结构。GO 数据库及其序列分析程序的问世,使得差异基因的功能分析变得更加高效、准确。目前,已经有很多可以供畜牧研究者免费使用的GO资源,如AmiGo,它可以分析一个基因的GO 术语,也可以分析多个基因。 另外,还有Onto express、DAVID、Gostat 等。差异基因的GO 分析关键在于利用统计学方法进行基因富集,常用的方法是Fisher 的精确概率法或卡方检验。Fisher 的精确概率法利用超几何分布(hypergeometric distribution)的原理推断每个基因集中差异表达基因的比例是否与整个基因芯片上差异表达基因的比例相同。 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。基因表达谱数据的聚类分析,目的是为了将寻找一类类似的基因,如具有共同的调控原件、具有相似的生物学功能或具有相同的祖先等。这样的聚类往往可以发现一些未知领域,可以根据类中已知基因的功能而得知推断未知基因的功能。聚类分析要确定两个特征向量间的合适的测度及相似度,并确定算法方案,根据选定的相似性测度对向量进行聚类。常用的相似性测度包括欧氏距离(Euclideandistance)、明考斯基距离(Minkowski distance)、皮尔逊相关距离(Pearson correlationdistance)、马氏距离(Manhattan distance)等。聚类方法的分类可以有很多种,按照是否具有先验知识而分为监督聚类(supervised clustering)和非监督聚类(unsupervised clustering)。非监督聚类中的层级聚类(hierarchical clustering)、k means 聚类、自组织图、主成分分析等算法已经广泛地运用到基因表达分析中。基因聚类分析中容易受到噪点基因的干扰,而且要求算法的准确性和有效性较高,目前较常用的方法包括模糊聚类和人工神经网络。人工神经网络方法中自组织映射(Self Organizing Map, SOM)使用的最多,它采用的是结构简单的单层竞争性神经网络模式在输入端引入并与输出结点关联,其间的权重通过学习反复变更,直到达到终止标准,结果是相似的模式被分入同组,并为同一个单位神经元所代表。不同的聚类过程侧重于不同的相似性,那么聚类的结果也会有所不同。在聚类之前,一般要考虑一下四方面的内容:(1)什么样的数据,是原始的标准化后的数据,还是log 转化后的数据,或者是做了另外方法转化后的数据;(2)需要用全部的基因还是选择性的使用部分基因;(3)需要用什么样的矩阵把所选择的基因结合起来;(4)运用什么样的聚类算法。基因表达谱聚类分析已经被应用到各个领域,如癌症,个体行为关系等。

基因功能注释

Gene Annotation 基因注释主要基于蛋白序列比对。将基因的序列与各数据库进行比对,得到对应的功能注释信息。为便于分析,还需要将各种注释信息进行综合,选取最为准确的注释。可以先用程序来选取比对最相似,形式最好的注释信息,然后再做少量的人工校正。 请注意:对于Nt, Nr, Swissprot, trEMBL, COG, KEGG, InterPro的搜索,我们默认的方法是只取best hit, 也就是每个基因只对应数据库中比对最好的那条记录。这样可以简化分析,但是会丢失一些信息。如果要求严格,可以采用一定E-value条件下所有的hit。 Blast database Nt, Nr is the non-redundant NCBI collection of nucleotide and protein sequence database. ftp://https://www.sodocs.net/doc/15188370.html,/blast/db/FASTA/ 注意:Nt,Nr数据库由于很大,被分成很多部分,使用时直接指定Nt,Nr即可。 UniProtKB/Swiss-Prot; a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases. UniProtKB/TrEMBL; a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot. 注意:Swissprot/trembl数据库不能直接跑blast,必须先用simplify_uniprot.pl程序把蛋白序列名字简化; COG(Cluster of Orthologous Groups of pretein)蛋白相邻类的聚簇。该数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成的。对于预测单个蛋白质的功能和整个新基因组中的蛋白质的功能非常有用。 COG: https://www.sodocs.net/doc/15188370.html,/COG/ COG:ftp://https://www.sodocs.net/doc/15188370.html,/pub/COG/ 准备数据库,首先将没有COG归类的基因的filter掉,减少无效计算量。 有用文件:readme whog fun.txt myva org.txt。 注意:COG单细胞版本(Unicellular)里包含的都是原核生物,数据量较小,搜索COG 的目的是对应出COG号。 KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因及基因组百科全书,是一个有关生物系统较完善的数据库,关联基因组信息和功能信息的知识库。其由基因蛋白序列(KEGG Genes)、具有内源性和外源性的化学物质(KEGG Ligand)、分子相互作用和代谢通路图(KEGG Pathway)和各种生物之间的层次关系(KEGG Brite)构成,在功能注释分析中,我们主要关注的是KEGG代谢通路图的分析 KEGG:ftp://ftp.genome.jp/pub/kegg/ 需要ko genome,pathway/map 和seq_pep文件。通过genome文件中的物种可分为原核与真核两部分。通过ko文件,可确定ko分类各层级的关系。序列文件seq_pep中含有基

GO,KEGG, Interproscan, COG的相关知识

GO,KEGG, Interproscan, COG的相关知识 NR库作为NCBI主要数据库之一其库容较大,通常情况下能够注释到的基因较多,但同时其中未验证的信息过多,且很多基因功能描述模糊,很多时候会影响到基因功能的具体辨识,因此需要结合其他数据注释结果进行确定。另外,NR库因为在建立之初就包含有物种概念,因此其注释结果中均含有基因的物种来源信息,通过该类信息能够在某种程度上确定所测菌株的物种归属。 GO数据库: 注释来源于Interpro数据库中的quick GO数据库,因此,该数据库结果产出会包含与Interpro数据库注释的信息,以x.iprscan.gene.ipr结尾。Quick GO数据库注释的结果以 x.iprscan.go结尾,因为GO数据库三大类之间互有重叠,所以对于同时注释上多个GO分类的基因,可以通过不同大类间的信息来确定其功能。 KEGG数据库: 最优的地方在于拥有描绘已知通路的代谢通路图。其应用举例如下:比如我们关注丙氨酸代谢通路相关基因,这时我们可以通过关键字在x. kegg.list.anno中寻找含有丙氨酸(Alanine)的注释结果。 Interproscan : 是EBI开发的一个继承了蛋白质结构域和功能位点的数据库,其中吧 SWISS-PROT,TrEMBL,PROTSITE,PRINTS,PFAM,ProDom等数据库提供的蛋白序列中的各种局与模式,如结构,motif等信息统一起来,提供了一个较为全面的分析工具。 Swiss-Prot 较其他库的优点在于其结果通过了人工验证,可信度较高。 COG:

即Clusters of Orthologous Groups of proteins。构成每个COG的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是orthologs或是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs 是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。请参考文献获得更多的信息。通过观看其主页和说明文档,可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。 COG注释作用:1. 通过已知蛋白对未知序列进行功能注释; 2. 通过查看指定的COG编号对应的protein数目,存在及缺失,从而能推导特定的代谢途径是否存在; 3. 每个COG 编号是一类蛋白,将query序列和比对上的COG编号的proteins进行多序列比对,能确定保守位点,分析其进化关系。在具有功能分类的主要数据库(KEGG,GO,COG)中,cog分类的详细程度仅次于KEGG,这将更方便我们确定某个基因的功能。

真核基因组注释流程

真核基因组注释入门指南 doi:10.1038/nrg3174 Mark Yandell 和 Daniel Ence Department of Human Genetics, Eccles Institute of Human Genetics, School of Medicine, University of Utah, Salt Lake City, Utah 84112-5330, USA. Correspondence to M.Y. e-mail: myandell@https://www.sodocs.net/doc/15188370.html, 摘要:基因组测序价格的下降给考虑进行基因组测定和注释的研究团体带来了显著的影响。基因组注释项目普遍变成由单个实验室实施的小规模事件。尽管注释一个真核基因组已经可由非专业人士完成,但仍较难。本文综述了基因组注释的概貌、相关软体并描述了一些最适用的方法。 引言:测序费用下降如此快以致单个实验室也能支付人类基因组的测定。尽管测序变得容易了,许多因素却使基因组注释却变得更难: 首先,第二代测序平台的更短的原始读长意味着现在基因组组装很少获得接近果蝇和人类基因组那样用经典shotgun组装的结果。 第二,许多近来测定的基因组具有的独特性也带来了挑战,尤其是对基因的发掘。不同于第一代基因组项目依赖于大量已知的基因模型,今天的基因组常常缺乏前期研究。这导致难于训练、优化和设定基因预测等注释工具的参数。 第三个新挑战来自对升级和融合注释数据的需求。RNA水平数据(RNA-seq)为升级陈旧的注释数据集提供了显而易见的途径。而且,这一工作十分重要。然而,也不能直接保证可以改进原始的注释结果。另外,今天常常有多个团队用不同的注释过程去注释同一个基因组,众多信息整合获得一致注释是一个相对复杂的任务。 最后一点,基因组注释项目的团队大小发生了变化。不像以往,今天的基因组注释项目常是更小规模团队完成,相关研究者常缺乏生物信息学和计算生物学的专业知识。真核基因组注释不是一个简单的过程,需要一些基本的UNIX技能。但利用现在的工具软体,自己动手进行基因组项目注释十分可行。本文综述了基因组注释的概貌、相关工具并描述了一些最适用的方法。 概述:组装和注释 组装 成功注释任何基因组的第一步是决定组装是否已经达到要求。许多总结性统计用来描述基因组组装的完整性和连续性。最重要的是N50 。其他的统计参数有scaffold的平均gap大小和数目。大多数现有基因组是“标准的草图”组装,这意味着它们达到了递交至公共数据库的最低标准。然而,“高质量草图”组装是注释的更高目标,至少达到90%的完整性。 尽管没有绝对的标准,但是对注释而言,scaffold N50长度达到基因平均长度是一个合理的目标。原因十分简单:此时,基因中约有50%有望包括在单个scaffold;这些完整的基因与其它片段一同提供下游分析的素材。如图1所示,平均基因长度与基因组大小存在粗略的对应关系。因此,如果基因组大小已知,就可以粗略的获得基因大小从而获得注释所需的最小scaffold N50。CEGMA提供了估算组装的完整性和连续性的另外一种补充方式,该方式依靠所收集的真核单拷贝基因并确定每一个基因存在于单个scaffold中的百分比来检测组装效果。 获得高质量组装草图是大多数基因组项目都可以完成的目标。如果组装不完全或者scaffold的N50长度过短,我们建议补充进行shotgun测序。

几种常用的基因功能分析方法和工具

几种常用的基因功能分析方法和工具(转自新浪博客) 一、GO分类法 最先出现的芯片数据基因功能分析法是GO分类法。Gene Ontology(GO,即基因本体论)数据库是一个较大的公开的生物分类学网络资源的一部分,它包含38675 个Entrez Gene 注释基因中的17348个,并把它们的功能分为三类:分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描述功能信息的分级结构。这样,GO中每一个分类术语都以一种被称为定向非循环图表(DAGs)的结构组织起来。研究者可以通过GO分类号和各种GO 数据库相关分析工具将分类与具体基因联系起来,从而对这个基因的功能进行描述。在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。 EASE(Expressing Analysis Systematic Explorer)是比较早的用于芯片功能分析的网络平台。由美国国立卫生研究院(NIH)的研究人员开发。研究者可以用多种不同的格式将芯片中得到的基因导入EASE 进行分析,EASE会找出这一系列的基因都存在于哪些GO分类中。其最主要特点是提供了一些统计学选项以判断得到的GO分类是否符合统计学标准。EASE能进行的统计学检验主要包括Fisher 精确概率检验,或是对Fisher精确概率检验进行了修饰的EASE 得分(EASE score)。 由于进行统计学检验的GO分类的数量很多,所以EASE采取了一系列方法对“多重检验”的结果进行校正。这些方法包括弗朗尼校正法(Bonferroni),本杰明假阳性率法(Benjamini falsediscovery rate)和靴带法(bootstraping)。同年出现的基于GO分类的芯片基因功能分析平台还有底特律韦恩大学开发的Onto-Express。2002年,挪威大学和乌普萨拉大学联合推出的Rosetta 系统将GO分类与基因表达数据相联系,引入了“最小决定法则”(minimal decision rules)的概念。它的基本思想是在对多张芯片结果进行聚类分析之后,与表达模式不相近的基因相比,相近的基因更有可能参与相同的生物学功能的实现。比较著名的基于GO分类法的芯片数据分析网络平台还有七十多个,表1列举了其中的一部分。 二、通路分析法 通路分析是现在经常被使用的芯片数据基因功能分析法。与GO分类法(应用单个基因的GO分类信息)不同,通路分析法利用的资源是许多已经研究清楚的基因之间的相互作用,即生物学通路。研究者可以把表达发生变化的基因列表导入通路分析软件中,进而得到变化的基因都存在于哪些已知通路中,并通过统计学方法计算哪些通路与基因表达的变化最为相关。现在已经有丰富的数据库资源帮助研究人员了解及检索生物学通路,对芯片的结果进行分析。主要的生物学通路数据库有以下两个:①KEGG 数据库:迄今为止,KEGG数据库(Kyoto encyclopedia of genes and genomes)是向公众开放的最为著名的生物学通路方面的资源网站。在这个网站中,每一种生物学通路都有专门的图示说明。②BioCarta 数据库:BioCarta 是一家生物技术公司,它在其公共网站上提供了用于绘制生物学通路的模板。研究者可以把符合标准的生物学通路提供给BioCarta数据库。BioCarta数据库不会检验这些生物学通路的质量,因此其中的资源质量参差不齐,并且有许多相互重复。然而BioCarta数据库数据量巨大,且不同于KEGG数据库,包含了大量代谢通路之外的生物学通路,所以也得到广泛的应用。 最先出现的通路分析软件之一是GenMAPP(gene microarray pathway profiler)。它可以免费使用,其最新版本为Gen-MAPP2。在这个软件中,使用者可以用几种灵活的文件格式输入自己的表达谱数据,GenMAPP的基因数据库包含许多从常用的资源中得到的物种特异性的基因注释和识别符(ID)。这些ID可以将使用者输入的基因与不同的生物学通路的基

转录组注释网站介绍

序列的功能,是现在生物研究常用的分析方法之一。当我们拿到基因组信息之后,接下来就是基因注释,识别这个基因是什么,预测这个基因编码什么蛋白,有什么功能;当获得无参转录组之后需要从头拼接转录本,拼接的转录本功能也需要做注释;当得到了差异表达基因,想做下富集分析,就必须要了解每个基因对应哪个GO分类,也是需要进行功能注释。基因注释需要通过专业数据库完成,所以找到好用的基因注释数据库就很有必要了。下面呢,我们就介绍一下现在常用的几种数据库。 1、KEGG 京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)是一个整合了基因组、化学和系统功能信息的综合性数据库。KEGG数据库的核心的是ORTHOLOGY和PATHWAY数据库。在ORTHOLOGY数据库中,同源基因聚成一类称为KEGG Orthology,简称KO。PATHWAY数据库主要以KO为结点,用人工绘制的代谢通路图展示分子间的相互作用、反应和反应网络。

2、GO GO(Gene Ontology)数据库是基因本体联合会建立,用于描述基因和基因产物功能的综合性数据库, 目的是利用统一的、结构化的语言建立一个适用于不同物种,对基因和蛋白质功能进行定义和描述,并且能够随着研究的不断深入而更新的语言词汇标准。GO 数据库包括三层结构,包括分子功能,生物过程和细胞组分。

3、NR和NT NR和NT是NCBI提供的数据库,NR是非冗余蛋白质数据库(non-redundant protein sequence database),NT是核酸序列数据库(Nucleotide Sequence Database)。NCBI提供在线比对注释工具BLAST,可以方便的对基因进行注释。 4、UniProt UniProt整合了3个数据库Swiss-Prot、TrEMBL和PIR-PSD。Swiss-Prot数据库中的所有序列条目都基于文献资料经人工审阅,数据库质量高、非冗余,但数据

基因组注释

基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位 置。从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析mRNA 和EST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据[1 ] ; (3) 基于各种统计模型和算法从头预测。对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2)序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG) [2 ] 。随着微生物全基因组序列测定速率的加快,开发有Web 接口的高效、综合基因组注释系统十分要。近年来,国际上已有一些这样的工具,如基于Java 的微生物基因组数据库接口。尽管JMGD 提供了一个很好的图形化接口程序,却并不具有基因组自动注释功能。德国国家环境和健康研究中心开发的蛋白质摘录、描述和分析工具(Protein extrac2tion , description , and analysis tool ,PEDANT) 是大型基因组分析系统,整合了大量基因组功能信息和结构信息。PEDANT 注释功能强大[3 ] ,适用范围广,但没有便于操作的图形界面,而且需要较强的硬件系统支持。 在基因组学中,对基因和其他生物特征的标注称为基因组注释。 (1) 基因组组分分析 GC含量分析, Contig N50 和Scaffold N50统计 (2) 基因预测 (3) 基因结构注释(4) 重复序列分析与注释 (5) 启动子和motif预测 (6) 非编码RNA的注释tRNA, rRNA, microRNA靶基因预测, snoRNA及其甲 基化位点预测 (7) 基因功能注释GO, KEGG, InterPro, COG, NR, NT (8) 免疫防御关键基因, 转录因子预测 (9) Pseudogene 预测 (10) 基因组的倍增(tandem and segmental duplication)

全基因组重测序数据分析详细说明

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。 实验设计与样本 (1)Case-Control 对照组设计; (2)家庭成员组设计:父母-子女组(4人、3人组或多人); 初级数据分析 1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。 3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、

相关主题