搜档网
当前位置:搜档网 › 基于Solexa高通量测序的黄曲条跳甲转录组学研究_贺华良

基于Solexa高通量测序的黄曲条跳甲转录组学研究_贺华良

基于Solexa高通量测序的黄曲条跳甲转录组学研究_贺华良
基于Solexa高通量测序的黄曲条跳甲转录组学研究_贺华良

昆虫学报Acta Entomologica Sinica ,January 2012,

55(1):1-11ISSN 0454-6296

基金项目:国家自然科学基金青年科学基金项目(31101500)

作者简介:贺华良,男,

1977年生,湖南攸县人,博士,讲师,从事农业害虫综合防治及分子生物学研究,E-mail :hhl_1234@126.com ;宾淑英,女,

1964年生,广东封开人,副教授,从事农业害虫综合防治及推广研究,E-mail :binsuying@163.com #共同第一作者Authors with equal contribution

*

通讯作者Corresponding author ,E-mail :linjtian@163.com 收稿日期Received :2011-

07-26;接受日期Accepted :2011-10-10基于Solexa 高通量测序的黄曲条跳甲转录组学研究

贺华良#,宾淑英#,吴仲真,林进添

*

(仲恺农业工程学院外来有害生物预警与控制研究所,广州510225)

摘要:黄曲条跳甲Phyllotreta striolata (Fabricius )是十字花科蔬菜的重要害虫。为深入了解其遗传信息,本研究应

用新一代高通量测序技术Illumina ’

s Solexa 平台对黄曲条跳甲成虫的转录组进行测序,并结合SOAPdenovo 拼接聚类等分析软件,获取大量的EST 和挖掘功能基因。本文最终获得了4924条序列重叠群(contig ),其中包含2209种与黑腹果蝇Drosophila melanogaster 蛋白基因具直系同源的独立基因(unigene )和610种黄曲条跳甲物种特有的unigene 。结合Gene Ontology (GO )数据库进行分析,发现大部分的unigene 具结合能力(binding capability )和催化活性(catalytic activity );上百种unigene 可聚类于生物学过程分类中的配子发生、生殖腺发育和交配行为等重要功能。另外,结合KEGG Pathway 数据库分析发现,共有363种unigene 参与或涉及了40种代谢路径,其中生物钟调控路径和植物次生代谢物路径等相关基因的发现,有助于深入研究黄曲条跳甲行为发生的内在机理。Solexa 高通量测序技术作为昆虫功能基因组研究的重要手段,为发掘黄曲条跳甲功能基因发挥了重要作用,也为在分子水平上研发黄曲条跳甲的防治新策略提供了更翔实的基因信息。

关键词:黄曲条跳甲;Solexa 测序;序列重叠群;独立基因;转录组

中图分类号:Q966文献标识码:A 文章编号:0454-

6296(2012)01-0001-11Transcriptome characteristics of Phyllotreta striolata (Fabricius )

(Coleoptera :Chrysomelidae )analyzed by using Illumina ’s Solexa sequencing technology

HE Hua-Liang #,BIN Shu-Ying #,WU Zhong-Zhen ,LIN Jin-Tian *(Institute for Management of Invasive

Alien Species ,Zhongkai University of Agriculture and Engineering ,Guangzhou 510225,China )

Abstract :The striped flea beetle ,Phyllotreta striolata (Fabricius ),is an important pest damaging cruciferous vegetables.In order to investigate the profile of gene expression and elucidate the functional

genes ,we sequenced the transcriptome of the adult of P.striolata by Illumina ’

s Solexa sequencing technology ,and analyzed the data of expressed sequence tags (ESTs )by using SOAPdenovo system.A total of 4924contigs were obtained including 2209unigenes of orthologous genes relating to Drosophila melanogaster and 610species-specific unigenes of P.striolata based on Gene Ontology and KEGG

databases.We found that most of unigenes contain function domains with binding capacity and catalytic activity.More than 100unigenes are involved in gamete generation ,ovarian follicle cell development and mating behavior.Three hundred sixty-three unigenes may be involved in 40different metabolic pathways

based on KEGG database.The finding that 363unigenes are involved in regulation pathway of biological rhythm and plant secondary metabolites will be useful to clarify the mechanism of behaviors of this insect such as oviposition rhythm ,etc .Moreover ,the sequence resources presented in this study provide useful information to develop new strategies to manage this pest.Key words :Phyllotreta striolata ;Illumina ’s Solexa sequencing technology ;contig ;unigene ;transcriptome 黄曲条跳甲Phyllotreta striolata (Fabricius )俗称狗虱虫、菜蚤子、土跳蚤、黄跳蚤等,隶属鞘翅目叶甲科昆虫。黄曲条跳甲是十字花科蔬菜的世界

性害虫(Tahvaanainen ,1983),广泛分布于我国南北菜区,主要为害芥菜、菜心、萝卜、白菜、芥蓝、油菜等(高泽正等,

2000)。国内外对黄曲条跳甲在

2昆虫学报Acta Entomologica Sinica55卷

形态学、生态学及抗药性监测方面已有了广泛的研究(张茂新和梁广文,2000;Feng et al.,2000;侯有明等,2003;周先治和吴刚,2004;傅建炜等,2006)。但是长期以来倚重化学防治的策略使得黄曲条跳甲对很多化学药剂都出现了不同程度的抗药性,而抗药性的动态发展又使得对其危害的控制越来越困难。目前,广东省部分地区黄曲条跳甲的危害甚至已超过小菜蛾的危害。黄曲条跳甲产生猖獗危害的另一个重要原因是因其幼虫是在土缝中孵化并危害寄主植物的根系(聂河兴,2007;王玲等,2009),而常规化学防治法对幼虫却鞭长莫及。因此,目前需要积极探讨控制黄曲条跳甲的防治新策略。Zhao等(2011)首次成功鉴定了黄曲条跳甲精氨酸激酶PsAK和特异性气味受体PsOr1基因的cDNA序列,并通过RNA干涉技术抑制了靶标基因的表达,结果表明上述两个基因功能的受损可导致黄曲条跳甲死亡、产卵选择性和取食选择性发生改变等现象,为在分子水平探讨基于黄曲条跳甲行为调控的防治新策略提供了新的参考。

截至目前,在GenBank上注册的黄曲条跳甲的cDNA或EST序列仅仅只有5种,分别是上文提到的PsAK和PsOr1,以及抗药性发生相关的2个非专一性酯酶基因和1个乙酰胆碱酯酶基因的EST序列。黄曲条跳甲已发展成为当前蔬菜产业的重要害虫,而其基因组及转录组研究的滞后使得对黄曲条跳甲的深入研究具有一定的困难。基因表达序列标签(expressed sequence tags,EST)技术被认为是一种研究转录组的有效方法,广泛应用于新基因发现、基因表达分析和蛋白质组学(Ewing et al.,1999)。新一代高通量测序技术Illumina’s Solexa是对传统测序方法的一次革命性变革(Nagalakshmi et al.,2008;Rosenkranz et al.,2008)。Solexa测序性价比最高,运行成本较低,高通量,高精确性,可以同时检测上亿个核苷酸片断。虽然该技术的序列读取长度较短,但其序列的拼接过程最终能达到高精准度。模式昆虫埃及伊蚊Aedes aegypti和冈比亚按蚊Anopheles gambiae的EST大规模测序中,采用的就是Solexa’s Illumina技术(Gibbons et al.,2009)。最近,一种非模式生物蜗牛Radix balthica 也采用该技术完成了转录组的测序任务(Feldmeyer et al.,2011)。高通量转录组测序可在短时间内获得的大量的unigene信息。目前,国际上已构建了unigene的数据库,即UniGene。UniGene是从属于GenBank的一部分,专门收集非冗余性的基因来源的clusters数据。每一个UniGene cluster包含代表单一基因的序列和相关的信息,可为科学研究快速提供有用信息,例如基因表达的组织类型和图谱定位信息(Schuler,1997;Pontius et al.,2003)。因此,应用Solexa高通量测序技术对农业害虫进行转录组研究,可大大降低测序所需时间和成本,使我们能够对部分重要的非模式生物或农业害虫启动高通量水平的基础研究及后续的应用研究。

本实验将Solexa高通量测序技术应用到黄曲条跳甲的转录组学研究中,并应用生物信息学方法对所得序列与模式昆虫黑腹果蝇Drosophila melanogaster和赤拟谷盗Tribolium castaneum等的基因组及转录组序列进行比对分析,从功能基因组水平上鉴定一批黄曲条跳甲的重要基因。本研究主要检测与黄曲条跳甲生殖发育和生殖行为等相关的关键基因;参与寄主蔬菜次生代谢或挥发性化合物分子代谢的基因;以及生物钟代谢路径相关的核心生物钟基因、调控因子等。上述关键基因的鉴定将为在分子水平开展黄曲条跳甲行为调控及防治新策略的研究奠定前期数据基础。

1材料与方法

1.1供试昆虫

黄曲条跳甲P.striolata(Fabricius)成虫来源于广州市市郊黄埔古港蔬菜基地,采集位置为芥菜Brassica juncea的心叶部位,采集时间为2010年6月11日的11:00-15:00。虫源采集点即时温度为27?,相对湿度为75%,光照度为4290lx,收集成虫后立即用液氮冷冻,存于-80?备用。

1.2RNA提取和cDNA文库构建

采用总RNA提取试剂盒(Qiagen)提取黄曲条跳甲成虫总RNA。以2μg总RNA为模板,cDNA PCR Library Kit(TaKaRa)反转录合成双链cDNA,并PCR扩增,扩增条件为:94?1min;94?30s,60?30s,72?3min,进行10个循环。采用PureLinkTM PCR Purification Kit(Invitrogen)去除体系中小于300bp的片段。通过多次的PCR扩增、纯化、浓缩,最终共收集到双链cDNA10μg,浓度超过1μg/μL,送往华大基因公司Solexa高通量测序平台。

1.3Solexa文库构建和测序

应用新一代高通量测序平台Illumina’s Solexa Genome AnalyzerⅡ对cDNA样品测序。5μg双链

1期贺华良等:基于Solexa高通量测序的黄曲条跳甲转录组学研究3 cDNA打断为150bp左右的片段后,两端添加特异

性衔接子A和B,变性为单链连接到磁珠上,经emPCR富集后,置于PicoTiterPlate板上,上机测序。两端测序,每一个序列读取片段(read)的读长约90bp。

1.4序列拼接、功能注释及分类

采用GS-FLX Software去除衔接子区域和低质量序列,屏蔽cDNA文库PCR引物,采用SOAPdenovo软件对每一个序列读取片段聚类进行拼接(Li et al.,2010),形成序列不间断的contig/ unigene。后续采用序列比对的方法对所得序列注释,使用Blastn与NCBI的非冗余核酸序列数据库(non-redundant nucleotide database,nt)进行比较(E 值为1e-10),进一步使用blastx与NCBI的非冗余蛋白序列数据库(non-redundant protein database,nr)和黑腹果蝇的蛋白组数据库进行比较(E值为1e-5),所有分析使用默认参数。unigene的功能域注释及分类分析主要结合Gene Ontology(GO)数据库(http://amigo.geneontology.org/cgi-bin/amigo/ blast.cgi?session_id=9036amigo1316253192)、SMART数据库(http://smart.embl-heidelberg.de/)和KEGG数据库(http://www.genome.jp/kegg/ pathway.html)。Gene Ontology(GO)分类分析又可进一步按生物学过程(biological process)、分子功能(molecular function)和细胞组分(cellular component)三大亚类进行分类。对所有注释信息整理,重点搜索与黄曲条跳甲的生殖发育及生殖行为相关的关键基因及可能参与的调控因子等。

1.5系统发育分析

从NCBI上下载昆虫纲中部分代表性昆虫innexin2的全长cDNA序列,使用ClustalX1.8软件对这些序列进行比对,输出后缀为*.phy格式的文件。采用分子进化遗传分析软件PHYLIP3.68进行遗传距离分析,具体步骤如下:把*.phy文件拷贝到PHYLIP目录下,更名为infile;用Seqboot分析,复制数为1000,运行后生成1000套比对序列的文件,将此文件更名为infile;运行最大简约法程序DNAPARS,生成两个文件outfile和treefile;利用多重树构建一致树,即打开CONSENSE软件,将刚才生成的treefile文件更名后输入,生成两个文件outfile和treefile,完成进化树的生成。其中treefile 用TREEVIEW打开,即可浏览一致树。遗传距离分析过程中没有设置外类群。2结果

2.1Solexa测序和序列拼接

采用Solexa高通量测序技术对处于跳跃活动盛期的黄曲条跳甲成虫的转录组进行测序,测序共获得13176562个序列读取片段,每一个序列读取片段的长度为90bp,即该次测序总的cDNA碱基读取量约为1185Mb。采用SOAPdenovo软件聚类拼接,设置参数kmer=24,最终得有效的contig共1702083条,序列分析过程相关的统计数据见表1。对于拼接序列的长度分布特征,鉴于只有24bp 的序列片段太多,本文中只统计≥50bp的contig 的长度分布特征,具体结果见表2。

表1Solexa高通量测序的序列拼接分析

Table1Sequence assembly after Illumina’s

Solexa sequencing

读取序列的拼接分析

Reads assembled

数量

Counting

读取片段总数

Total number of reads

13176562读取片段的碱基数量总和(nt)

Total nucleotide length of reads

1185890580

重叠群总数

Total number of contigs

1702083

重叠群平均长度(nt)

Mean contig length

43

重叠群长度总和(nt)

Total contig length

72508369

序列骨架数量总和

Total number of scaffolds

50332

序列骨架平均长度(nt)

Mean scaffold length

302

序列骨架长度总和(nt)

Total scaffold length

15185104

2.2序列比对分析、注释及unigene的特征分析对于长度≥500bp的4924条contig,结合现国际上已公布全基因组序列的5种模式昆虫的基因组数据库,进行blastx比对分析,见表3。

首先对比对分析中E value≤1e-100的保守基因数量进行了分析。表3显示,黄曲条跳甲与同为鞘翅目的赤拟谷盗之间的保守基因数量最多,达788种,占总数的16.0%。另外,与表3中5种昆虫之间都保守的基因数量也有120种,占总数的2.4%。本研究以高保守(E value=0)的间隙连接蛋

4昆虫学报Acta Entomologica Sinica55卷

表2contig的长度分布特征分析

Table2Length distribution of contigs

Contig≥50bp Contig≥100bp Contig≥200bp Contig≥500bp 重叠群总数(个)

Total number of contigs

24557260239254804924重叠群平均长度(nt)

Mean contig length

121243310730重叠群长度总和(nt)

Total contig length

298233821462904197356423595484

表34924条contig与5种模式昆虫基因组数据的比对分析

Table3Alignment analysis of4924contigs with sequences in genome database of5model insects

blastx比对分析Sequence alignment using blastx

同源基因数量

Total number of homologous genes

(E value≤1e-100)

同源基因数量

Total number of homologous genes

(E value≤1e-5)

非同源基因数量

Total number of non-homologous genes

(E value>1e-5)

与家蚕基因组信息比对分析

Hit to Bombyx mori

16434081516

与黑腹果蝇基因组信息比对分析Hit to Drosophila melanogaster 3453699(2209**)1225

906

(631+275)

与冈比亚按蚊基因组信息比对分析Hit to Anopheles gambiae 37537091215

631

(610+21)

610

与西方蜜蜂基因组信息比对分析

Hit to Apis mellifera

42638271097

与赤拟谷盗基因组信息比对分析Hit to Tribolium castaneum 78838581066

1066

(631+435)

与非冗余蛋白数据库比对分析

Hit to non-redundant protein database

120(120*)4314610610610

*与上述5种昆虫比对分析的E value都小于或等于1e-100的unigene总数Total number of contig hits to above five insects with E value≤1e-100.**与黑腹果蝇基因直系同源的unigene的数量Total number of contig orthlogs to genes of D.melanogaster.

白(innexin2)基因为代表,对6种昆虫的innexin2直系同源基因进行了系统进化分析(图1)。图1显示,innexin2的系统发生树与上述各种昆虫的进化地位基本相符。图中黄曲条跳甲的innexin2与赤拟谷盗的innexin2聚为一支;但鳞翅目昆虫的innexin2与双翅目蚊科昆虫innexin2的进化距离比双翅目昆虫蚊科与果蝇科innexin2之间的进化距离更小,这可能与innexin2在不同昆虫种类中的进化速率不同有关系。

再对比对分析中E value≤1e-5的同源基因数量进行了分析。表3显示,黄曲条跳甲与鳞翅目昆虫蜜蜂的同源基因数量最少,而与赤拟谷盗的同源基因的数量最多,基本反映了黄曲条跳甲与5种昆虫亲缘关系的远近。其中,在上述4924条contig 中,有906条contig未发现与家蚕、黑腹果蝇、冈比亚按蚊及蜜蜂的基因同源,但其中有275条可与赤拟谷盗的基因同源,推测该275条contig可能是鞘翅目特有的基因。同样,结合与nr数据库的比对分析结果,推测有610条contig可能是黄曲条跳甲特有的基因。由于缺乏功能注释参考,该610种黄曲条跳甲种特异性基因的功能还有待进一步解析。

进一步有针对性地结合黑腹果蝇的序列数据库和contig序列进行相互性的blastx比对分析,筛选得分最高的匹配对,进而获取与黑腹果蝇蛋白基因直系同源的unigene。最终获得了2209条contig或2209种unigene(表3),促进了该批次序列的后续注释及功能分析的高可信度。

2.3与黑腹果蝇具直系同源的2209种unigene的特征分析

统计结果表明,该批次的2209种unigene涉及的转录组序列读取总长度为1.78Mbp,平均序列长度为804bp,其中≤1000bp的unigene占主要部

1期贺华良等:基于Solexa 高通量测序的黄曲条跳甲转录组学研究5

分,达79.7%,

1001 1500bp 大小区间的unigene 占18.2%,而>1500bp 的unigene 只占2.1%。随机测序所获得的同一基因的EST 的数目可以在一定程度上代表该基因在该组织中的表达丰度。统计分析上述每一个unigene 包含的序列读取片段的数量总和分布趋势发现,所含序列读取片段数量分布在11 50次区间的unigene 最多,占总数的68.5%(图2:A )。含序列读取片段的数量超过150次的unigene 只有5个(0.2%),分别是与黑腹果蝇相应基因同源的含WD 功能域基因家族成员(1280bp )、胱硫醚β合成酶基因(567bp )、lodestar 基因(711bp )、尿(核)苷磷酸化酶(uridine phosphorylase )基因(1035bp )、类异戊二烯生物合成酶(isoprenoid biosynthesis enzyme )基因(1350bp )。但是,由于每一个unigene 拼接后的长度不同,因此,并不能完全由其所包含序列读取片段的数量精确推断unigene 的表达趋势。本文采用了两种方法进行进一步的估计。第一种方法是通过均一化计算模型分析unigene 的相对表达丰度。计算公式为:相对表达丰度=拼接涉及的所有序列读取片段的数量总和?Solexa 测序仪读取片段的长度参数即90bp /拼接后unigene 的长度。对2209种unigene 的整体分析结果显示,表达丰度在2.0 4.9之间的unigene 占大多数,接近60%(图2:B )。表达丰度超过20的unigene 只有6个(0.3%),其序列长度范围为524 600bp ,分别与黑腹果蝇的功能未知蛋白基因(hypothetical protein )、adiponectin receptor 、dribble 、线粒体核糖体大亚基蛋白(39S ribosomal protein L3,mitochondrial )、肌浆/内质网型钙离子ATP 酶通道蛋白(calcium-transporting

ATPase

图1

多种昆虫中innexin2(inx2)基因的系统发生树分析

Fig.1

Phylogenetic relationship of innexin2(inx2)in

different insects

使用PHYLIP 软件中的最大简约性法(DNAPARS )构建系统发生树。图中的比例尺(0.1)表示10%的差异。Phylogenetic tree generated by method of Maximum Parsimony (DNAPARS )in PHILIP.The scale bar (0.1)indicates a 10%difference.所分析种类的inx2相关序列的来源及GenBank 登录号GenBank accession numbers related to the species analyzed :Ps_inx2:黄曲条跳甲Phyllotrata striolata ;Tc :赤拟谷盗Tribolium castaneum (XP968805);Ag :冈比亚按蚊Anopheles gambiae (XM321635);Aa :埃及伊蚊Aedes aegypti (XM001649705);Dm :黑腹果蝇Drosophila melanogaster (NM132147);Dw :果蝇近缘种D.willistoni (XM002071107);

Dv :

果蝇近缘种

D.

virilis

(XM002057877);Am :西方蜜蜂Aphis mellifera (XM003251623);Bt :熊蜂Bombus terrestris (XM003397631);Nv :丽蝇蛹集金小蜂Nasonia vitripennis (XM001603984);Bm :

家蚕Bombyx mori (NM001043738);

Sf :

草地贪夜蛾

Spodoptera

frugiperda

(AY196138);Hv :烟芽夜蛾Heliothis virescens (AY633755).

sarcoplasmic /endoplasmic reticulum type )、胱硫醚β合酶基因具有同源性。上述统计数据说明高丰度表达基因比较少,大多数呈中低丰度表达

图2Unigene 包含的序列读取片段数量分析及其表达丰度分析

Fig.2

Read counting and expression level analysis of unigenes

A :unigene 包含序列读取片段数量的分布Distribution of reads counting of unigenes ;

B :unigene 相对表达丰度的分布Distribution of relative

expresssion abundance of unigenes.

6昆虫学报Acta Entomologica Sinica 55卷

第二种方法是分析unigene 的拼接过程中重叠区的序列读取片段的数量(图3)。通过分析不同重叠区域内序列读取片段的数量总和,选择最高值。如图3(A )中重叠区涉及序列读取片段总和最高数量为5。因为本文中对cDNA 片段的测序是两端测序法,因此unigene 的相对表达丰度约为拼接序列读取片段数量总和的1/2,即图3(A )中unigene 基

因相对表达丰度可初步计数为2.5。同理,如图3(B ,C ,D )中该unigene 基因相对表达丰度可初步计数分别为7,

7.5和10.5。与利用第一种计算模式得出4个contig 计算出来的相对表达丰度分别为1.8,6.5,7.0和8.8的数值相比,总体趋势相对偏大,但其可信度更高

图3contig 中序列读取片段的拼接位置及表达量分析

Fig.3Mapping and abundance calculation of reads in assembled contig

结合Vector NTI Contig Express 软件分析contig 中序列读取片段的拼接位置及表达量Mapping of reads in the corresponding assembled contig using software of Vector NTI Contig Express and calculating the relative abundance of unigene.A ,B ,C 和D 分别表示含有10,50,100和150对(SOAPdenovo 算法)序列读取片段的contig 代表序列的拼接图;4条contig 的长度分别为502,691,1280和1539bp 。A ,B ,C and D demonstrate the assembled contig candidates with different length (502,

691,1280and 1539bp ,respectively )covering different number of reads (10,50,100and 150,respectively ).图中红色虚竖线代表该重叠区域涉及的序列读取片段数量最多,可作为该unigene 被测到转录本的数量;图中绿色实竖线表示为多个序列读取片段在同一重叠位点显示为不同的碱基,竖线的长度代表该位置碱基相异的程度,越长代表碱基相异的频次越高。图中contig 所含序列读取片段的数量与前期SOAPdenovo 算法提供的数量不完全相同,如图1(A )中只定位到7.5对序列读取片段,这是因为此处序列读取片段位置分析所用的Vector NTI Contig Express 软件与前期华大基因公司测序拼接所用的SOAPdenovo 的算法不完全相同,造成小部分序列读取片段在Vector NTI Contig Express 分析中未能成功定位。The number on the top of red dashed line demonstrates the relative abundance of unigene in this sequencing research ;green lines demonstrate different nucleotide in the same assembly site from different reads.Numbers of reads mapped using software of Vector NTI Contig Express in these four figures are different from the statistics numbers by method of SOAPdenovo ,due to a different algorithm design between these two models.

2.4与黑腹果蝇具直系同源的2209种unigene 的

功能注释分析

结合GO 数据库对黄曲条跳甲的2209种unigene 进行功能注释分类分析,共有2099种unigene 获得了功能分类。GO 数据库又可分为3个亚类,即基因所涉及的分子功能(molecular function )、生物学过程(biological process )和细胞组分(cellular component )。本文首先按unigene 可能参与的分子功能进行分类分析,发现在2209种

unigene 中,被赋予功能的基因累计达到1516条,其分子功能类别共涉及128种。以分子功能分类中的一级子目录所涉及的unigene 数量进行统计分析发现,该批次unigene 以具结合能力(binding capability ,GO :0005488)和具有酶活性(catalytic activity ,GO :0003824)为主。由于同一种基因可能具有多个功能域或多种活性(一因多效),因此本研究进一步以分子功能分类中的二级子目录进行统计分析(图4)。结果显示,具有核苷酸结合能力

1期贺华良等:基于Solexa 高通量测序的黄曲条跳甲转录组学研究7

(GO :0000166)的unigene 的累计数量最多,具有离子结合能力(GO :0043167)和具有水解酶活性(GO :0016787)的unigene 的累计数量也比较多,分别居第2位和第3位

图4unigene 可能参与分子功能的聚类统计分析Fig.4

Statistical analysis of molecular function of unigenes

GO :0000989转录因子结合转录因子活性Transcription factor binding transcription factor activity ;GO :0008641小分子蛋白激活酶活性Small protein activating enzyme activity ;GO :0016491氧化还原酶活性Oxidoreductase activity ;GO :0016740转移酶活性Transferase activity ;GO :0016787水解酶活性Lydrolase activity ;GO :0016874连接酶活性Ligase activity ;GO :0022857跨膜转运活性Transmembrane transporter activity ;GO :0022892底物特特异性转运活性Substrate-specific transporter activity ;GO :0042910异源物转运活性Xenobiotic transporter activity ;GO :0051184辅助因子转运活性Cofactor transporter activity ;GO :0000166核苷酸结合能力Nucleotide binding capability ;GO :0003676核酸结合能力Nucleic acid binding capability ;GO :0003682染色质结合能力Chromatin binding capability ;GO :0005515蛋白结合能力Protein binding capability ;GO :0008289脂类分子结合能力Lipid binding capability ;GO :0019842维生素结合能力Vitamin binding capability ;GO :0043021核蛋白结合能力Ribonucleoprotein binding capability ;GO :0043167离子结合能力Ion binding capability ;GO :0048037辅助因子结合能力Cofactor binding capability ;GO :0019207激酶调控活性Kinase regulator activity ;GO :0019208磷酸酶调控活性Phosphatase regulator activity ;GO :0060589核苷三磷酸酯酶调控活性Nucleoside-

triphosphatase regulator activity.本研究还对2209种unigene 所涉及的生物学

过程(biological process )和细胞组分(cellular component )进行了统计分析。结果表明,有1393种unigene 涉及471种注释名录。表4显示了所涉及unigene 在数量上排前10位的注释名录,主要有基因转录调控、代谢、分子转运和雌配子发生等生物学过程。另外,有944种unigene 涉及了121种细胞组分的合成和构建。上述3种功能分类结果显示了黄曲条跳甲成虫跳跃盛期的基因表达谱的总体情况。2.5

生殖发育的相关基因分析

表4中的信息提示与有性生殖和胚子发生生物

学过程相关的unigene 数量较多。为了深入研究,

本文进一步详细整理了上述471种注释名录中与黄曲条跳甲生殖行为和生殖发育相关的unigene 。表5中显示了部分unigene 可能参与卵泡细胞迁移、性别分化、生殖腺发育和交配行为等。通过对与表5

中的“交配行为”相关的unigene 的序列逐一分析,发现这9个基因分别是与黑腹果蝇或赤拟谷盗的快

速交配基因(quick-to-court )、发动蛋白(dynamin )、多巴脱羧酶(dopa decarboxylase )、肾上腺皮质铁氧还蛋白(NADPH :adrenodoxin oxidoreductase )、核糖

体蛋白S7(ribosomal protein S7)、学习缺陷突变体(dunce )、睾丸特异性的富含亮氨酸的蛋白(testis specific leucine rich repeat protein )、甘露糖转移酶(beta-1,4-mannosyltransferase egh )和葡萄糖脱氢酶(glucose dehydrogenase )等基因具有同源性。对于quick-to-court 基因的功能,国外研究已表明,果蝇quick-to-court 表达量的提高会导致雄性对雄性

(male-male )求偶和一个迅速发生的雄性对雌性(male-female )求爱的表示(Gaines et al .,2000)。因此,上述功能分类信息的分析及整理为今后黄曲条跳甲的生殖发育及生殖行为调控的研究提供了宝贵的序列信息。2.6

代谢路径分析

结合黑腹果蝇的KEGG Pathway 数据库,对上述2209种unigene 可能参与或涉及的代谢路径进行分析。本研究发现共363种unigene ,涉及到40

8昆虫学报Acta Entomologica Sinica55卷

表4biological process分类中涉及unigene最多的前10种注释名录

Table4Terms in biological process with Top10highest number of related unigenes

排序Rating GO注释名录(生物学过程)

Terms of biological process

GO分类号

Accession no.of GO term

unigene数量

unigene counting

1转录调控

Regulation of transcription

GO:0045449167

2RNA分子代谢调控

Regulation of RNA metabolic process

GO:0051252141

3多细胞生物的生殖

Multicellular organism reproduction

GO:0032504141

4有性生殖

Sexual reproduction

GO:0019953140

5配子发生

Gamete generation

GO:0007276136

6囊泡介导转运

Vesicle-mediated transport

GO:0016192131

7蛋白定位

Protein localization

GO:0008104125

8细胞骨架构成

Cytoskeleton organization

GO:0007010122

9转录

Transcription

GO:0006350119

10

蛋白水解

Proteolysis

GO:0006508118表5biological process分类中与生殖发育相关独立基因的注释名录

Table5Unigenes categorized into GO subcategories of biological process involved in reproductive biology

排序Rating GO注释名录(生物学过程)

Terms of biological process

GO分类号

Accession no.of GO term

unigene数量

unigene counting

1卵泡细胞发育

Ovarian follicle cell development

GO:003070749

2卵泡细胞迁移

Ovarian follicle cell migration

GO:000729722

3性别分化

Sex differentiation

GO:000754812

4生殖腺发育

Gonad development

GO:000840610

5初级性征发育

Development of primary sexual characteristics

GO:004513710

6交配行为

Mating behavior

GO:00076179

种代谢路径。含相关unigene数量较多的代谢路径主要有:泛素代谢路径(ubiquitin mediated proteolysis)、氨酰tRNA合成路径(aminoacyl-tRNA biosynthesis)、柠檬烯和蒎烯代谢路径(limonene and pinene degradation)等。其中柠檬烯和蒎烯代谢路径中unigene主要有:转谷氨酰胺酶(transglutaminase)、溶血磷脂酰基转移酶(lysophospholipid acyltransferases)、反式异戊烯转移酶(trans-prenyltransferase)、γ-谷氨酰转移酶(gamma glutamyl transpeptidase)、短链脱氢酶

1期贺华良等:基于Solexa高通量测序的黄曲条跳甲转录组学研究9

(short-chain dehydrogenase)和触角特异性细胞色素P450(antennae-rich cytochrome P450)等,上述6种unigene都可在nr数据库中找到已注释的同源基因。昆虫的柠檬烯和蒎烯代谢路径涉及对植物次生代谢物的趋性或防御体系。因此,上述unigene的发现对于阐明黄曲条跳甲对植物次生代谢分子或挥发性气味分子的识别和信息反馈机理研究具有非常重要的意义。

本研究还成功鉴定到与生物钟代谢路径相关的5种生物钟基因:Ps_clk,Ps_cyc,Ps_tim,Ps_per和Ps_vri基因。参考黑腹果蝇的生物钟代谢路径分析,初步推断5个基因在生物钟代谢路径中可能的位置见图5中的星号标记,真实的路径逻辑关系还需进一步的实验验证。上述核心生物钟基因的鉴定,对于深入研究黄曲条跳甲昼夜节律行为及相关行为的分子、细胞和进化的基础提供了宝贵的数据信息

图5鉴定的5个生物钟基因在生物钟路径模型中可能的位置

Fig.5Five core biological clock genes showed in circadian rhythm model

生物钟路径图仿黑腹果蝇的模型路径(KEGG database,Circadian rhythm-Fly,Kanehisa Laboratories);Dbt为黑腹果蝇double-time(dbt)基因的蛋白产物;Sgg是黑腹果蝇glycogen synthase kinase基因的蛋白产物;Pdp是黑腹果蝇hepatic leukemia factor基因的蛋白产物。这3个基因的同源基因尚未在黄曲条跳甲转录组测序中被鉴定到。Circadian rhythm model of Phyllotrata striolata refers to the circadian rhythm of Drosophila melanogaster(dme04711,KEGG database);Dbt is the protein product of double-time(dbt)of D.melanogaster;Sgg is the protein product of glycogen synthase kinase of D.melanogaster;Pdp is the protein product of hepatic leukemia factor of D.melanogaster.Gene of P.striolata orthology to above three genes was not identified in currently sequencing research.

3讨论

本研究首次在国内外采用高通量测序技术对黄

曲条跳甲成虫的转录组进行测序和功能分析,并重

点挖掘与其行为及生殖发育相关的基因。本研究共

获得2209种具较高注释可信度的unigene,表明在

对黄曲条跳甲基因组及遗传背景几乎不清楚的情况

下,高通量测序技术是批量发现黄曲条跳甲功能基

因的有效手段。与传统测序相比,Solexa高通量测

序的长度完全可以满足序列数据分析的要求,且

Solexa测序还具有速度快、通量高、成本低的优点。

本研究目前只优先分析了长度≥500bp的

2209种unigene。然而,本次转录组测序数据中还

有20556条contig,其长度范围在200 500bp之

间。按同样分析方法进行初步筛选后,可获得

uingene为4451种。该批次的4451种unigene的

序列与上述的2209种unigene的序列之间没有重

叠关系,但可能存在为同一种全长cDNA序列上的

两个或多个尚未相连拼接的序列区段。因此,本次

转录组分析可获得的长度≥200bp的unigene种类

数量会超过2209种,数量介于2209 6660之间。

由于黄曲条跳甲基因组水平研究的滞后,其基因组

长度及基因数量都还未知。与黄曲条跳甲同属鞘翅

10昆虫学报Acta Entomologica Sinica55卷

目的赤拟谷盗在2008年已成为第一种被基因组测序的农业害虫,基因组长度大约200Mbp,具有基因(或蛋白)数量大约有16000个(Tribolium Genome Sequencing Consortium,2008)。如果初步参考赤拟谷盗的基因数量,将黄曲条跳甲的基因数量假定为16000个,则本次转录组测序分析获得unigene(≥200bp)的数量可能占黄曲条跳甲总基因数目的13.8% 41.6%,为后期在基因组水平研究黄曲条跳甲提供了丰富的基因信息。

昆虫的行为节律是一种由生物钟控制的内源性节律。昆虫的交尾节律受内源性生物钟控制的现象已在部分昆虫中得到证实。国内学者对大猿叶虫卵孵化的时辰节律研究发现,卵的孵化主要发生在黎明和黄昏,且以黎明时孵化率最高(徐强和张庆,2007)。2009年,美国研究人员发现,果蝇的生物钟可以使它们在一天的某一时段,而非其他时段,对杀虫剂敏感得多。即在一天的时间里,与果蝇抵御能力最弱时段相比,在它最强时,要用3倍的杀虫剂剂量才会与前者有相同的致死效果(Hooven et al.,2009)。对于本研究检测的重要蔬菜害虫———黄曲条跳甲,其成虫的产卵习性以晴天为多,一天中以午后为多(与其午后活动盛期的时间区域基本相符),也表现出一定的节律。本研究通过同源性搜索,获得了核心生物钟基因5个,同时也获得了与黄曲条跳甲生殖发育及生殖行为相关unigene共100多种。因此,诸如关键基因的鉴定及其功能研究将有助于从行为调控的角度创新发展害虫的防治策略。

本研究结合果蝇的KEGG Pathway数据库分析发现共363种unigene涉及40种代谢路径。涉及unigene数量相当较多的代谢路径主要有:泛素代谢路径(ubiquitin mediated proteolysis)、氨酰tRNA 合成路径(aminoacyl-tRNA biosynthesis)、柠檬烯和蒎烯代谢路径(limonene and pinene degradation)等。其中柠檬烯和蒎烯代谢路径主要涉及昆虫对植物次生代谢物的趋性或防御体系。2010年,德国、台湾及瑞士科学家合作成功发现黄曲条跳甲雄虫可以分泌一种聚集信息素[(+)-(6R,7S)-himachala-9,11-diene],而且这种性外激素可以通过α-雪松烯[α-himachalene(1R,7S)]为前体进行化学合成(Beran et al.,2010)。美国学者Bartelt等(2011)又报道了黄曲条跳甲雄成虫特有的倍半萜类的性外激素。本研究中柠檬烯和蒎烯代谢路径及其他代谢路径关键基因的鉴定,对于阐明黄曲条跳甲对外源或内源性信息素的代谢和信息反馈的研究具有非常重要的意义。

因此,黄曲条跳甲转录组学的研究,对于黄曲条跳甲的行为、代谢路径及生殖发育相关关键酶基因的发掘为克隆基因、研究基因功能提供了基础数据,为黄曲条跳甲行为调控的研究奠定了基础,同时为应用生物技术方法研发防治新策略提供了可行性。

致谢本研究转录组测序工作及部分数据分析得到广州迈平生物科技公司的大力支持。

参考文献(References)

Bartelt RJ,Zilkowski BW,CosséAA,Schnupf U,Vermillion K,Momany FA,2011.Male-specific sesquiterpenes from Phyllotreta flea beetles.J.Nat.Prod.,74(4):585-595.

Beran F,Mewis I,Srinivasan R,Svoboda J,Vial C,Mosimann H,Boland W,Büttner C,Ulrichs C,Hansson BS,Reinecke A,2011.Male Phyllotreta striolata(F.)produce an aggregation pheromone:identification of male-specific compounds and interaction with host plant volatiles.J.Chem.Ecol.,37(1):85-97.

Ewing RM,Ben Kahla A,Poirot O,Lopez F,Audic S,Claverie JM,1999.Large-scale statistical analyses of rice ESTs reveal correlated patterns of gene expression.Genome Res.,9:950-959.Feldmeyer B,Wheat CW,Krezdorn N,Rotter B,Pfenninger M,2011.Short read Illumina data for the de novo assembly of a non-model snail species transcriptome(Radix balthica,Basommatophora,Pulmonata),and a comparison of assembler performance.BMC Genomics,12:317

Feng HT,Huang YJ,Hsu JC,2000.Insecticide susceptibility of cabbage flea beetle Phyllotreta striolata(Fabricius)in Taiwan.Plant Protection Bulletin(Taipei),42(1):67-72.

Fu JW,Li JY,Qiu LM,Lin ZY,You MS,2006.The regional diversity of susceptibility of striped flea beetle(SFB),Phyllotreta striolata (Fabricius),to insecticides in Fujian Province.Journal of Fujian Agriculture and Forestry University(Natural Science Edition),35(3):235-238.[傅建炜,李建宇,邱良妙,林泽燕,尤民生,2006.福建省黄曲条跳甲药剂敏感性的地区差异.福建农林大学学报(自然科学版),35(3):235-238]

Gaines P,Tompkins L,Woodard CT,Carlson JR,2000.quick-to-court,

a Drosophila mutant with elevated levels of sexual behavior,is

defective in a predicted coiled-coil protein.Genetics,154(4):1627-1637.

Gao ZZ,Wu WJ,Cui ZX,2000.Studies on the host range of Phyllotreta striolata(Fabricius).Ecologic Science,19(2):70-72.[高泽正,吴伟坚,崔志新,2000.关于黄曲条跳甲的寄主范围.生态科学,19(2):70-72]

Gibbons JG,Janson EM,Hittinger CT,Johnston M,Abbot P,Rokas A,2009.Benchmarking next-generation transcriptome sequencing for functional and evolutionary genomics.Mol.Biol.Evol.,26(12):

1期贺华良等:基于Solexa高通量测序的黄曲条跳甲转录组学研究11

2731-2744.

Hooven LA,Sherman KA,Butcher S,Giebultowicz JM,2009.Does the clock make the poison?Circadian variation in response to pesticides.PLoS ONE,4(7):e6469.

Hou YM,Pang XF,Liang GW,You MS,2003.Evaluation of azadirachtin against striped flea beetle,Phyllotreta striolata(F.).Chinese Journal of Applied Ecology,14(6):959-962.[侯有明,庞雄飞,梁广文,尤民生,2003.印楝素乳油对黄曲条跳甲种群控制作用评价.应用生态学报,14(6):959-962]

Li RQ,Zhu HM,Ruan J,Qian WB,Fang XD,Shi ZB,Li YR,Li ST,Shan G,Kristiansen K,Li SG,Yang HM,Wang J,Wang J,2010.De novo assembly of human genomes with massively parallel short read sequencing.Genome Res.,20(2):265-272.

Nagalakshmi U,Wang Z,Waern K,Shou C,Raha D,Gerstein M,Snyder M,2008.The transcriptional landscape of the yeast genome defined by RNA sequencing.Science,320(5881):1344-1349.Nie HX,2007.The cause of serious damage of Phyllotreta stiolata and its control measures.Hunan Agricultural Sciences,(5):122-124.[聂河兴,2007.黄曲条跳甲危害严重原因与防治对策.湖南农业科学,(5):122-124]

Pontius JU,Wagner L,Schuler GD,2003.UniGene:a unified view of the transcriptome.In:The NCBI Handbook.National Center for Biotechnology Information,Bethesda,MD.

Rosenkranz R,Borodina T,Lehrach H,Himmelbauer H,2008.Characterizing the mouse ES cell transcriptome with Illumina sequencing.Genomics,92(4):187-194.

Schuler GD,1997.Pieces of the puzzle:expressed sequence tags and the catalog of human genes.J.Mol.Med.,75:694-698.Tahvaanainen J,1983.The relationship between leaf beetle and their cruciferous host plants:the role of plant and habitat characteristics.

Oikos,40(3):433-437.

Tribolium Genome Sequencing Consortium,2008.The genome of the model beetle and pest Tribolium castaneum.Nature,452(7190):949-955.

Wang L,Zhang EQ,Yu ZP,2009.Occurrence cause and integrated control of striped flea beetle in Jingzhou city in recent years.Hubei Plant Protection,5(115):21-22.[王玲,张恩桥,余周苹,2009.荆州市黄曲条跳甲偏重发生原因及综合防治技术.湖北植保,5(115):21-22]

Xu Q,Zhang Q,2007.Hatching rhythm of eggs in the cabbage beetle Colaphellus bowringi.Jiangxi Plant Protection,30(3):99-100.[徐强,张庆,2007.大猿叶虫卵孵化的时辰节律研究.江西植保,30(3):99-100]

Zhang MX,Liang GW,2000.The influence of host plants on the experimental population of striped flea beetle[Phyllotreta striolata (F.)].Journal of South China Agricultural University,21(3):25-28.[张茂新,梁广文,2000.寄主植物对黄曲条跳甲实验种群增长的影响.华南农业大学学报,21(3):25-28]

Zhao YY,Liu F,Yang G,You MS,2011.PsOr1,a potential target for RNA interference-based pest management.Insect Mol.Biol.,20(1):97-104.

Zhou XZ,Wu G,2004.Temporal and spatial dynamics of resistance to some commercial insecticides in Phyllotreta striolata(Fabricius)(Coleoptera:Chrysomelidae)in Fuzhou,China.Journal of Fujian Agriculture and Forestry University(Natural Science Edition),33(2):158-161.[周先治,吴刚,2004.福州地区黄曲条跳甲的抗性监测.福建农林大学学报(自然科学版),33(2):158-161]

(责任编辑:赵利辉)

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

DNA测序结果分析

学习 通常一份测序结果图由红、黑、绿和蓝色测序峰组成,代表不同的碱基序列。测序图的两端(本图原图的后半段被剪切掉了)大约50个碱基的测序图部分通常杂质的干扰较大,无法判读,这是正常现象。这也提醒我们在做引物设计时,要避免将所研究的位点离PCR序列的两端太近(通常要大于50个碱基距离),以免测序后难以分析比对。 我的课题是研究基因多态性的,因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。 实际上,要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。由于临床专业的研究生,这些东西是没人带的,只好自己研究。开始时大概的知道等位基因位点在假如在测序图上出现像套叠的两个峰,就是杂合子位点。实际比对了数千份序列后才知道,情况并非那么简单,下面测序图中标出的两

个套峰均不是杂合子位点,如图并说明如下: 说明:第一组套峰,两峰的轴线并不在同一位置,左侧的T峰是干扰峰;第二组套峰,虽两峰轴线位置相同,但两峰的位置太靠近了,不是杂合子峰,蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成,此处的序列被机器误判为“C”,实际的序列应为“A”,通常一个高大碱基峰的前面1~2个位点很容易产生一个相同碱基的干扰峰,峰的高度大约是高大碱基峰的1/2,离得越近受干扰越大。一个摸索出来的规律是:主峰通常在干扰峰的右侧,干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较;一个位点的多个样本相比较;你得出的该位点的突变率与权威文献或数据库中的突变率相比较。通常,对于一个疑似突变位点来说,即使是国际上权威组织大样本的测序结果中都没有报道的话,那么单纯通过测序结果就判定它是突变点,是并不严谨的,因一份PCR产物中各个碱基的实际含量并不相同,很难避免不产生误差的。对于一个未知

转录组高通量测序

转录组高通量测序 2010-11-22 09:48 (第二代高通量测序技术-454) 转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,是研究细胞表型和功能的一个重要手段。与基因组不同的是,转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的。罗氏GS-FLX-Titanium第二代高通量测序仪平均读长超过 400bp,在测序读长上遥遥领先于其它第二代高通量测序仪,使其成为转录组学研究的首选测序平台,已被广泛应用于基础研究、临床诊断和药物研发等领域。 一、罗氏454测序技术在环境微生物生态多样性研究中的突出优势体现在:(1)测序序列长,便于聚类拼接,可以对转录本进行从头组装(de novo assembly)。 (2)测序通量高,可以检测到低丰度转录本信息。 (3)可以对无基因组参考序列的新物种进行转录组测序,发现新的转录本和亚型。 (4)实验操作简单、结果稳定,可重复性强。无需进行克隆的文库构建,双链cDNA连接454接头后可以直接进行测序,实验周期短。 (5)测序数据便于进行生物信息分析,可以进行基因差异表达分析、鉴定基因的可变剪切以及预测新基因。 二、美吉公司在环境微生物生态多样性研究中的突出优势体现在: (1)拥有自主实验室和高通量测序平台,可以根据客户要求灵活安排实验,实验周期短,取样方便,质量可靠。 (2)技术人员经验丰富,可以稳定地进行总RNA的提取和双链cDNA的合成,可以根据顾客要求第一时间提供实验方案。 (3)有专业的生物信息团队和大型计算机,可以为客户提供个性化的生物信息分析服务。 (4)开放式实验室,参与式服务。客户不但可以参与整个实验过程,而且可以参与生物信息分析,提供最为增值的售后服务。 三、服务流程 (1)客户提供样本背景信息、实验目的和实验预期。 (2)美吉公司设计实验方案,提供测序深度建议和生物信息分析建议。 (3)客户认可实验方案,双方签订项目合作协议。 (4)项目开始运作,美吉公司指定专人和客户保持无障碍沟通。 (5)项目结束,美吉公司提供标准结题报告。 (6)客户可以和美吉公司签订长期合作协议,享受折扣和VIP服务。 四、送样要求 (1)动物、植物、微生物组织: > 请提供足量的新鲜样品,样品量≥5g;植物材料应避免过老的组织,尽量用柔嫩部位。 > 新鲜程度要求:采样后将样品立即液氮速冻-80℃保存(保存期不超过1个月),干冰运输,运输时间不超过72h。 > 样本保存期间切忌反复冻融。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

Roche_454(GS_FLX_Titanium_System)超高通量测序技术原理

Roche 454(GS FLX Titanium System)超高通量测序技术原理 2005年底,454公司推出了革命性的基于焦磷酸测序法的超高通量基因组测序系统——Genome Sequencer 20 System,被《Nature》杂志以里程碑事件报道,开创了边合成边测序(sequencing-by-synthesis)的先河。之后,454公司被罗氏诊断公司以1.55亿美元收购。2007年,他们又推出了性能更优的第二代基因组测序系统—— Genome Sequencer FLX System (GS FLX)。2008年10月,454推出了全新的GS FLX Titanium系列试剂和软件,让GS FLX的通量一下子提高了5倍,准确性和读长也进一步提升。 想当年,GS 20的出现,揭开了测序历史上崭新的一页。Jonathan Rothberg博士就是大规模并行测序的发明者,同时也是454的创始人。上世纪90年代,很多学者也都想到了大规模并行测序,他们试图将Sanger测序移到芯片上,但都以失败告终,因为这项技术没有可扩展性。1999年,Rothberg的儿子出世,他放了两个星期的陪产假。小家伙出生后被送入婴儿特护病房,Rothberg非常担心,甚至想获取儿子的基因组信息。这段担惊受怕的经历给了他灵感,他突然意识到焦磷酸测序(pyrosequencing)不仅简单,而且具有可扩展性。两个星期之后,Rothberg就开始设计芯片和流动室,让测序在更小的反应室中进行,并同时进行几百万个反应。 硬件的设计和制造也只是成功的一半,在样品制备上还有同样漫长的路要走。Rothberg摒弃了传统的细菌克隆与挑选,将DNA打断成随机片段,并寻找一种方法来克隆每个片段。受到其他学者乳液实验的启发,他也想将DNA放入油包水的乳液中,这样就省去了反应管。一个好汉三个帮。在Joel Bader等人的帮助下,Rothberg验证了这些想法的可行性,并利用了炸药中的表面活性剂来维持乳液的热稳定性。就这样,乳液PCR终于诞生了。 对细菌的16S rDNA的V6/V3可变区进行测序分析,不需进行克隆筛选,测序的通量高,获得的数据量大,周期短,能更加全面的反映微生物群体的物种组成,真实的物种分布及丰度信息。 GS FLX 测序原理 GS FLX系统的测序原理和GS 20一样,也是一种依靠生物发光进行DNA序列分析的新技术;在DNA聚合酶,ATP硫酸化酶,荧光素酶和双磷酸酶的协同作用下,将引物上每一个dNTP 的聚合与一次荧光信号释放偶联起来(图 1)。通过检测荧光信号释放的有无和强度,就可以达到实时测定DNA序列的目的。此技术不需要荧光标记的引物或核酸探针,也不需要进行电泳;具有分析结果快速、准确、灵敏度高和自动化的特点。 Roche GS FLX System是一种基于焦磷酸测序原理而建立起来的高通量基因组测序系统。在测序时,使用了一种叫做“Pico TiterPlate”(PTP)的平板,它含有160多万个由光纤组成的孔,孔中载有化学发光反应所需的各种酶和底物。测序开始时,放置在四个单独的试剂瓶里的四种碱基,依照T、A、C、G的顺序依次循环进入PTP板,每次只进入一个碱基。如果发生碱基配对,就会释放一个焦磷酸。这个焦磷酸在各种酶的作用下,经过一个合成反应和一个化学发光反应,最终将荧光素氧化成氧化荧光素,同时释放出光信号。此反应释放出的光信号实时被仪器配置的高灵敏度CCD捕获到。有一个碱基和测序模板进行配对,就会捕获到一分子的光信号;由此一一对应,就可以准确、快速地确定待测模板的碱基序列。

高通量测序RNA-seq数据的常规分析

案例一 虽然RNA-seq早已被大家所熟知,特别是在高通量测序越来越便宜的今天,但是RNA-seq数据的分析仍令多数小菜抓狂。多个软件的使用,参数设置,参考基因组准备,输出结果的解读等等,都让很多初次接触测序数据或者非生物信息专业的人头疼不已。 哈哈,不用怕,有云生信,这都不是事儿!今天我就向大家简单介绍一下如何用云生信做RNA-seq数据的常规分析。不过在此之前,我要稍稍啰嗦一下RNA-seq的常规分析流程,请不要拍砖头。图1是RNA-seq数据从产生到分析的常规分析流程:根据实验设计,提取细胞RNA,并将RNA提交给测序公司,就可以坐等测序数据了。测序公司会根据客户提供的RNA进行建库,上机测序。拿到测序数据后,就到了我们大显身手的时候了。首先,我们要对测序结果做个简单的质量评估,剔除低质量的数据。然后,根据基因组数据(这里我们讲的是基因组数据已知的物种,基因组未知的有套独立的流程,这里不讲),将测序数据组装。根据组装结果,计算基因或转录本的表达量。最后,同芯片数据一样,我们可以根据表达量数据做很多分析,如差异表达分析,网络分析(包括蛋白互作网络,共表达网络等),也可以结合临床数据做分析(如预后,亚型分类、关联,药效等)。 图1. RNA-seq常规分析流程

叨叨完毕,进入正题。 进入尔云后,打开“测序数据处理”模块,我们会看到图2的结果。在这一模块,我们可以完成RNA-seq数据分析的前两步:1、数据质控和过滤低质量数据;2、基因组组装,计算基因表达量。对于上面两部,尔云又根据是双端测序还是单端测序,分了两块。以edgeR 为例,输出的DEGs.txt就是根据我们设定的参数得到的差异表达基因的列表,有geneSymbol, logCPM, PVlue信息。 图2. 测序数据处理模块 质控结束后,尔云会给出全部的质控结果。图3是以demo数据为例的双端测序的质控结果,好多好多呀,可以下了慢慢看。建议主要关注一下xxx_qc_TABLE,该表格是对质控前后的数据统计,反应了测序的好坏。Clean_xxx.fq是质控后的干净的fastq数据,是第2步组装的输入文件。 图3.质控结果 组装完成后,会返回一个expression.txt的表达矩阵文件,该文件是下一步差异表达分析的输入分析。 得到表达矩阵后,我们就可以进入到第3步差异表达数据分析。进入尔云的“差异分析”模块(如下图所示),它针对芯片和测序两种检测技术提供了不同的分析方案。对于RNA-seq

高通量测序的生物信息学分析

附件三生物信息学分析 一、基础生物信息学分析 1.有效测序序列结果统计 有效测序序列:所有含样品barcode(标签序列)的测序序列。 统计该部分序列的长度分布情况。 注:合同中约定测序序列条数以有效测序序列为准。 图形示例为: 2.优质序列统计 优质序列:有效测序序列中含有特异性扩增引物、不含模糊碱基、长度大于可供分析标准的序列。 统计该部分序列的长度分布情况。 图形示例为:

3.各样本序列数目统计: 统计各个样本所含有效测序序列和优质序列数目。 结果示例为: 4.OTU生成: 根据序列的相似性,将序列归为多个OTU(操作分类单元),以便后续分析。 5.稀释曲线(rarefaction 分析) 根据第4条中获得的OTU数据,做出每个样品的Rarefaction曲线。本合同默认生成OTU相似水平为0.03的rarefaction曲线。 rarefaction曲线结果示例:

6.指数分析 计算各个样品的相关分析指数,包括: ?丰度指数:ace\chao ?多样性指数:shannon\simpson ?本合同默认生成OTU相似水平为0.03的上述指数值。 多样性指数分析结果示例: 注:默认分析以上所列指数,如有特殊需要请说明。 7.Shannon-Wiener曲线 利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,反映各样本在不同测序数量时的微生物多样性。当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物信息。绘制默认水平为:0.03。 例图:

8.Rank_Abuance 曲线 根据各样品的OTU丰度大小排序作丰度分布曲线图。结果文件默认为PDF格式(其它格式请注明)。 例图: 9.Specaccum物种累积曲线(大于10个样品) 物种累积曲线( species accumulation curves) 用于描述随着抽样量的加大物种增加的状况,是理解调查样地物种组成和预测物种丰富度的有效工具,在生物多样性和群落调查中,被广泛用于抽样量充分性的判断以及物种丰富度( species richness) 的估计。因此,通过物种累积曲线不仅可以判断抽样量是否充分,在抽样量充分的前提下,运用物种累积曲线还可以对物种丰富度进行预测。

三代测序原理技术比较

导读从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。 摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序 技术已取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要对当前的测序技术以及它们的测序原理做一个简单的小结。 图1:测序技术的发展历程 生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。 第一代测序技术 第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解). 并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA 合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定待测分子的DNA序列(图2)。这个网址为 sanger测序法制作了一个小短片,形象而生动。 值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其他的测序技术,如焦磷酸测序法、链接酶法等。其中,焦磷酸测序法是后来Roche公司454技术所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。

基因测序技术的优缺点及应用

基因测序技术的优缺点及应用 随着人类基因组计划的完成,人类对自身遗传信息的了解和掌握有了前所未有的进步。与此同时,分子水平的基因检测技术平台不断发展和完善,使得基因检测技术得到了迅猛发展,基因检测效率不断提高。从最初第一代以 Sanger 测序为代表的直接检测技术和以连锁分析为代表的间接测序技术,到 2005 年,以Illumina 公司的 Solexa技术和 ABI 公司的 SOLiD 技术为标志的新一代测序 (next-generation sequencing,NGS) 的相继出现,测序效率明显提升,时间明显缩短,费用明显降低,基因检测手段有了革命性的变化。其技术正向着大规模、工业化的方向发展,极大地提高了基因检测的检出率,并扩展了疾病在基因水平的研究范围。2009 年 3 月,约翰霍普金斯大学的研究人员在《Science》杂志上发表了通过 NGS外显子测序技术,发现了一个新的遗传性胰腺癌的致病基因PALB2,标志着 NGS 测序技术成功应用于致病基因的鉴定研究。同年,《Nature》发表了采用 NGS 技术发现罕见弗里曼谢尔登综合征MYH3 致病基因突变和《Nat Genet》发表了遗传疾病米勒综合征致病基因。此后,通过 NGS 技术,与遗传相关的致病基因不断被发现,NGS 技术已成为里程碑式的进步。2010 年,《Science》杂志将这一技术评选为当年“十大科学进展”。 近两年,基因检测成为临床诊断和科学研究的热点,得到了突飞猛进和日新月异的发展,越来越多的临床和科研成果不断涌现出来。同时,基因检测已经从单一的遗传疾病专业范畴扩展到复杂疾病和个体化应用更加广阔的领域,其临床检测范围包括高危疾病的新生儿筛查、遗传疾病的诊断和基因携带的检测以及基因药物检测用于指导个体化用药剂量、选择和药物反应等诸多方面的研究。目前,基因检测在临床诊断和医学研究的应用正越来越受到医生的普遍重视和引起研究人员的极大的兴趣。 本文介绍了几种 DNA 水平基因检测常见的方法,比较其优缺点和在临床诊断和科学研究中的应用,对指导研究生和临床医生课外学习,推进临床科研工作和提升科研教学水平有着指导意义。 1、第一代测序 1.1 Sanger 测序采用的是直接测序法。1977年,Frederick Sanger 等发明了双脱氧链末端终止法,这一技术随后成为最为常用的基因测序技术。2001 年,Allan Maxam 和 Walter Gibert 发明了 Sanger 测序法,并在此后的 10 年里成为基因检测的金标准。其基本原理即双脱氧核苷三磷酸(dideoxyribonucleoside triphosphate,ddNTP) 缺乏PCR 延伸所需的 3'-OH,因此每当 DNA 链加入分子 ddNTP,延伸便终止。每一次 DNA 测序是由 4个独立的反应组成,将模板、引物和 4 种含有不同的放射性同位素标记的核苷酸的ddNTP 分别与DNA 聚合酶混合形成长短不一的片段,大量起始点相同、终止点不同的 DNA 片段存在于反应体系中,具有单个碱基差别的 DNA 序列可以被聚丙烯酰胺变性凝胶电泳分离出来,得到放射性同位素自显影条带。依据电泳条带读取DNA 双链的碱基序列。 人类基因组的测序正是基于该技术完成的。Sanger 测序这种直接测序方法具有高度的准确性和简单、快捷等特点。目前,依然对于一些临床上小样本遗传疾病基因的鉴定具有很高的实用价值。例如,临床上采用 Sanger 直接测序 FGFR 2 基因证实单基因 Apert 综合征和直接测序 TCOF1 基因可以检出多达 90% 的

高通量测序 名词解释

高通量测序基础知识汇总 一代测序技术:即传统的Sanger测序法,Sanger法是根据核苷酸在待定序列模板上的引物点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH 基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,通过检测得到DNA碱基序列。 二代测序技术:next generation sequencing(NGS)又称为高通量测序技术,与传统测序相比,二代测序技术可以一次对几十万到几百万条核酸分子同时进行序列测定,从而使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(Deep sequencing)。NGS主要的平台有Roche(454 & 454+),Illumina(HiSeq 2000/2500、GA IIx、MiSeq),ABI SOLiD等。 基因:Gene,是遗传的物质基础,是DNA或RNA分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代,使后代出现与亲代相似的性状。 DNA:Deoxyribonucleic acid,脱氧核糖核酸,一个脱氧核苷酸分子由三部分组成:含氮碱基、脱氧核糖、磷酸。脱氧核糖核酸通过3',5'-磷酸二酯键按一定的顺序彼此相连构成长链,即DNA链,DNA链上特定的核苷酸序列包含有生物的遗传信息,是绝大部分生物遗传信息的载体。

高通量测序及分析

高通量测序与功能分析 微生物群落测序是指对微生物群体进行高通量测序,通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定功能的基因。对微生物群落进行测序包括两类,一类是通过16s rDNA,18s rDNA,ITS区域进行扩增测序分析微生物的群体构成和多样性;还有一类是宏基因组测序,是不经过分离培养微生物,而对所有微生物DNA进行测序,从而分析微生物群落构成,基因构成,挖掘有应用价值的基因资源。 以16s rDNA扩增进行测序分析主要用于微生物群落多样性和构成的分析,目前的生物信息学分析也可以基于16s rDNA的测序对微生物群落的基因构成和代谢途径进行预测分析,大大拓展了我们对于环境微生物的微生态认知。 目前我们根据16s的测序数据可以将微生物群落分类到种(species)(一般只能对部分菌进行种的鉴定),甚至对亚种级别进行分析, 几个概念: 16S rDNA(或16S rRNA):16S rRNA基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系,而可变区序列则能体现物种间的差异。16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。 OTU:operational taxonomic units (OTUs)在微生物的免培养分析中经常用到,通过提取样品的总基因组DNA,利用16S rRNA或ITS的通用引物进行PCR 扩增,通过测序以后就可以分析样品中的微生物多样性,那怎么区分这些不同的序列呢,这个时候就需要引入operational taxonomic units,一般情况下,如

测序 基础知识

转录组高通量测序中,reads、contigs、scaffold、unigene、singleton 高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据; 有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig(克隆群); 多个contigs通过片段重叠,组成一个更长的scaffold; 一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton; 多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。 基因组测序方法: 链中止法测序:通过合成与单链DNA互补的多核甘酸链,由于合成的互补链可在不同位置随机终止反应,产生只差一个核苷酸的DNA分子,从而来读取待测DNA分子的顺序。 化学降解法测序:在待定的核苷酸碱基中引入化学集团,再用化合物处理,使DNA分子在被修饰的位置降解。 自动化测序:与链终止测序原理相同,这姿势用不同的荧光色彩标记ddNTP,如ddA TP 标记红色荧光,ddCTP标记蓝色荧光,ddGTP标记黄色荧光,ddTTP标记绿色荧光。由于每种ddNTP带有各自待定的荧光颜色,二简化为由1个泳道同时判读4种碱基。 非常规DNA测序毛细管电泳、光点测序、DNA芯片测序、随机的组装(鸟枪法)鸟枪法:就有可能出现错装。 鸟枪法策略指导测序策略 不需要背景信息构建克隆群 时间短需要几年时间 需要大型计算机 得到的是草图(Draft)得到的是精细图谱 EST (Expressed sequence tag)测序 EST是一种重要的基因组图分子标记,以EST为探针很容易从cDNA文库中筛选全基因,又可从BAC克隆中找到其基因组的基因序列。 优点:mRNA可直接反转录成cDNA,而且cDNA文库也可比较容易构建。 对cDNA文库大量测序,即可获得大量的EST序列 EST为基因的编码区,不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因。 人类基因组计划于1990年启动,我国于1999年加入,承担1%任务,即人类3号染色体短臂上约30MB的测序任务。 2000年6月26完成草图。测序错误率低于1%%。

DNA测序结果分析比对(实例)

DNA测序结果分析比对(实例) 关键词:dna测序结果2013-08-22 11:59来源:互联网点击次数:14423 从测序公司得到的一份DNA测序结果通常包含.seq格式的测序结果序列文本和.ab1格式的测序图两个文件,下面是一份测序结果的实例: CYP3A4-E1-1-1(E1B).ab1 CYP3A4-E1-1-1(E1B).seq .seq文件可以用系统自带的记事本程序打开,.ab1文件需要用专门的软件打开。软件名称:Chromas 软件Chromas下载 .seq文件打开后如下图: .ab1文件打开后如下图: 通常一份测序结果图由红、黑、绿和蓝色测序峰组成,代表不同的碱基序列。测序图的两端(下图原图的后半段被剪切掉了)大约50个碱

基的测序图部分通常杂质的干扰较大,无法判读,这是正常现象。这也提醒我们在做引物设计时,要避免将所研究的位点离PCR序列的两端太近(通常要大于50个碱基距离),以免测序后难以分析比对。 我的课题是研究基因多态性的,因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。 实际上,要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。一般认为等位基因位点假如在测序图上出现像套叠的两个峰,就是杂合子位点。实际比对后才知道,情况并非那么简单,下面测序图中标出的两个套峰均不是杂合子位点,如图并说明如下:

说明: 第一组套峰,两峰的轴线并不在同一位置,左侧的T峰是干扰峰;第二组套峰,虽两峰轴线位置相同,但两峰的位置太靠近了,不是杂合子峰,蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成,此处的序列被机器误判为“C”,实际的序列应为“A”,通常一个高大碱基峰的前面 1~2个位点很容易产生一个相同碱基的干扰峰,峰的高度大约是高大碱基峰的1/2,离得越近受干扰越大。 一个摸索出来的规律是:主峰通常在干扰峰的右侧,干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较;一个位点的多个样本相比较;你得出的该位点的突变率与权威文献或数据库中的突变率相比较。 通常,对于一个疑似突变位点来说,即使是国际上权威组织大样本的测序结果中都没有报道的话,那么单纯通过测序结果就判定它是突变点,是并不严谨的,因一份 PCR产物中各个碱基的实际含量并不相同,很难避免不产生误差的。对于一个未知突变位点的发现,通常还需要用到更精确的酶切技术。 (责任编辑:大汉昆仑王)

焦磷酸测序技术的原理

Pyrosequencing技术的原理 Pyrosequencing是一项全新的DNA测序技术,可以快速、准确地测定一段较短的目标片段。其基本原理如下: 第1步:1个特异性的测序引物和单链DNA模板结合,然后加入酶混合物(包括DNA Polymerase、ATP Sulfurylase、Luciferase和Apyrase)和底物混合物(包括APS和Luciferin)。 第2步:向反应体系中加入1种dNTP,如果它刚好能和DNA模板的下一个碱基配对,则会在DNA 聚合酶的作用下,添加到测序引物的3‘末端,同时释放出一个分子的焦磷酸(PPi)。 第2步图示(图片来自互联网) 第3步:在ATP硫酸化酶的作用下,生成的PPi可以和APS结合形成ATP;在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。 第3步图示(图片来自互联网) 第4步:反应体系中剩余的dNTP和残留的少量ATP在Apyrase的作用下发生降解。 第4步图示(图片来自互联网) 第5步:加入另一种dNTP,使第2-4步反应重复进行,根据获得的峰值图即可读取准确的DNA序列信息。

第4步图示(图片来自互联网) Pyrosequecing技术操作简单,结果准确可靠,可应用于SNP位点检测、等位基因频率测定、细菌和病毒分型等领域。 →如果您认为本词条还有待完善,请编辑词条 上一篇SNP(单核苷酸多态性)下一篇阅读质粒图谱 具体事例 【摘要】建立了一种将序列标记反转录聚合酶链反应(PCR)与焦磷酸测序技术结合的相对基因表达量测定法(简称“SRPP”)。先用来源特异性引物对不同来源的同一基因通过反转录标记上特异性标签,PCR后用焦磷酸测序法对扩增产物进行序列解码,使得测序结果中的序列代表基因的来源,峰高代表基因在不同来源中的相对表达量。用实时荧光定量PCR法对本方法的准确性进行了验证,结果表明,SRPP可以同时准确测定同一基因在3个不同来源中的表达量,并实际测定了Egr1基因在糖尿病、肥胖和正常小鼠肝中的表达量差异。 【关键词】序列标记反转录, 聚合物链反应,焦磷酸测序,基因表达 1 引言 差异表达基因与疾病密切相关,深入研究可在基因水平揭示疾病的发病机制。目前,用于检测基因表达水平的技术主要有SAGE法[1]、实时荧光定量PCR法[2,3]和基因芯片法[4]等。但这些方法存在仪器设备昂贵、定量性能差以及同时测定基因表达量的来源数目受限等缺点。 焦磷酸测序技术是新近发展起来的一种基于酶催化化学反应的测序技术[5~8],不需要使用荧光标记,定量性能好。目前,焦磷酸测序技术多用于单核苷酸多态性(SNP)分析、微生物分型和基因甲基化分析等。本研究将焦磷酸测序技术用于基因表达量差异的比较分析,考察了其可行性和准确性,并将其应用于检测Egr1基因在糖尿病、肥胖症和正常小鼠中的差异表达。 2 实验部分 仪器、试剂与材料

高通量测序技术

高通量测序技术(High-throughput sequencing)又称“下一代”测序技术 ("Next-generation" sequencing technology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。 根据发展历史、影响力、测序原理和技术不同等,主要有以下几种:大规模平行签名测序(Massively Parallel Signature Sequencing, MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454 pyrosequencing)、Illumina (Solexa) sequencing、ABI SOLiD sequencing、离子半导体测序(Ion semiconductor sequencing)、DNA 纳米球测序(DNA nanoball sequencing)等。 高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,因此在有些文献中称其为下一代测序技术(next generation sequencing)足见其划时代的改变,同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。 实验过程 1.样本准备(sample fragmentation) 2.文库构建(library preparation) 3.测序反应(sequencing reaction) 4.数据分析(data analysis) 测序平台 自从2005年454 Life Sciences公司(2007年该公司被Roche正式收购)推出了454 FLX焦磷酸测序平台(454 FLX pyrosequencing platform)以来,因为他们的拳头产品毛细管阵列电泳测序仪系列(series capillary array electrophoresis sequencing machines)遇到了两个强有力的竞争对手,曾推出过3730xl DNA测序仪(3730xl DNA Analyzer)的Applied BioSystem(ABI)这家一直占据着测序市场最大份额的公司的领先地位就开始动摇了,一个就是罗氏公司(Roche)的454 测序仪(Roch GS FLX sequencer),,另一个就是2006年美国Illumina公司推出的Solexa基因组分析平台(Genome Analyzer platform),为此,2007年ABI公司推出了自主研发的SOLiD 测序仪(ABI SOLiD sequencer)。这三个测序平台即为目前高通量测序平台的代表。(见表一) 公司名称技术原理技术开发者 Apply Biosystems(ABI) 基于磁珠的大规模并行克隆连接 DNA测序法 美国Agencourt私人基因组学公司(APG) Illumina 合成测序法英国Solexa公司首席科学家David Bentley Roche 大规模并行焦磷酸合成测序法 美国454 Life Sciences公司的创始人Jonathan Rothberg Helicos 大规模并行单分子合成测序法美国斯坦福大学生物工程学家Stephen Quake Complete Genomics DNA纳米阵列与组合探针锚定连接 测序法 美国Complete Genomics公司首席科学家radoje drmanac 表一:主流测序平台一览 Roche 454焦磷酸测序 (pyrophosphate sequencing) Illumina Solexa 合成测序 (sequence by synthesize) Illumina Genome AnalyzerIIx测序原理 Illumina公司的新一代测序仪Hiseq 2000和Hiseq 2500具有高准确性,高通量,高灵敏度,和低运行成本等突出优势,可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究。Hiseq是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时将基因组DNA的随机片段附着到光学透明

高通量测序入门

很高兴成为论坛特邀专家,鄙人会接下来的一段时间内写一些高通量测序数据方面的帖子,由浅入深,可能刚开始会比较简单一些,后面会有一些针对性的专题,也欢迎各位大侠或小菜提出建议或问题大家一起探讨。为了活跃论坛建议大家直接跟帖或发新帖,我会尽快回复大家。 本人方向也仅限在RNA-seq 领域,所以其他领域的问题可能不太了解,只能按照自己的背景知识和请教别人解答,请大家慢拍砖! 另外,由于实验室课题比较忙,所以可能不能及时发帖或回复大家,也请见谅。 既然是入门专题,那就先简单说一下,要分析高通量测序数据的配置要求吧: 声明:该配置不适用与从华大拿回分析结果直接写paper 的同学。我认识的一位同学一点生物信息背景也没有,直接用华大返回分析结果发了很好的文章,如果想这样的同学可直接跳过这篇,等待以后的专题。 言归正传: 1. 软配置: 生物理论知识:熟悉生命活动的基本过程,对复制、转录、翻译、转录后修饰有较清晰的认识,如果知道cis-element 和trans-factor 的区别就更好了。推荐朱玉贤的分子生物学,能够掌握60% 就差不多了(这是对想通过测序数据进行生物分析同学的要求,如果是做软件开发等就无所谓了,比如国内做的很好的一些实验室,都是数学或自动化专业的牛人,以下一些配置也不适用这些牛人) 实验理论知识:不一定要做过实验,但至少要知道实验的过程,比如测序前样本的处理过程,序列片段化、加接头、PCR 扩增等。也许没有用,但将来出了问题,你可以很容易知道问题出在哪里 编程知识:要求不用太高,学一些perl 就可以了,对于生物专业的同学(本人就是生物专业),强烈推荐perl 语言入门,好像现在已经出到第五版了。此书极为搞笑,本人当时看了一个星期,其中幽默的语言导致本人经常笑出声音引得实验室同学以为神经了。对于有C 语言基础的同学来说简直就是菜,两天就可以通了。另外,学有余力的同学可以学一些R 以及python 或java. 因为好多软件都是用R 或python 写的,如果要是比较懒或三国杀很忙抽不出空就算了,学学perl 就好了。切记一点:perl 的学习过程中除了基础知识,一定要看一下哈希和模块这两部分。当然如果你们导师允许你对数据去个冗余也要半个月的话,你只学到循环就可以了。 统计学知识:只要大学上过生物统计也就差不多了(遇到二百五的老师你就比较悲剧了),最基本的知道什么是标准化,正态分布,p value 以及卡方检验或Fisher 精确检验,多重检验,,FDR 这些概念和计算方法也就差不多了。推荐从以下统计软件中择一精通之: SAS(比较变态,硕士期间学了,后来就还给老师了) excel(入手比较容易,好好学学,功能比较全,我学的差) matlab(本人认为最牛的统计软件,有专门的论坛,有兴趣的同学可以google 一下) SPSS(上手比较容易,而且很多汉化的非常好,新手同学比较推荐,但是精通比较

相关主题