搜档网
当前位置:搜档网 › 高通量测序生物信息学分析(内部极品资料,初学者必看)

高通量测序生物信息学分析(内部极品资料,初学者必看)

高通量测序生物信息学分析(内部极品资料,初学者必看)
高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识

㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。

目前国际上通用的基因组De Novo测序方法有三种:

1. 用Illumina Solexa GA IIx 测序仪直接测序;

2. 用Roche GS FLX Titanium直接完成全基因组测序;

3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx

进行深度测序,完成基因组拼接。

采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。

实验流程:

公司服务内容

1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头,

去污染);序列组装达到精细图标准

2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展

示平台搭建

1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。

(2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。

(3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。

(4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。

2. De Novo有几种测序方式

目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。

单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。

Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。

图1 Single-read文库构建方法图2 Paired-end文库构建方法

Mate-pair文库制备旨在生成一些短的DNA片段,这些片段包含基因组中较大跨度(2-10 kb)片段两端的序列,更具体地说:首先将基因组DNA随机打断到特定大小(2-10 kb范围可选);然后经末端修复,生物素标记和环化等实验步骤后,再把环化后的DNA分子打断成400-600 bp 的片段并通过带有链亲和霉素的磁珠把那些带有生物素标记的片段捕获。这些捕获的片段再经末端修饰和加上特定接头后建成mate-pair文库,然后上机测序(图3)。

图3 Mate pair文库构建方法

3.基因组De Novo测序的策略?

由于不同物种的基因组大小和复杂程度可能千差万别, 因此全基因组测序可以根据经费预算和基因组预分析结果, 灵活选择不同的测序平台或平台组合。

(1) 在基因组较小的物种测序计划中可以选择Roche 454 或Solexa测序平台。

(2) 对于复杂的植物大基因组可以选择两种或以上的测序平台测序,通常利用 Roche 454 的鸟枪法测序完成基因组的初步组装, 产生 454 contigs, 然后利用Solexa或 ABI SOLiD 的双末端测序数据确定 454 contigs 之间的顺序和方向, 形成 scaffolds。最后利用Solexa或ABI SOLiD数据填充部分 contigs 之间的空隙, 是一个比较合理和经济的测序策略。

(3) 另外,由于Solexa的读长已经升级到150 bp,也可以直接利用Solexa的paired-end 和mate-pair两种测序方式结合测序,完成较大物种的基因组拼接。

4.制定测序策略前,如何估算新物种的重复序列结构?

一般来说,基因组De Novo采用多种长度的插入片段文库进行拼接,主要是为了跨越不同长度的重复序列,因此,了解基因组中的重复系列结构有助于实验方案的设计。由于不同物种基因组的重复序列结构分布不同,如人基因组中的重复片段较多,也较长,而果蝇基因组中的重

复片段较少,也较短,因此二者采用的拼接策略也略有不用。

新物种的重复序列结构的估计一般是基于近缘物种基因中的重复序列结构,认为系统发育相近的物种,它们的重复序列结构相近。用一定长度的k-mer为框,连续截取基因组,从而得到一系列的unique cluster和repeat cluster,画出这些cluster的分布图,估算这种长度重复序列的分布,如下图所示,人类基因组中长度在10K以上的重复序列占了很多,而果蝇基因组中则主要集中在100bp~10K范围之内,所以用短序列De Novo组装人类基因组的时候,需要增加插入片段长度为10K的mate-pair数据。

5.如何选择不同的插入片段组合达到最佳?

文库构建过程中插入片段的长度选择应考虑以下几个因素:

(1) 一般来说短的插入片段用来拼接contigs,而长的插入片段用来搭建骨架(scaffold);

(2) 选择不同的插入片段组合的策略主要是为了跨越不同长度的重复序列区。不同的生物重复片段分布不一样,举例说明,人基因组中长的重复片段较多、果蝇基因组中短的重复片段较多。要跨越片段长度较长重复序列,必须选取更大的插入片段双端测序文库,但是长的插入片段文库的偏差较大,不能准确的定位较短重复序列的问题,因此,一般长插入片段和短的插入片段的文库都是需要。但是,插入片段越长,割胶回收时片段的分布越广。2k的插入片段至少有1%的偏差,即200bp的偏差。如下图所示,短插入片段文库基本符合预期,但是长插入片段文库中发现有5%的插入片段在0~500bp的读段,将有可能增加De Novo拼接的错误率。因此,长插入片段文库的测序深度不建议太大。

(3) 由于没有基因组信息,需要调查近缘物种的重复序列分布,能够帮助实验设计。详情见问题4

6.基因组De Novo需要多大的覆盖率?

基因组的覆盖率是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。基因组De Novo测序覆盖率的选择需要考虑测序所采用的策略。由于物种基因组的大小相差比较大,如细菌、真菌等微生物,其基因组一般比较小,可以单独采用Roche 454(20-30x)或Solexa采用高覆盖率(60×左右)的策略进行测序。而对于一些基因组比较大(100M以上)的物种(如植物),会采用一些技术平台组合的方法进行测序。考虑到平台间的成本差异及各平台的优势,为更经济有效的完成基因组De Novo测序,各种平台的覆盖率选择也不同。如由于Roche 454测序成本较Solexa和ABI SOLID 4要高,一般在采用Roche 454搭建骨架时覆盖率选择比较低(10×),然后再用Solexa和ABI SOLID 4进行高覆盖率的测序组装scaffolds和填补gap。另外,覆盖率的选择还要考虑所选择的测序方式,不同测序方式插入片段的长度有所差异,一般来讲长插入片段文库测序深度不能太大,会影响测序准确度(详见问题5)。

图1 测序量与测序覆盖度的关系

图2 覆盖度与contig N50值的关系

7哪些因素会影响测序结果的质量?

(1)个体的杂合度:个体的杂合度越高,拼接难度越大,甚至可能导致序列无法拼接。

(2)物种基因组的多态性:由于一些物种的个体太小,单个个体提取的基因组DNA的量可能难以满足测序的要求(如一些寄生虫),如此便需要混合多个个体进行基因组DNA抽提以用于测序。对于这类情况,需要评估该物种基因组的多态性,如果基因组的多态性太高,会影响后续基因组的拼接。

(3)DNA样本的质量:对于细菌与真菌而言,样品来源一定要单一菌落无污染,动植物样本也要尽量纯合,且无污染,否则会严重影响测序结果的质量。另外制备基因组不能小于23Kb,如果片段过小,在基因组片段化(Fragment)的过程中容易造成小片段丢失,导致构建的测序文库不能完整的覆盖全基因组,对测序结果产生重大的影响。

(4)另外如果基因组的某些区域的GC含量过高(GC%≥65%)会使测序过程中出现偏向性,导致某些区域的覆盖率太低,从而影响后续的拼接和注释。

(5)对于重复序列过多的物种,大量重复序列的存在会产生许多错误的重叠,造成拼接产生的contigs过短,从而导致结果的严重偏差。

8.全基因组De Novo测序的拼接标准怎样?

全基因组De Novo测序拼接国际标准:

基因框架图基因组精细图

基因组覆盖率>90% 基因组覆盖率>95%

基因区覆盖率>95% 基因区覆盖率>98%

Contig N50 >5kb Contig N50 >20kb

Scaffold N50 >20kb Scaffold N50 >300kb

单碱基错误率<0.01% 单碱基错误率<0.01%

N50 即覆盖50% 所有核苷酸的最大序列重叠群长度,把contig或scaffold从大到小排序,并对其长度进行累加,当累加长度达到全部contig或scaffold长度一半时,最后一个contig或scaffold长度。

9.如何检验基因组组装的准确性?

组装的准确度对于新物种基因组组装是至关重要的,一般有下面几种方法来检验组装的准确度:

(1) 构建BAC或Fosmid文库,并用Sanger法测序得到序列,将BAC序列与所拼接出来的contigs做比对来查看基因组组装的准确率。如,熊猫基因组拼接后,构建了9条BACs,每条BAC都map到唯一的一条scafflold上,而98%的BAC都和拼接好的contigs很好的比对上。

(2) 将已知的基因序列与拼接出来的scaffolds做比对,如果两者序列结果相吻合的话,说明基因组组装较好。而且已知的基因序列越多,评价结果越可靠。

(3) 估计组装后基因组的单碱基准确度,利用新一代测序技术,如果95%以上的基因组单

碱基覆盖度超过20X,则认为该基因组的单碱基准确度较高。

全基因组重测序

㈡全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,然后运用生物信息学分析手段对序列进行拼接,组装,从而获得该个体的基因组图谱;或者对不同组织(如肿瘤)进行测序,分析体细胞突变。

目前3种测序技术Roche GS FLX Titanium 、Illumina Solexa GA IIx和ABI SOLID 4 均可以满足重测序的需求;其中Illumina Solexa GA IIx和AB SOLID 4的数据读取量大,成本比Roche GS FLX Titanium要低,在基因组重测序中广泛应用。

基因组的重测序可以帮助客户在全基因组水平上扫描并检测与重要性状相关的基因序列差异和结构变异,实现遗传进化分析及重要性状候选基因预测。

实验流程

服务内容

基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头,去污染);序列组装及Mapping

定制服务:SNP、Indel和结构变异检测及生物信息学注释,疾病关联分析,群体遗传学分析

1.重测序对样品有什么要求?

(1)样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/l;每次样品制备需要10 ug样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 ug。

(2)植物样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品。基因组完整无降解(23 kb 以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/l;样品总量不小于50 μg,详细要求参见项目合同附件。

(3)动物样品来源应选用肌肉,血等脂肪含量少的部位。基因组完整无降解(23 kb以上),OD 值在1.8~2.0 之间;样品浓度大于30 ng/l;样品总量不小于50 μg,详细要求参见项目合同附件。

2.重测序应该如何确定覆盖率?

重测序的覆盖率选择由样本的物种及其客户的需求决定,重测序的个体,如果采用的是双末端或单端测序方案,当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。以采用Solexa测序技术对人的基因组进行重测序为例,如果要获得完全图,须要20X的测序覆盖度;获得精细图,必须达到10X的覆盖度;而框架图,则需要大约5X的覆盖度。可以根据重测序的研究目的对测序深度进行选择,譬如如果重测序仅用于SNP/Indel筛选,测序的方式即可以选择单端又可以选择双端,测序覆盖率要求大于3。

3.重测序SNP及Indel筛选测序策略?

重测序SNP筛选有群体水平SNP筛选和个体水平上SNP筛选两种形式。针对群体水平上的SNP研究,由于研究的个体数目比较多,其在文库构建上有两种选择:一是将不同个体的DNA 样本混合在一起构建一个测序文库,测序后筛选SNP,构建该物种的SNP数据库,采用这种混合样本构建文库,缺点是只能在群体水平上对物种的SNP进行研究,无法对每个个体的SNP

进行研究。第二个方法是不同个体的样本分别构建测序文库,构建好文库以后分别加上Barcodes 进行多重测序(Multiplexed Sequencing),由于对每个个体都加上了标记,因此测序结果不仅能研究物种群体水平上的SNP,还能研究个体水平上的SNP差异,但此方法的缺点是需要对每个样本独立构建文库,并加Barcodes,工作量和成本都会大大增加。一般用于SNP筛选,测序的方式可以选择单端或双端,测序覆盖度要大于3。

4.重测序结构变异筛选的测序策略?

由于物种的结构变异一般是指长度在1000 bp以上的DNA区域存在的倒位、转位和插入/缺失的现象。所研究的DNA片段的长度比较长,单端测序方式由于读长比较短,无法满足结构变异的筛选。因此采用新一代测序技术进行重测序来分析基因组结构变异,一般需要采用双端(paired-end)测序方式,这样才能获得两个片段之间的信息,通过比对到基因组,发现基因组位置跟配对信息不相符,筛选潜在的基因组结构变异区域。在制定结构变异筛选策略的过程中,

需要了解该物种其他个体的结构变异的情况,根据参考资料来决定文库构建过程中插入片段的长度,一般结构变异的区域越大,所需要的paired-end或者mate-pair的插入片段长度也越长。原则是插入片段的长度尽量覆盖一些比较长的结构变异。

5.重测序测序文库的构建方法?

重测序测序文库的构建方法是由测序方式决定的。对于一些简单的SNP/Indel筛选,单端(single read)测序和双端(paired-end)测序均能满足要求,而结构变异筛选则需要paired-end 或者mate-pair测序。以应用比较广泛的Solexa测序平台为例,single read测序和paired-end 测序文库的构建步骤基本相同,主要不同在于接头的使用及片段长度的选择方面。

其文库构建的基本步骤均为(1)对基因组DNA进行片段化处理(200-500bp);(2)对片段化的双链DNA进行末端修复;(3)将“A”碱基加入到DNA片段的3’末端;(4)连接特定的测序接头DNA片段的两端;(5)纯化连接产物以除去未连接的接头序列;(6)高保真聚合酶PCR扩增连上DNA片段;(7)检测测序文库。

mate-pair测序文库的制备与single read、paired-end有所区别,

其文库构建步骤为(1)基因组DNA随机打断特定大小片段(2-10kb范围可选);(2)对片段化的双链DNA进行末端修复;(3)在DNA片段两端加上生物素标记(4)环化标记的DNA 片段;(5)消化环化的DNA片段,富集生物素标记的DNA片段;(6)对片段化的生物素标记的DNA片段进行末端修复;(7)将“A”碱基加入到DNA片段的3’末端;(8)连接特定的测序接头DNA片段的两端;(9)高保真聚合酶PCR扩增DNA片段(10)电泳分离纯化目的大小的DNA片段;(11)检测测序文库。

6.如何同时进行多个样品的重测序?

在对群体基因组学进行研究的过程中,往往需要对多个个体的基因组进行测序,在重测序过程中,我们推荐采用多重测序(Multiplexed Sequencing)的方式进行。多重测序(Multiplexed Sequencing)由于个体比较多,测序过程中需要对每个个体的DNA进行Barcodes标记,以方便后续的生物信息学分析。

Paired-end多重测序(Multiplexed Sequencing)的文库构建的基本流程如下:(1)对每个样本的DNA分别进行片段化处理;(2)对片段化的双链DNA进行末端修复;(3)将“A”碱基加入到DNA片段的3’末端;(4)使用Barcodes标记的特定的测序接头连接DNA片段两端;(5)纯化连接产物以除去未连接的接头序列;(6)以Barcodes标记的引物和高保真聚合酶PCR扩增连上标记的DNA片段;(7)检测测序文库。(与技术平台衔接)

7.混合样品的重测序对测序结果的影响?

(1)研究群体基因组学的需要,进行混合样品的全基因组重测序;在多重测序(Multiplexed Sequencing)过程中,数百万reads上加入的barcodes种类有限,可能会出现在同一扫描时间呈现过于单一的碱基分布,造成荧光点密度过大,导致识别度降低,PF%过低,使得barcodes 测序质量下降,甚至无法全部有效识别并对应回标记样品。

(2)混合样品测序过程中,由于混合了多个样品,测序过程中会出现偏向性,导致样品的覆盖度不均一,因此在计算覆盖度的时候,需要考虑群体覆盖度、个体覆盖度的信息;

(3)重测序过程中,覆盖度比较低的个体,其基因组区段的覆盖率不均匀容易造成假阳性和假阴性,即由于个体的测序深度不够,不能确保每个样品的各个基因组区段上都能测到,对于未能检测到的区段,可能导致分析结果低估群体内的差异。相反对于覆盖率偏多的区段会导致过高估计群体内的差异。

8.测序深度对基因组覆盖度和测序错误率的影响?

测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。基因组覆盖度是指基因组被测序得到的碱基覆盖的比例。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。在重测序中,影响所需测序深度的因素有:

(1)物种基因组结构的复杂程度,复杂程度越高,所需测序深度越大;

(2)测序的长度和方法,测序读长长的所需的测序深度就要低一些。

9.通过重测序可以发现哪些遗传变异?

一般来说,进行重测序的主要目的在于发现群体中不同个体或者同一个个体不同组织之间的差异,这些差异主要包括下面几个方面:

1)SNP,全称是single nucleotide polymorphism, 即单核苷酸多态性。主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500~1000个碱基对中就有1个,估计其总数可达300万个甚至更多。

2)Indel,即插入/缺失(insert/deletion)

3)SV,即结构变异(structural variation),一般是指长度在1000bp以上的DNA区域存在

倒位、转位和插入缺失的现象,通常又称为拷贝数变异(CNVs, copy number variants)。当一个CNV在群体中的频率超过1%,又称为拷贝数多态性(CNP,copy number polymorphism).

Small RNA转录组测序

㈢Small RNA是一大类调控分子,几乎存在于所有的生物体中。Small RNA包括:miRNA、

ncRNA、siRNA、snoRNA、piRNA、rasiRNA等等。Small RNA通过多种多样的作用途径,包括mRNA降解、翻译抑制、异染色质形成以及DNA去除,来调控生物体的生长发育和疾病发生。Small RNA转录组测序是鉴定和定量解析small RNA的新方法和有力工具。

Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以对Small RNA进行大规模测序分析,Illumina Solexa GA IIx 和ABI Solid的读长正好配合了small RNA的短序列且通量大,可以得到更高的覆盖率,Illumina Solexa GA IIx在small RNA测序中广泛应用。

通过对Small RNA大规模测序分析,可以从中获得物种全基因组水平的Small RNA图谱,实现包括新Small RNA分子的挖掘,其作用靶基因的预测和鉴定、样品间差异表达分析、Small RNA聚类和表达谱分析等科学应用。

实验流程

服务内容

基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头,去污染);序列组装及Mapping

定制服务:SNP、Indel和结构变异检测及生物信息学注释,疾病关联分析,群体遗传学分析

1.Small RNA测序有什么样的样品要求?

(1) 样品纯度要求: OD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.5。

(2) 样品浓度: total RNA浓度不低于750 ng/μg;提取总RNA时请不要使用过柱法提取

总RNA,样品总量不低于40 μg (Small RNA: total RNA大于0.3%)。或提供浓度大于2 ng/μg,

总量大于180 ng的Small RNA样品。

(3) Small RNA样品请置于-20℃保存;请提供Small RNA样品具体浓度、体积、制备时间、溶剂名称及物种来源。请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。如需进行多次样品制备,需要提供多次样品制备所需样品。

(4) 样品运输:样品请置于1.5 ml管中,管上注明样品名称、浓度以及制备时间,管口使用Parafilm封口。建议使用干冰运输,并且尽量选用较快的邮递方式,以降低运输过程中样品降解的可能性。

2.Small RNA分离的方法?

现行的RNA纯化方法包括有机溶剂抽提+乙醇沉淀,或者是采用更加方便快捷的硅胶膜离心柱的方法来纯化RNA。由于硅胶膜离心柱通常只富集较大分子的RNA(200 nt以上),Small RNA往往被淘汰掉,因而不适用于Small RNA的分离纯化。有机溶剂抽提能够较好的保留Small RNA,但是后继的沉淀步骤比较费时费力。目前还有另外一些Small RNA分离专用的试剂盒。如MirVana miRNA Isolation Kit是采用玻璃纤维滤膜离心柱(glass fiber filter,GFF),既能够富集10 mer以上的RNA分子,又兼备离心柱快速离心纯化的特点。

对于Small RNA测序,我们采用PAGE胶电泳对小RNA进行分离。客户可以选择他们感兴趣的Small RNA长度进行研究。Small RNA的长度为18-30nt。我们推荐的测序长度为35bp,之后对序列信息进行修剪,去除接头序列仅留下Small RNA序列。

3.Small RNA测序文库的构建方法及质量控制?

由于Solexa的读长足够满足Small RNA测序的读长要求,且数据读取量大,性价比高,因此Solexa在Small RNA测序方面得到广泛的应用。采用Solexa进行Small RNA测序其文库构建方法如下: (1) PAGE胶纯化特定大小的小RNA分子; (2) 5′接头连接和纯化; (3) 3′接头连接纯化; (4) RT-PCR扩增;(5) Small RNA文库的纯化; (6) 文库的检测。Small RNA文库需要通过电泳检测和Agilent Technoligies 2100 分析仪检测以分析测序文库中片段的大小、纯度和浓度。

4.采用Solexa进行Small RNA测序时Read/Tag的长度是多少?推荐的覆盖深度是多少?

对于Small RNA测序,客户可以选择他们感兴趣的Small RNA长度进行研究。Small RNA 的长度为18-30nt。针对Solexa我们推荐的测序长度为35 bp,之后对序列信息进行修剪,去除接头序列仅留下Small RNA序列。对于Small RNA发现和分析的研究,由于需要对Small RNA 进行表达分析,因此测序过程中我们不推荐覆盖深度(Depth of Coverage)。Solexa在flow cell 的每个通道(lane)至少获取500万个读数(read),信息量足够保证准确的序列测序。

5.高通量测序研究sRNA 优势?

目前研究Small RNA的方法主要是通过实时定量PCR以及基因芯片技术,这些方法主要关注microRNA的表达和定量,并仅局限与研究那些序列信息或二级茎环结构信息已知的Small

RNA,无法寻找和发现新的Small RNA分子。基于高通量测序技术的Small RNA测序技术突破了目前研究技术手段上的局限性,使研究人员能够直接对样本中的Small RNA进行高通量测序,其主要优势有:(1) 可以直接从核苷酸水平上研究Small RNA分子,不存在传统芯片杂交的荧光模拟信号带来的交叉反应和背景噪音问题,非常利于区分相同家族以及序列极为相似的不同Small RNA分子;(2) 可以对任意物种进行高通量分析,无需任何预先的序列信息以及二级结构信息;(3) 灵敏度高,测序通量大,为Small RNA分子的发现和研究提供了极大的数据深度与覆盖率,能够检测丰度极低的稀有转录;(4) 测序产生的原始数据可以与多种分析软件兼容,可以注释Small RNA的基因组信息,并分析其表达水平,能够随时使用公用Small RNA数据库注释已知的Small RNA,还可以进一步分析未匹配的数据,发现新的Small RNA种类及异构体,寻找更深入的研究信息。

6.用多重测序 (Multiplexed Sequencing) 进行Small RNA测序,1 Lane可以测多少个样品?

一次测序产生的数据量有限,加多少Barcodes要由物种Small RNA的大小决定,由于Small RNA要进行表达量分析,不建议考虑测序深度,在单个个体的数据量能够保证序列正确的前提下,可以对多个样品进行多重测序 (Multiplexed Sequencing)。目前Roche 454 一次测序最多可产生500Mb通量,共有8个通道,每个通道可以对40个混合样本进行测序,因此每个run 可对300多个样本进行测序;Solexa 运行1个run最多可以获取95Gb的碱基数据,共8个通道,每个通道可以对12个混合样本进行测序,每个run可以对96个混合样本进行测序;ABI SOLID 4 现在可以同时运行2张玻片,每张玻片可以物理区分为1个、4个或者8个分区,每个分区可以混合96个样本(也就是可以加96个条形码技术),每张玻片最多可以混合768种样本,2张玻片可以同时混合1536种样。

7.Small RNA测序的影响因素?

Small RNA测序的影响因素主要有以下几个方面:

(1) 客户提供样本的质量,进行Small RNA测序过程中,需要对Small RNA进行分离,分离Small RNA的质量和纯度直接影响测序结果。由于RNA容易降解,因此RNA的抽提、纯化等操作一定要严格按照实验要求进行,以保证样品的质量。

(2) 构建文库的质量:文库构建需要PAGE胶分离纯化Small RNA,然后连接接头进行纯化后才能进行RT-PCR,在此过程中,要小心操作保证Small RNA无降解,同时纯化过程要保证接头去除干净,残余的接头会对后续的测序产生影响。

(3) 测序文库的上样量控制:这个因素也会很大程度影响簇生成的密度,由于上样量非常小,只有1-8 pg,所以能否准确定量微量样品也成为影响测序通量的重要因素。

转录组测序(RNA-seq)

㈣转录组是某个物种或者特定细胞类型产生的所有转录本的集合,转录组测序(RNA-seq) 是最近发展起来的利用深度测序技术进行转录分析的方法,可以对全转录组进行系统的研究。

Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以对转录组进行测序,Roche GS FLX Titanium与Illumina Solexa GA IIx和AB SOLID 4相比,拥有更长的读长和较小的数据量,适用于表达量较高基因的RNA全长测序。但是对低表达丰度的基因,可能需要多次测序才能得到足够的数据,成本比较高,而Illumina Solexa GA IIx和AB SOLID 4数据读取量大,能够得到较高的覆盖率,可以较好的降低成本。若是位置基因组序列的物种,则Roche GS FLX Titanium测序更有优势,其较长的读长便于拼接,获得更好的转录本数据。

转录组测序可以供研究者在转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区 SNP研究),非编码区域功能研究(Non-coding RNA研究、miRNA前体研究等),基因表达水平研究以及全新转录本发现等方面进行深入研究。

实验流程

服务内容

基本服务:RNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头,去污染);序列组装及Mapping

定制服务:对于无参考基因组的转录组分析:Unigene功能注释、Go分类及代谢通路分析;对于有参考基因组的分析:新基因预测,基因可变剪切及融合鉴定,比较基因组分析

1.研究转录组的方法有哪些?转录组测序比其他研究方法有哪些优势?

目前研究转录组的方法主要三种,基于杂交技术的cDNA芯片和寡聚核苷酸芯片,基于sanger测序法的SAGE (serial analysis of gene expression)、LongSAGE和MPSS(massively parallel signature sequencing),基于第二代测序技术的转录组测序,又称为RNA-Seq。其中转录组测序具有以下优势:(1)可以直接测定每个转录本片段序列、单核苷酸分辨率的准确度,

同时不存在传统微阵列杂交的荧光模拟信号带来的交叉反应和背景噪音问题;(2)灵敏度高,可以检测细胞中少至几个拷贝的稀有转录本;(3)可以对任意物种进行全基因组分析,无需预先设计特异性探针,因此无需了解物种基因信息,能够直接对任何物种进行转录组分析,同时能够检测未知基因,发现新的转录本,并准确地识别可变剪切位点及cSNP,UTR区域。(4)检测范围广,高于6个数量级的动态检测范围,能够同时鉴定和定量稀有转录本和正常转录本。

2.转录组测序有什么样的样品要求?

(1)样品纯度要求: OD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.8。

(2)样品浓度: total RNA浓度不低于400 ng/μg。

(3)total RNA样品请置于-20℃保存;请提供total RNA样品具体浓度、体积、制备时间、溶剂名称及物种来源。请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。

(4)样品请置于1.5 ml管中,管上注明样品名称、浓度以及制备时间,管口使用Parafilm 封口。建议使用干冰运输,并且尽量选用较快的邮递方式,以降低运输过程中样品降解的可能性。

3.mRNA的纯化分离方法?

进行mRNA研究中,首先需要对样本进行总RNA抽提,抽提得到的RNA除含有mRNA外,还含有rRNA和tRNA,为防止这两类RNA对转录组研究的影响,因此我们需要对mRNA进行分离纯化。真核细胞的mRNA分子最显著的结构特征是具有5’端帽子结构(m7G)和3’端的Poly(A)尾巴。绝大多数哺乳类动物细胞mRNA的3’端存在20-30个腺苷酸组成的Poly(A)尾,通常用Poly(A+)表示。这种结构为真核mRNA的提取,提供了极为方便的选择性标志,寡聚(dT)纤维素或寡聚(U)琼脂糖亲合层析分离纯化mRNA的理论基础就在于此。 mRNA的分离方法较多,其中以寡聚(dT)-纤维素柱层析法最为有效,已成为常规方法。此法利用mRNA 3’末端含有Poly(A+)的特点,在RNA流经寡聚(dT)纤维素柱时,在高盐缓冲液的作用下,mRNA被特异地结合在柱上,当逐渐降低盐的浓度时或在低盐溶液和蒸馏水的情况下,mRNA 被洗脱,经过两次寡聚(dT)纤维柱后,即可得到较高纯度的mRNA。

4.使用Solexa进行转录组测序时,样本RNA如何进行片段化处理? cDNA插入片段长度的选

择?

Solexa转录组测序文库构建时采用专用的打断Buffer对RNA样本进行片段化处理,这种方法充分利用RNA对二价阳离子的敏感性,具有稳定性好的优点,通过这种方法打断能得到更加均匀的覆盖率。mRNA-seq可以既可以采用单端测序(single read)还可以采用双端测序

( paired end),对于单端测序来说片段长度150-200bp是理想的长度范围,对于双端测序来说片段长度推荐300-500bp,由于两端加入了Solexa的锚定序列和引物序列,样品准备完成后所获得的产物长度比插入的cDNA长度要长。

5.文库准备过程中,反转录引物的选择?

在进行cDNA合成过程中,经常用到的有两种引物:oligo dT引物和随机引物。

在RNA反转录过程中使用oligo dT引物进行扩增可以保证扩增产物包括mRNA的3'末端,减少rRNA的干扰,但是采用oligo dT 引物扩增有一个问题,就是扩增片段的长度偏短和扩增产物所包含的信息量偏向3’端的问题,之所以有长度偏短,一方面与RNA完整性有关,但最重要的限制在于逆转录酶的延伸能力。用oligo dT 引物扩增出来的片段长度短,虽然都有mRNA 的3'端,但是序列信息多位于3'-UTR附近,若扩增序列太短,则有用信息很少,不利于序列的识别和分析。

使用Random primer扩增,虽然扩增偏短长度也很短,但是由于它的逆转录并不一定在mRNA的末端起始,而是在随机位置起始,所以它的扩增片段带有更多CDS的信息,但是如果是用总RNA逆转录的话,有可能会受到rRNA的干扰。

采用Solexa进行转录组测序,测序文库准备过程中,由于实验之前已经采用oligo dT微磁珠进行纯化,而且mRNA已经进行了片段化处理后才进行反转录,因此反转录只能采用随机引物进行cDNA的合成,如果采用oligo dT进行扩增,只能得到mRNA的3'端序列,无法得到完整的mRNA序列。

6.Solexa进行转录组测序,测序文库的制备方法及质控标准?

转录组测序在收到客户样本后,首先会对客户提供的样本进行质量检测,检测合格后,对样本进行测序前处理,构建测序文库,构建步骤为:(1)首先利用oligo dT微珠纯化mRNA;(2)将纯化得到的mRNA进行片段化处理;(3)利用逆转录酶反转录合成cDNA第一链;(4)以cDNA第一链为模板合成双链cDNA;(5)对双链cDNA进行末端修复并在3’末端加’A”;(6)在DNA片段的两端连接上特定的测序接头;(7)割胶纯化连接好的cDNA片段(一般回收200-500bp之间的片段);(8)利用高保真聚合酶扩增测序文库;(9)检测测序文库。对于测序文库,需要进行质量控制,一般通过Aligent Technologies 2100分析仪和电泳观察两种方法检测测序文库的大小,纯度及浓度。

7.转录组测序结果的影响因素?

RNA的降解严重影响测序的质量,RNA降解后,加入poly-A后无法捕获纯化mRNA,因此,随机引物反转录无法得到全部的cDNA,导致测序结果出现明显的3‘-和5’-偏向。文库中的poly-A 多聚物的存在会对测序信号产生干扰,影响测序结果的准确性;同时由于转录组中转录本的丰度不一致,实验前需要对样本进行均一化处理,否则高丰度的表达基因会掩盖低丰度表达基因,导致寻找新基因失败或者是获得大量无意义的重复序列。

8.转录组测序需要多大的测序量才能得到有意义的结果?

转录组测序前,需要对物种转录组的大小进行评估,评估方法如下:

(1)对于有reference genome的物种,可以分析基因组信息,统计编码基因的个数,及其碱基数,从而估计物种转录组的大小,另外可以查询相关或相近物种转录组研究的文献,作为参考。

(2)对于无reference genome的物种则只能参考相近物种的转录组大小。

由于转录组需要进行表达量的分析,因此在转录组测序中不推荐覆盖度,在进行不同基因和不同实验间的基因表达差异分析时,人们提出了RPM和RPKM的概念。 RPM(Reads Per Million reads)即每百万reads中来自于某基因的reads数,考虑了测序深度对读段计数的影响。RPKM (Reads Per Kilo bases per Million reads)是每百万reads中来自于某基因每千碱基长度的reads数。因此,在确定转录组的测序量时,最好以产生的读长数目做依据,参照转录组大小,估计需要的读长数目,来确定转录组需要的测序量。

9.如何处理转录组测序中存在的系统噪音和偏差?

虽然深度测序技术的准确性较以前的技术有了很大提高,但仍然存在错误和噪声。比如内含子区内有一些不连续的reads,很可能由系统噪声造成,如样品污染、测序错误和不恰当的read 定位策略等。另外,外显子区域内的read信号分布有时也很不均匀。有文献报道,序列组成尤其是GC含量、RNA二级结构等也有可能是导致read不均匀分布的原因。这些噪声和分布偏好将影响新基因的识别和对剪接异构体形式和表达水平推断。

合理地建模RNA-seq数据中的系统噪声和偏好是解决上述问题最有效的办法。基本的思路可以是:首先根据实验原理寻找可能产生系统噪音或偏差的因素,并尽可能将这些因素转化成可量化的特征,如序列特征、二级结构等;然后,将用实验数据对这些特征做统计分析,构造和训练模型,用模型来对数据进行校正。需要注意的是,某些偏好是由当前的测序技术和分析方法共同造成的,难以完全消除。在这种情况下,后续处理和解释时需要充分意识到这种偏好可能对生物学结论带来的影响,必要时通过补充其他实验来验证和修正通过高通量测序得到的生物结论。

宏基因组测序

㈤宏基因组测序,是对特定环境样品中的微生物群体基因组(尤其是那些种类众多的难于培养的微生物),进行序列测定和功能基因的发掘,来分析微生物群体基因组成及功能,解读微生物群体的多样性与丰度,发掘和研究新的、具有特定功能的基因。

目前三种测序技术Roche GS FLX Titanium 、Illumina Solexa GA IIx和AB SOLID 4均可以进行宏基因组测序分析,但由于Roche GS FLX Titanium高通量测序系统具有序列读长长的优势,契合宏基因组研究的要求,因此在宏基因组研究领域得到更广泛的应用。

目前宏基因组学研究在发现新基因,开发新的微生物活性物质,研究微生物群落结构及功能方面得到广泛的应用,宏基因组测序技术为微生物的研究和发展提供了很好的策略。

实验流程

服务内容

基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头,去污染);序列组装及Mapping

定制服务:种群分布分析,COG分析,GO分析及代谢通路分析,丰度和多样性分析,菌群间差异分析,进化树分析

1.宏基因组测序需要提供什么样品要求?

(1)提供环境微生物的基因组DNA或者扩增产物,OD值在1.8~2.0 之间;样品浓度大于30 ng/l;每次样品制备需要10μg样品,如果需要多次制备样品,则需要样品总量=制备样μg 品次数*10 ug。

(2)DNA样品请置于-20℃保存;请提供DNA样品具体浓度、体积、制备时间、溶剂名称。请同时附上QC数据,包括电泳胶图、分光光度或Nanodrop仪器检测数据。

(3)样品请置于1.5 ml管中,管上注明样品名称、浓度以及制备时间,管口使用Parafilm 封口。建议使用干冰运输,并且尽量选用较快的邮递方式,以降低运输过程中样品降解的可能性。

2.宏基因组测序样品总DNA的提取及基因或基因组DNA的富集注意事项?

提取的样品DNA必须可以代表特定环境中微生物的种类,除需严格遵循取样规则外,取样中应尽量避免对样本的干扰,缩短保存和运输的时间,使样品尽可能代表自然状态下的微生物原貌,获得高质量环境样品中的总DNA是宏基因组文库构建的关键之一。要采用合适的方法,既要尽可能地完全抽提出环境样品中的DNA,又要保持较大的片段以获得完整的目的基因或基因簇。所以总的提取总是在最大提取量和最小剪切力之间折中。应严格操作,谨防污染,并且保

持DNA 片段的完整和纯度。为了更好地反映环境中的微生物种群并且提高阳性克隆的占有率,

需要在克隆之前通过不同的方法对感兴趣的目的基因或基因组进行富集,常用的富集方法有稳定同位素探针、抑制性消减杂交、差异显示、噬菌体展示、亲和捕获及DNA微阵列等技术。

3.采用Solexa进行宏基因组测序,测序文库构建方法及质量控制?

采用Solexa进行宏基因组 DNA测序,首先对特定环境微生物种群全基因组DNA进行提取。在提取微生物种群的DNA后制备DNA文库,具体步骤如下:(1)将DNA随机打断成200-500bp 的片段;(2)对DNA末端进行修复;(3)将“A”碱基加入到DNA片段的3’末端;(4)在DNA 片段的末端加上接头;(5)纯化连接产物;(6)PCR扩增连上接头的DNA片段;(7)检测测序文库。

4.宏基因组学研究中,功能基因(簇)研究的技术路线?

根据实验的目的不同,宏基因组研究可分为微生物多样性分析(详见问题7)和功能基因(簇)发掘两类。其中功能基因(簇)发掘着重于从基因功能角度,通过构建宏基因组文库(cosmid、fosmid或BAC),用表型功能的方法筛选功能基因(簇),以达到生物合成的目的。功能基因(簇)发掘技术路线如下:

(1)样品总DNA的提取;

(2)宏基因组文库的构建;

(3)功能基因簇克隆的筛选;

(4)功能基因簇克隆的测序;

(5)进入454 GS FLX系统的工作流程;

(6)后续的生物信息学分析。

5.宏基因组文库构建注意事项?

宏基因组文库的构建策略取决于研究的整体目标。偏重于低拷贝、低丰度基因还是高拷贝、高丰度基因要取决于研究的目的是单个基因或基因产物还是整个操纵子及编码不同代谢途径的基因簇。基因文库的建立过程中需要选择合适的克隆载体和宿主菌株。传统的方法是直接利用表达载体构建宏基因文库,但是表达载体可插人的宏基因片段一般小于10 kb。克隆中宿主菌株的选择主要考虑到转化效率、宏基因的表达、重组载体在宿主细胞中的稳定性以及目标性状的筛选等。目前大肠杆菌是最为常用的宿主,此外,链霉菌和假单胞菌也可以作为构建文库的宿主,不同微生物种类所产生

6.宏基因组文库构建载体的选择?

宏基因组文库构建需要适宜的克隆载体,通常用于DNA克隆的载体主要包括质粒(plasmid)、粘粒(cosmid)和细菌人工染色体(bacterial artificial chromosome,BAC)等,各种DNA克隆载体具体信息如下表。载体选择的原则是有利于目的基因的扩增和表达。选择那种载体,主要取

决于分析目的和宏基因组DNA覆盖样品基因组DNA的程度。BAC和Fosmid是目前构建宏基因组文库常用的载体。

DNA克隆载体

载体结构宿主细胞插入片段长度(kb)质粒(plasmid)环状质粒大肠杆菌E.coli7~10

噬菌体(Bacteriophage) 线状大肠杆菌E.coli17~20

pBAC引入pUCcos融合后构建的载

环状质粒大肠杆菌E.coli35~45

体(Fosmid)

粘粒(cosmid)环状质粒大肠杆菌E.coli35~47

P1克隆系统(P1clones) 环状质粒大肠杆菌E.coli70~100

以大肠杆菌小F因子为基础构建的质

环状质粒大肠杆菌E.coli90~105

粒载体(Mini F-Based plasmid)

细菌人工染色体(BAC)环状质粒大肠杆菌E.coli<350

酵母人工染色体(YAC)线状酵母100~2000

哺乳动物人工染色体(MAC) 线状哺乳类动物细胞<10000

的活性物质有明显差异,不同的研究目标应选择不同的宿主菌株。

7.功能基因(簇)克隆的筛选方法?

根据其研究目的,宏基因组文库筛选通常有功能筛选(functional screening)和序列筛选(sequence based screening)两种方法。

功能筛选法是根据重组克隆产生的新活性进行筛选,可用于检测编码新型酶的全部新基因或者获取新的生物活性物质,该法对全长基因及功能基因的产物具有选择性。其最大的缺点是要依靠宿主菌株的表达,且受检测手段的局限,工作量大,效率低,往往需要分析成千上万个克隆才能获得10多个活性克隆。

序列筛选法是根据已知相关功能基因的保守序列设计探针或PCR引物,通过杂交或PCR 扩增筛选阳性克隆子。用这种方法有可能筛选到某一类结构或功能蛋白质中的新分子。其优点是不必依赖宿主菌株来表达克隆基因,已建立的杂交或PCR扩增技术可用于筛选工作,且基于DNA的操作有可能利用基因芯片技术而大大提高筛选效率。其缺点是必须对相关基因序列有一定的了解,较难发现全新的活性物质,也很难获得全序列。

8.宏基因组学研究中,微生物多样性和丰度分析研究的技术路线?

高通量测序基础知识

高通量测序基础知识简介 陆桂 什么是高通量测序? 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变,一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。 什么是Sanger法测序(一代测序) Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。 什么是基因组重测序(Genome Re-sequencing) 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。随着基因组测序成本的不断降低,人类疾病的致病突变研究由外显子区域扩大到全基因组范围。通过构建不同长度的插入片段文库和短序列、双末端测序相结合的策略进行高通量测序,实现在全基因组水平上检测疾病关联的常见、低频、甚至是罕见的突变位点,以及结构变异等,具有重大的科研和产业价值。 什么是de novo测序 de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。获得一个物种的全基因组序列是加快对此物种了解的重要捷径。随着新一代测序技术的飞速发展,基因组测序所需的成本和时间较传统技术都大大降低,大规模基因组测序渐入佳境,基因组学研究也迎来新的发展契机和革命性突破。利用新一代高通量、高效率测序技术以及强大的生物信息分析能力,可以高效、低成本地测定并分析所有生物的基因组序列。 什么是外显子测序(whole exon sequencing) 外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。

DNA测序结果分析

学习 通常一份测序结果图由红、黑、绿和蓝色测序峰组成,代表不同的碱基序列。测序图的两端(本图原图的后半段被剪切掉了)大约50个碱基的测序图部分通常杂质的干扰较大,无法判读,这是正常现象。这也提醒我们在做引物设计时,要避免将所研究的位点离PCR序列的两端太近(通常要大于50个碱基距离),以免测序后难以分析比对。 我的课题是研究基因多态性的,因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。 实际上,要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。由于临床专业的研究生,这些东西是没人带的,只好自己研究。开始时大概的知道等位基因位点在假如在测序图上出现像套叠的两个峰,就是杂合子位点。实际比对了数千份序列后才知道,情况并非那么简单,下面测序图中标出的两

个套峰均不是杂合子位点,如图并说明如下: 说明:第一组套峰,两峰的轴线并不在同一位置,左侧的T峰是干扰峰;第二组套峰,虽两峰轴线位置相同,但两峰的位置太靠近了,不是杂合子峰,蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成,此处的序列被机器误判为“C”,实际的序列应为“A”,通常一个高大碱基峰的前面1~2个位点很容易产生一个相同碱基的干扰峰,峰的高度大约是高大碱基峰的1/2,离得越近受干扰越大。一个摸索出来的规律是:主峰通常在干扰峰的右侧,干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较;一个位点的多个样本相比较;你得出的该位点的突变率与权威文献或数据库中的突变率相比较。通常,对于一个疑似突变位点来说,即使是国际上权威组织大样本的测序结果中都没有报道的话,那么单纯通过测序结果就判定它是突变点,是并不严谨的,因一份PCR产物中各个碱基的实际含量并不相同,很难避免不产生误差的。对于一个未知

转录组高通量测序

转录组高通量测序 2010-11-22 09:48 (第二代高通量测序技术-454) 转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,是研究细胞表型和功能的一个重要手段。与基因组不同的是,转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的。罗氏GS-FLX-Titanium第二代高通量测序仪平均读长超过 400bp,在测序读长上遥遥领先于其它第二代高通量测序仪,使其成为转录组学研究的首选测序平台,已被广泛应用于基础研究、临床诊断和药物研发等领域。 一、罗氏454测序技术在环境微生物生态多样性研究中的突出优势体现在:(1)测序序列长,便于聚类拼接,可以对转录本进行从头组装(de novo assembly)。 (2)测序通量高,可以检测到低丰度转录本信息。 (3)可以对无基因组参考序列的新物种进行转录组测序,发现新的转录本和亚型。 (4)实验操作简单、结果稳定,可重复性强。无需进行克隆的文库构建,双链cDNA连接454接头后可以直接进行测序,实验周期短。 (5)测序数据便于进行生物信息分析,可以进行基因差异表达分析、鉴定基因的可变剪切以及预测新基因。 二、美吉公司在环境微生物生态多样性研究中的突出优势体现在: (1)拥有自主实验室和高通量测序平台,可以根据客户要求灵活安排实验,实验周期短,取样方便,质量可靠。 (2)技术人员经验丰富,可以稳定地进行总RNA的提取和双链cDNA的合成,可以根据顾客要求第一时间提供实验方案。 (3)有专业的生物信息团队和大型计算机,可以为客户提供个性化的生物信息分析服务。 (4)开放式实验室,参与式服务。客户不但可以参与整个实验过程,而且可以参与生物信息分析,提供最为增值的售后服务。 三、服务流程 (1)客户提供样本背景信息、实验目的和实验预期。 (2)美吉公司设计实验方案,提供测序深度建议和生物信息分析建议。 (3)客户认可实验方案,双方签订项目合作协议。 (4)项目开始运作,美吉公司指定专人和客户保持无障碍沟通。 (5)项目结束,美吉公司提供标准结题报告。 (6)客户可以和美吉公司签订长期合作协议,享受折扣和VIP服务。 四、送样要求 (1)动物、植物、微生物组织: > 请提供足量的新鲜样品,样品量≥5g;植物材料应避免过老的组织,尽量用柔嫩部位。 > 新鲜程度要求:采样后将样品立即液氮速冻-80℃保存(保存期不超过1个月),干冰运输,运输时间不超过72h。 > 样本保存期间切忌反复冻融。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

高通量测序RNA-seq数据的常规分析

案例一 虽然RNA-seq早已被大家所熟知,特别是在高通量测序越来越便宜的今天,但是RNA-seq数据的分析仍令多数小菜抓狂。多个软件的使用,参数设置,参考基因组准备,输出结果的解读等等,都让很多初次接触测序数据或者非生物信息专业的人头疼不已。 哈哈,不用怕,有云生信,这都不是事儿!今天我就向大家简单介绍一下如何用云生信做RNA-seq数据的常规分析。不过在此之前,我要稍稍啰嗦一下RNA-seq的常规分析流程,请不要拍砖头。图1是RNA-seq数据从产生到分析的常规分析流程:根据实验设计,提取细胞RNA,并将RNA提交给测序公司,就可以坐等测序数据了。测序公司会根据客户提供的RNA进行建库,上机测序。拿到测序数据后,就到了我们大显身手的时候了。首先,我们要对测序结果做个简单的质量评估,剔除低质量的数据。然后,根据基因组数据(这里我们讲的是基因组数据已知的物种,基因组未知的有套独立的流程,这里不讲),将测序数据组装。根据组装结果,计算基因或转录本的表达量。最后,同芯片数据一样,我们可以根据表达量数据做很多分析,如差异表达分析,网络分析(包括蛋白互作网络,共表达网络等),也可以结合临床数据做分析(如预后,亚型分类、关联,药效等)。 图1. RNA-seq常规分析流程

叨叨完毕,进入正题。 进入尔云后,打开“测序数据处理”模块,我们会看到图2的结果。在这一模块,我们可以完成RNA-seq数据分析的前两步:1、数据质控和过滤低质量数据;2、基因组组装,计算基因表达量。对于上面两部,尔云又根据是双端测序还是单端测序,分了两块。以edgeR 为例,输出的DEGs.txt就是根据我们设定的参数得到的差异表达基因的列表,有geneSymbol, logCPM, PVlue信息。 图2. 测序数据处理模块 质控结束后,尔云会给出全部的质控结果。图3是以demo数据为例的双端测序的质控结果,好多好多呀,可以下了慢慢看。建议主要关注一下xxx_qc_TABLE,该表格是对质控前后的数据统计,反应了测序的好坏。Clean_xxx.fq是质控后的干净的fastq数据,是第2步组装的输入文件。 图3.质控结果 组装完成后,会返回一个expression.txt的表达矩阵文件,该文件是下一步差异表达分析的输入分析。 得到表达矩阵后,我们就可以进入到第3步差异表达数据分析。进入尔云的“差异分析”模块(如下图所示),它针对芯片和测序两种检测技术提供了不同的分析方案。对于RNA-seq

高通量测序的生物信息学分析

附件三生物信息学分析 一、基础生物信息学分析 1.有效测序序列结果统计 有效测序序列:所有含样品barcode(标签序列)的测序序列。 统计该部分序列的长度分布情况。 注:合同中约定测序序列条数以有效测序序列为准。 图形示例为: 2.优质序列统计 优质序列:有效测序序列中含有特异性扩增引物、不含模糊碱基、长度大于可供分析标准的序列。 统计该部分序列的长度分布情况。 图形示例为:

3.各样本序列数目统计: 统计各个样本所含有效测序序列和优质序列数目。 结果示例为: 4.OTU生成: 根据序列的相似性,将序列归为多个OTU(操作分类单元),以便后续分析。 5.稀释曲线(rarefaction 分析) 根据第4条中获得的OTU数据,做出每个样品的Rarefaction曲线。本合同默认生成OTU相似水平为0.03的rarefaction曲线。 rarefaction曲线结果示例:

6.指数分析 计算各个样品的相关分析指数,包括: ?丰度指数:ace\chao ?多样性指数:shannon\simpson ?本合同默认生成OTU相似水平为0.03的上述指数值。 多样性指数分析结果示例: 注:默认分析以上所列指数,如有特殊需要请说明。 7.Shannon-Wiener曲线 利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,反映各样本在不同测序数量时的微生物多样性。当曲线趋向平坦时,说明测序数据量足够大,可以反映样品中绝大多数的微生物信息。绘制默认水平为:0.03。 例图:

8.Rank_Abuance 曲线 根据各样品的OTU丰度大小排序作丰度分布曲线图。结果文件默认为PDF格式(其它格式请注明)。 例图: 9.Specaccum物种累积曲线(大于10个样品) 物种累积曲线( species accumulation curves) 用于描述随着抽样量的加大物种增加的状况,是理解调查样地物种组成和预测物种丰富度的有效工具,在生物多样性和群落调查中,被广泛用于抽样量充分性的判断以及物种丰富度( species richness) 的估计。因此,通过物种累积曲线不仅可以判断抽样量是否充分,在抽样量充分的前提下,运用物种累积曲线还可以对物种丰富度进行预测。

高通量测序 名词解释

高通量测序基础知识汇总 一代测序技术:即传统的Sanger测序法,Sanger法是根据核苷酸在待定序列模板上的引物点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列核苷酸,每一次序列测定由一套四个单独的反应构成,每个反应含有所有四种脱氧核苷酸三磷酸(dNTP),并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH 基团,使延长的寡聚核苷酸选择性地在G、A、T或C处终止,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,通过检测得到DNA碱基序列。 二代测序技术:next generation sequencing(NGS)又称为高通量测序技术,与传统测序相比,二代测序技术可以一次对几十万到几百万条核酸分子同时进行序列测定,从而使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(Deep sequencing)。NGS主要的平台有Roche(454 & 454+),Illumina(HiSeq 2000/2500、GA IIx、MiSeq),ABI SOLiD等。 基因:Gene,是遗传的物质基础,是DNA或RNA分子上具有遗传信息的特定核苷酸序列。基因通过复制把遗传信息传递给下一代,使后代出现与亲代相似的性状。 DNA:Deoxyribonucleic acid,脱氧核糖核酸,一个脱氧核苷酸分子由三部分组成:含氮碱基、脱氧核糖、磷酸。脱氧核糖核酸通过3',5'-磷酸二酯键按一定的顺序彼此相连构成长链,即DNA链,DNA链上特定的核苷酸序列包含有生物的遗传信息,是绝大部分生物遗传信息的载体。

DNA测序常见问题及分析

DNA测序过程可能遇到的问题及分析 对于一些生物测序公司(如Invitrogen等),我们的菌液或质粒经过PCR和酶切鉴定都没问题,但几天后的测序结果却无法另人满意。 为什么呢? PCR产物直接进行测序,在PCR产物长度以后将无反应信号,机器将产生许多N值。这是由于Taq酶能够在PCR反应的末端非特异性地加上一个A碱基,我们所用的T载体克隆PCR产物就是应用该原理,通常PCR产物结束的位点,PCR产物测序一般末端的一个碱基为A(绿峰),也就是双脱氧核甘酸ddNTP终止反应的位置之前的A,A后的信号会迅速减弱。 N值情况一般是由于有未去除的染料单体造成的干扰峰。该干扰峰和正常序列峰重叠在一起,有时机器377以下的测序仪无法正确判断出为何碱基。有时,在序列的起始端的小片段容易丢失,导致起始区信号过低,机器有时也无法正确判读。在序列的3’端易产生N值。一个测序反应一般可以读出900bp以上的碱基(ABI3730可以达到1200bp),但是,只有一般600bp以前的碱基是可靠的,理想条件下,多至700bp的碱基都是可以用的。一般在650bp以后的序列,由于测序毛细管胶的分辩率问题,会有许多碱基分不开,就会产生N值。测序模板本身含杂合序列,该情况主要发生在PCR产物直接测序,由于PCR产物本身有突变或含等位基因,会造成在某些位置上有重叠峰,产生N值。这种情况很容易判断,那就是整个序列信号都非常好,只有在个别位置有明显的重叠峰,视杂合度不同N值也不同。 测序列是从引物3’末端后第一个碱基开始的,所以就看不到引物序列。有两种方法可以得到引物序列。1.对于较短的PCR产物 (<600bp),可以用另一端的引物进行测序,从另一端测序可以一直测通,可以在序列的末端得到该引物的反向互补序列。对于较长的序列,一个测序反应测不通,就只能将PCR产物片段克隆到载体中,用载体上的通用引物(T7/SP6)进行测序。载体上的通用引物与所插入序列间

高通量测序及分析

高通量测序与功能分析 微生物群落测序是指对微生物群体进行高通量测序,通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定功能的基因。对微生物群落进行测序包括两类,一类是通过16s rDNA,18s rDNA,ITS区域进行扩增测序分析微生物的群体构成和多样性;还有一类是宏基因组测序,是不经过分离培养微生物,而对所有微生物DNA进行测序,从而分析微生物群落构成,基因构成,挖掘有应用价值的基因资源。 以16s rDNA扩增进行测序分析主要用于微生物群落多样性和构成的分析,目前的生物信息学分析也可以基于16s rDNA的测序对微生物群落的基因构成和代谢途径进行预测分析,大大拓展了我们对于环境微生物的微生态认知。 目前我们根据16s的测序数据可以将微生物群落分类到种(species)(一般只能对部分菌进行种的鉴定),甚至对亚种级别进行分析, 几个概念: 16S rDNA(或16S rRNA):16S rRNA基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系,而可变区序列则能体现物种间的差异。16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。 OTU:operational taxonomic units (OTUs)在微生物的免培养分析中经常用到,通过提取样品的总基因组DNA,利用16S rRNA或ITS的通用引物进行PCR 扩增,通过测序以后就可以分析样品中的微生物多样性,那怎么区分这些不同的序列呢,这个时候就需要引入operational taxonomic units,一般情况下,如

测序 基础知识

转录组高通量测序中,reads、contigs、scaffold、unigene、singleton 高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据; 有很多reads通过片段重叠,能够组装成一个更大的片段,称为contig(克隆群); 多个contigs通过片段重叠,组成一个更长的scaffold; 一个contig被组成出来之后,鉴定发现它是编码蛋白质的基因,就叫singleton; 多个contigs组装成scaffold之后,鉴定发现它编码蛋白质的基因,叫unigene。 基因组测序方法: 链中止法测序:通过合成与单链DNA互补的多核甘酸链,由于合成的互补链可在不同位置随机终止反应,产生只差一个核苷酸的DNA分子,从而来读取待测DNA分子的顺序。 化学降解法测序:在待定的核苷酸碱基中引入化学集团,再用化合物处理,使DNA分子在被修饰的位置降解。 自动化测序:与链终止测序原理相同,这姿势用不同的荧光色彩标记ddNTP,如ddA TP 标记红色荧光,ddCTP标记蓝色荧光,ddGTP标记黄色荧光,ddTTP标记绿色荧光。由于每种ddNTP带有各自待定的荧光颜色,二简化为由1个泳道同时判读4种碱基。 非常规DNA测序毛细管电泳、光点测序、DNA芯片测序、随机的组装(鸟枪法)鸟枪法:就有可能出现错装。 鸟枪法策略指导测序策略 不需要背景信息构建克隆群 时间短需要几年时间 需要大型计算机 得到的是草图(Draft)得到的是精细图谱 EST (Expressed sequence tag)测序 EST是一种重要的基因组图分子标记,以EST为探针很容易从cDNA文库中筛选全基因,又可从BAC克隆中找到其基因组的基因序列。 优点:mRNA可直接反转录成cDNA,而且cDNA文库也可比较容易构建。 对cDNA文库大量测序,即可获得大量的EST序列 EST为基因的编码区,不包括内含子和基因间区域,一次测序的结果足以鉴定所代表的基因。 人类基因组计划于1990年启动,我国于1999年加入,承担1%任务,即人类3号染色体短臂上约30MB的测序任务。 2000年6月26完成草图。测序错误率低于1%%。

DNA测序结果分析比对(实例)

DNA测序结果分析比对(实例) 关键词:dna测序结果2013-08-22 11:59来源:互联网点击次数:14423 从测序公司得到的一份DNA测序结果通常包含.seq格式的测序结果序列文本和.ab1格式的测序图两个文件,下面是一份测序结果的实例: CYP3A4-E1-1-1(E1B).ab1 CYP3A4-E1-1-1(E1B).seq .seq文件可以用系统自带的记事本程序打开,.ab1文件需要用专门的软件打开。软件名称:Chromas 软件Chromas下载 .seq文件打开后如下图: .ab1文件打开后如下图: 通常一份测序结果图由红、黑、绿和蓝色测序峰组成,代表不同的碱基序列。测序图的两端(下图原图的后半段被剪切掉了)大约50个碱

基的测序图部分通常杂质的干扰较大,无法判读,这是正常现象。这也提醒我们在做引物设计时,要避免将所研究的位点离PCR序列的两端太近(通常要大于50个碱基距离),以免测序后难以分析比对。 我的课题是研究基因多态性的,因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。 实际上,要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。一般认为等位基因位点假如在测序图上出现像套叠的两个峰,就是杂合子位点。实际比对后才知道,情况并非那么简单,下面测序图中标出的两个套峰均不是杂合子位点,如图并说明如下:

说明: 第一组套峰,两峰的轴线并不在同一位置,左侧的T峰是干扰峰;第二组套峰,虽两峰轴线位置相同,但两峰的位置太靠近了,不是杂合子峰,蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成,此处的序列被机器误判为“C”,实际的序列应为“A”,通常一个高大碱基峰的前面 1~2个位点很容易产生一个相同碱基的干扰峰,峰的高度大约是高大碱基峰的1/2,离得越近受干扰越大。 一个摸索出来的规律是:主峰通常在干扰峰的右侧,干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较;一个位点的多个样本相比较;你得出的该位点的突变率与权威文献或数据库中的突变率相比较。 通常,对于一个疑似突变位点来说,即使是国际上权威组织大样本的测序结果中都没有报道的话,那么单纯通过测序结果就判定它是突变点,是并不严谨的,因一份 PCR产物中各个碱基的实际含量并不相同,很难避免不产生误差的。对于一个未知突变位点的发现,通常还需要用到更精确的酶切技术。 (责任编辑:大汉昆仑王)

高通量测序入门

很高兴成为论坛特邀专家,鄙人会接下来的一段时间内写一些高通量测序数据方面的帖子,由浅入深,可能刚开始会比较简单一些,后面会有一些针对性的专题,也欢迎各位大侠或小菜提出建议或问题大家一起探讨。为了活跃论坛建议大家直接跟帖或发新帖,我会尽快回复大家。 本人方向也仅限在RNA-seq 领域,所以其他领域的问题可能不太了解,只能按照自己的背景知识和请教别人解答,请大家慢拍砖! 另外,由于实验室课题比较忙,所以可能不能及时发帖或回复大家,也请见谅。 既然是入门专题,那就先简单说一下,要分析高通量测序数据的配置要求吧: 声明:该配置不适用与从华大拿回分析结果直接写paper 的同学。我认识的一位同学一点生物信息背景也没有,直接用华大返回分析结果发了很好的文章,如果想这样的同学可直接跳过这篇,等待以后的专题。 言归正传: 1. 软配置: 生物理论知识:熟悉生命活动的基本过程,对复制、转录、翻译、转录后修饰有较清晰的认识,如果知道cis-element 和trans-factor 的区别就更好了。推荐朱玉贤的分子生物学,能够掌握60% 就差不多了(这是对想通过测序数据进行生物分析同学的要求,如果是做软件开发等就无所谓了,比如国内做的很好的一些实验室,都是数学或自动化专业的牛人,以下一些配置也不适用这些牛人) 实验理论知识:不一定要做过实验,但至少要知道实验的过程,比如测序前样本的处理过程,序列片段化、加接头、PCR 扩增等。也许没有用,但将来出了问题,你可以很容易知道问题出在哪里 编程知识:要求不用太高,学一些perl 就可以了,对于生物专业的同学(本人就是生物专业),强烈推荐perl 语言入门,好像现在已经出到第五版了。此书极为搞笑,本人当时看了一个星期,其中幽默的语言导致本人经常笑出声音引得实验室同学以为神经了。对于有C 语言基础的同学来说简直就是菜,两天就可以通了。另外,学有余力的同学可以学一些R 以及python 或java. 因为好多软件都是用R 或python 写的,如果要是比较懒或三国杀很忙抽不出空就算了,学学perl 就好了。切记一点:perl 的学习过程中除了基础知识,一定要看一下哈希和模块这两部分。当然如果你们导师允许你对数据去个冗余也要半个月的话,你只学到循环就可以了。 统计学知识:只要大学上过生物统计也就差不多了(遇到二百五的老师你就比较悲剧了),最基本的知道什么是标准化,正态分布,p value 以及卡方检验或Fisher 精确检验,多重检验,,FDR 这些概念和计算方法也就差不多了。推荐从以下统计软件中择一精通之: SAS(比较变态,硕士期间学了,后来就还给老师了) excel(入手比较容易,好好学学,功能比较全,我学的差) matlab(本人认为最牛的统计软件,有专门的论坛,有兴趣的同学可以google 一下) SPSS(上手比较容易,而且很多汉化的非常好,新手同学比较推荐,但是精通比较

测序相关知识点简单介绍

测序相关知识点简单介绍 1、高通量 高通量,可以简单理解字面意义,即单位时间内的检测能力高,产生的数据多;不同技术平台都具有其高通量技术,如在测序技术中单次运行(run)产出序列数据量大, 就被通称为高通量测序技术,一般来讲第二代测序技术、第三代技术都属于高通量测序技术。(又如蛋白质质谱检测技术便是一种高通量的蛋白质检测技术) 2、测序技术 一代、二代、三代测序技术是人为规定区分的,主要依据是测序方法中对碱基信号识别方法的不同来区分的,识别方法的不同是各代测序方法的本质区别,其必然会延伸出不同的准确率、通量、检测方法、仪器和应用范围等。(碱基是构成DNA的基本元素,DNA由四种碱基按照不同的顺序组成,所谓测序就是指检测出DNA的碱基排列方式,如…CTAGACCGCAGAGGCGCCAT…) 3、第一代测序 第一代测序:是20世纪70年代中期由Fred Sanger及其同事首先发明,其基本原理是,通过电泳能够把长度只差一个核苷酸的单链DNA分子区分开来,再通过读出电泳的谱图来分析DNA序列。最早的一代测序法(Sanger法),完全通过手工(PCR+电泳)来操作的。 主要测序仪产品:ABI3500Dx基因分析仪等。 技术特点:耗时、步骤繁琐、每次只能分析一小片段序列、成本高、金标准主要临床应用:单位点或短序列基因分析,如组织配型、常见遗传病检测主要推广单位:立菲达安

4、第二代测序 第二代测序是相对于第一代测序来说的,检测原理是通过荧光标记四种不同碱基,DNA合成时会释放出不同的荧光,再通过读取荧光信号来识别不同碱基,从而分析出DNA序列。由于识别方法的进步,二代测序并行对几十万到几百万条DNA分子进行序列测定,可以产生大量的序列数据,故有称为高通量测序。(又被称为大规模平行测序) 主要仪器产品:Life的SOLiD、PGM、Proton等测序仪,Illumina的Solexa、Hiseq、Miseq等测序仪,以及罗氏的454测序仪等。 技术特点:操作简便、价格低廉、高通量、准确率高、应用广 主要临床应用:基因组测序(无创、个人基因组等)、序列基因测序(单基因疾病、分子病理测序项目等)、转录组/表达组测序等 主要推广单位:二代测序是目前应用最广也是最常用的测序方法,如华大基因等。 备注:Life的PGM、Proton测序仪识别信号为DNA合成释放的电流,不是对荧光的识别,故又有人称PGM、Proton测序仪为二代半测序仪或“后光学时代测序仪”。(也有部分人把Proton测序仪视为三代测序仪) 5、第三代测序 第三代测序目前还未成熟,不同于第二代测序依赖于DNA模板与固体表面相结合然后边合成边测序,第三代分子测序,不需要进行PCR扩增。目前二代技术主要包括Helico BioScience 单分子测序技术(技术原理:基于边合成边测序的思想,观测模板位点的荧光信号)、Pacific BioscienceSMRTT 技术(技术原理类同前项)和Oxford Nanopore Technologies 的纳米孔单分子测序技术(技术

微生物学考试知识点

1 什么是宇宙生物进化三域说?提出三域说的依据是什么? 宇宙生物进化三域说是由Woese等根据研究16S rRNA分子核酸序列而提出,指生物界的系统发育明显存在着三个发育不同的基因系统,它们是细菌域、古生菌域和真核生物域。 2 什么是原核生物?原核生物与真核生物的主要区别是什么? 原核生物是一类无真正细胞核的单细胞,或类似于细胞的简单组合结构的微生物。 3 什么是化学分类?简述化学分类的主要分析技术及意义。 化学分类指研究微生物细胞不同化学特性,并利用这些特性对生物个体进行分类和鉴定。由于细胞特定化学组分及分子结构的稳定性好,因此化学分类是原核生物系统分类学的主要方法之一。 主要分析技术: 细胞(壁)化学组分分析:主要根据G+细胞壁肽聚糖分子中肽链第3位氨基酸的种类,中间肽桥和邻近的四肽交联位置。在放线菌分类中的应用不仅澄清了原来一些分类单位的错误,而且导致了一系列新的分类单位的发现。 枝菌酸分析:枝菌酸及其他极性脂是细胞膜的重要组分。枝菌酸属于α-烷基-β-羟基高分子脂肪酸,其分子中含碳数目是重要的分类依据。枝菌酸有无和分子特性是诺卡氏菌形放线菌分类必不可少的化学特征。 磷酸类脂分析:具有分类学意义的磷酸类脂有PE、PC、PME、PG、GluNus 这5种。Lechevalier夫妇分析了放线菌48个属的磷酸类脂组成,将好氧放线菌分为5种磷酸类脂类型。 脂肪酸组分分析:脂肪酸链长,双键位置,数量及取代基团在标准化条件下具有分类意义,脂肪酸甲基脂是稳定特征。脂肪酸定性分析结果限于属和属以上的分类,脂肪酸定量分析结果可为种和亚种分类提供有用的基本资料。 醌组分分析:细菌细胞膜上的醌有泛醌(辅酶Q)和甲基萘醌(MK)。常用来分析醌的方法有薄板层析法(TLC)和高压液相法等。研究表明,甲基萘醌分子中的多烯侧链长度和3位碳原子上多烯侧链的氢饱和度对于放线菌具有分类学意义。此外,Yamada等建立了醌在不同菌分类鉴定中的指标,并划分了放线菌的甲基萘醌类型。 全细胞蛋白SDS-PAGE分析:全细胞SDS降解蛋白质片段的聚丙烯酰胺凝胶电泳是一种通过分析蛋白图谱来获取化学分类信息的快速技术,在高效标准化的培养条件下是一种分群和大量比较相近菌株的较好方法,其优点是它与DNA-DNA杂交有很好的相关性,及鉴定在种的水平上的分类区别。 4 什么是分子分类?简述分子分类的主要应用技术及意义。 分子分类是在分子水平上,对生物个体的DNA、RNA和蛋白质进行研究,并根据获得的基因型信息对生物个体进行分类。 目前经常使用的应用技术: DNA碱基组成[(G+C)mol%]分析:一般生物个体的DNA分子中(G+C)/(A+T)两对碱基

高通量测序中常用的生物信息分析名词解释

高通量测序中常用的生物信息分析名词解释 1. 什么是Read? 高通量测序平台产生的序列就称为reads。 (测序读到的碱基序列片段,测序的最小单位;) 2. 什么是Contig? 拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。 (由reads通过对overlap区域拼接组装成的没有gap的序列段;) 3. 什么是Scaffold? 基因组de novo测序(没有参考基因组的测序,需要研究人员从头拼接得到的序列),通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig 之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。 (通过pair ends信息确定出的contig排列,中间有gap) 4. 什么是Contig N50? Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。

基因芯片与高通量测序

基因芯片: 将大量(通常每平方厘米点阵密度高于400 )探针分子固定于支持物上后与标记的样品分子进行杂交,通过检测每个探针分子的杂交信号强度进而获取样品分子的数量和序列信息。通俗地说,就是通过微加工技术,将数以万计、乃至百万计的特定序列的DNA 片段(基因探针),有规律地排列固定于2cm2 的硅片、玻片等支持物上,构成的一个二维DNA探针阵列,与计算机的电子芯片十分相似,所以被称为基因芯片。当溶液中带有荧光标记的核酸序列TATGCAATCTAG,与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列。据此可重组出靶核酸的序列。基因探针是人工合成的碱基序列。,所谓基因探针只是一段人工合成的碱基序列,在探针上连接一些可检测的物质,根据碱基互补的原理,利用基因探针到基因混合物中识别特定基因。它将大量探针分子固定于支持物上,然后与标记的样品进行杂交,通过检测杂交信号的强度及分布来进行分析。基因芯片通过应用平面微细加工技术和超分子自组装技术,把大量分子检测单元集成在一个微小的固体基片表面,可同时对大量的核酸和蛋白质等生物分子实现高效、快速、低成本的检测和分析 基因芯片制作 、芯片制备 目前制备芯片主要以玻璃片或硅片为载体,采用原位合成和微矩阵的方法将寡核苷酸片段或cDNA作为探针按顺序排列在载体上。芯片的制备除了用到微加工工艺外,还需要使用机器人技术。以便能快速、准确地将探针放置到芯片上的指定位置。 2、样品制备 生物样品往往是复杂的生物分子混合体,除少数特殊样品外,一般不能直接与芯片反应,有时样品的量很小。所以,必须将样品进行提取、扩增,获取其中的蛋白质或DNA、RNA,然后用荧光标记,以提高检测的灵敏度和使用者的安全性。 3、杂交反应 杂交反应是荧光标记的样品与芯片上的探针进行的反应产生一系列信息的过程。选择合适的反应条件能使生物分子间反应处于最佳状况中,减少生物分子之间的错配率。 4、信号检测和结果分析 杂交反应后的芯片上各个反应点的荧光位置、荧光强弱经过芯片扫描仪和相关软件可以分析图像,将荧光转换成数据,即可以获得有关生物信息。基因芯片技术发展的最终目标是将从样品制备、杂交反应到信号检测的整个分析过程集成化以获得微型全分析系统(micro total analytical system)或称缩微芯片实验室(laboratory on a chip)。使用缩微芯片实验室,就可以在一个封闭的系统内以很短的时间完成从原始样品到获取所需分析结果的全套操作。

高通量测序(NGS)数据分析中的质控

高通量测序错误总结 一、生信分析部分 1)Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%,错误率为0.1%。同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%,错误率为1%。对于整个数据来说,我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中,背景颜色沿y-轴将坐标图分为3个区:最上面的绿色是碱基质量很好的区,Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区,Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信分析中,比如以检查差异表达为目的的RNA-seq分析,一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中,一般要求碱基质量要在Q30以上。 一般来说,测序质量分数的分布有两个特点: 1.测序质量分数会随着测序循环的进行而降低。 2.有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低。

在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要做剪切(trimming),根据生信分析的目的不同,要将质量低于Q20或者低于Q30的碱基剪切掉。

2)序列的平均质量 这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值,纵坐标代表序列数量。通过序列的平均质量报告,我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说,当绝大部分碱基序列的平均质量值的峰值大于30,可以判断序列质量较好。如这里左边的图,我们可以判断样品里没有显著数量的低质量序列。但如果曲线如右边的图所示,在质量较低的坐标位置出现另外一个或者多个峰,说明测序数据中有一部分序列质量较差,需要过滤掉。

DNA测序结果分析

DNA果套峰分析 Q-12. 测序结果有很多套峰(出现很多N),还照常收费,为什么? 返回顶端 A-12. DNA模板上出现二处以上的引物结合位点,或者DNA模板上有严重的重复序列,以及测序引物不纯时, 测序结果便会出现套峰现象(见图4)。出现这种现象的原因由DNA模板本身或者引物本身所造成,对这些结果(公司保证进行2次以上的测序工作),公司会根据具体情况进行收费(详细见测序结果说明)。 Q-13. 为什么用PCR产物测序时,经常会出现套峰现象? 返回顶端 A-13. PCR产物测序出现套峰现象,一般有以下几种原因: 1)PCR用模板不纯或PCR用引物特异性不好,扩增出的产物除了目的片段外,还有与目的片段长度相近的片段,即使用凝胶电泳也无法分离开,这样的PCR产物测序结果是套峰。 2)结构上的原因,造成了PCR产物测序出现套峰的现象。PolyA/G/C/T以及原因不明的复杂结构的存在,都会出现测序结果套峰的情况。 Q-14. 出现套峰的原因是什么?返回顶端 A-14. 在测序反应中,模板或引物的原因都可能造成套峰的形成,归结其形成原因有以下几点 1)测序引物在模板上有两个结合位点形成套峰 2)模板不纯,如果是质粒或是菌液,原因是非单克隆,如果是PCR,原因为非特异性条带 3)模板序列的特殊结构,如poly结构、发卡结构等 4)引物降解,引物不纯,或引物的特异性不好 Q-15. 测序结果不到800 Bases,还照常收费了,为什么? 返回顶端 A-15. 如在DNA样品中的DNA序列分布匀称,没有复杂结构时,正常的测序反应能保证达到800 Bases以上。但有一些DNA样品立体结构复杂,造成聚合酶延伸反应终止,测序信号突然减弱或消失,或者测序结果出现套峰现象。出现这些现象的原因由DNA模板本身所造成(公司保证进行2次以上的测序工作)。对这些结果,公司会根据具体测序情况,进行收费(详细见测序结果说明)。出现这些情况的原因分析如下: 1) G/C rich、G/C Cluster:这种情况一般表现为测序信号突然减弱或消失(见图1); 2) A、T的连续结构:这种情况一般表现为A、T连续结构后面的测序结果出现套峰(见图2)。根据文献记载,原因在于聚合酶进行聚合反应时,由于A或T的连续,聚合酶难以识别完整的每个A或T,在某个A或T的后面便开始进行A或T连续结构以后序列的聚合反应(打滑现象),造成测序结果紊乱,出现套峰。出现这样的情况,建议反向测序。 一般在多少个A或T的后面能出现这种情况呢? 现在还没有这方面的报道。根据我们的经验,这一情况的出现和A或T的连续结构后面的序列的排列情况有着直接的关系。有时10多个A或T的连续结构后面便出现套峰,但有时60~70个A或T的连续结构后面的序列也一样可以完整地读出来。具体情况还有待考证。 一般来说,PCR片段直接测序时,A或T的连续结构后面的序列测序结果都会出现套峰。原因在于测序时经历了PCR反应及测序反应(测序反应本身也是PCR 反应)二次聚合酶的打滑现象。 3)原因不明的复杂结构,测序结果出现突然信号减弱或消失。从序列上看,DNA碱基排列并无特别异常。估计是DNA整体出现复杂结构,从某一位置开始聚合酶的聚合反应便无法进行(见图3)。 查看大图

相关主题