搜档网
当前位置:搜档网 › 全基因组重测序数据分析详细说明

全基因组重测序数据分析详细说明

全基因组重测序数据分析详细说明
全基因组重测序数据分析详细说明

全基因组重测序数据分析

1. 简介(Introduction)

通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。

实验设计与样本

(1)Case-Control 对照组设计;

(2)家庭成员组设计:父母-子女组(4人、3人组或多人);

初级数据分析

1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。

2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。

3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。

4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。

5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、

缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。

高级数据分析

1.测序短序列匹配(Read Mapping)

(1)屏蔽掉Y染色体上假体染色体区域(pseudo-autosomal region), 将Read与参考序列NCBI36进行匹配(包括所有染色体,未定位的contig,以及线粒体序列mtDNA(将用校正的剑桥参考序列做替代))。采用标准序列匹配处理对原始序列文件进行基因组匹配,将Read与参考基因组进行初始匹配;给出匹配的平均质量得分分布;

(2)碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分,并校准一些显著性误差,包括来自测序循环和双核苷酸结构导致的误差。

(3)测序误差率估计。pseudoautosomal contigs,short repeat regions(包括segmental duplication,simple repeat sequence-通过tandem repeat识别算法识别)将被过滤;

2. SNP Calling 计算(SNP Calling)

我们可以采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析,保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。

统计SNV的等位基因频率在全基因组上的分布

稀有等位基因数目在不同类别的SNV中的比率分布(a);SNV的类别主要考虑:(1)无义(nonsense),(2)化学结构中非同义,(3)所有非同义,(4)保守的非同义,(5)非编码,(6)同义,等类型SNV;另外,针对保守性的讨论,我们将分析非编码区域SNV 的保守型情况及其分布(图a, b)

3. 短插入/缺失探测(Short Insertion /Deletion (Indel)Call)

(1). 计算全基因组的indel变异和基因型检出值的过程

计算过程主要包含3步:(1)潜在的indel的探测;(2)通过局部重匹配计算基因型的似然值;(3)基于LD连锁不平衡的基因型推断和检出识别。Indel在X,Y染色体上没有检出值得出。

(2). Indel 过滤处理

4. 融合基因的发现(Fusion gene Discovery)

选择注释的基因信息来自于当前最新版本的Ensemble Gene数据库,RefSeq数据库和Vega Gene数据库。下面图例给出的是融合基因的形成,即来自不同染色体的各自外显子经过重组形成融合基因的模式图。

5. 结构变异(Structure Variation)

结构变异(Structure Variation-SV)是基因组变异的一类主要来源,主要由大片段序列(一般>1kb)的拷贝数变异(copy number variation, CNV)以及非平衡倒位(unbalance inversion)事件构成。目前主要一些基因组研究探测识别的SV大约有20,000个(DGV数据库)。在某些区域上,甚至SV形成的速率要大于SNP的速率,并与疾病临床表型具有很大关联。我们不仅可以通过测序方式识别公共的SV,也可以识别全新的SV。全新的SV的生成一般在germ line和突变机制方面都具有所报道。然而,当前对SV的精确解析需要更好的算法实现。同时,我们也需要对SV的形成机制要有更重要的认知,尤其是SV否起始于祖先基因组座位的插入或缺失,而不简单的根据等位基因频率或则与参考基因组序列比对判断。SV的功能性也结合群体遗传学和进化生物学结合起来,我们综合的考察SV的形成机制类别。

SV形成机制分析,包括以下几种可能存在的主要机制的识别发现:

(A)同源性介导的直系同源序列区段重组(NAHR);

(B)与DNA双链断裂修复或复制叉停顿修复相关的非同源重组(NHR);

(C)通过扩展和压缩机制形成可变数量的串联重复序列(VNTR);

(D)转座元件插入(一般主要是长/短间隔序列元件LINE/SINE或者伴随TEI相关事件的两者的组合)。

结构变异探测和扩增子(Amplicon)的探测与识别分析:如下图所示

6. 测序深度分析

测序深度分析就是指根据基因组框内覆盖度深度与期望覆盖度深度进行关联,并识别出SV。我们也将采用不同算法识别原始测序数据中的缺失片段(deletion)和重复片段(duplication)。

7. SV探测识别结果的整合与FDR推断(可选步骤)

(1). PCR或者芯片方式验证SV

(2). 计算FDR-错误发现率(配合验证试验由客户指定)

(3) 筛选SV检出结果用于SV的合并和后续分析:我们通过不同方式探测识别SV的目的极大程度的检出SV,并且降低其FDR(<=10%)。通过下属筛选方法决定后续分析所使用到的SV集合。每种SV探测识别算法得到的SV的FDR要求小于10%,并将各自符合条件的SV合并;对于FDR大于10% 的算法计算识别的SV结果,如果有PCR和芯片平台验证数据,同样可以纳入后续SV分析中。最后,针对不同算法得到的SV,整合处理根据breakpoint断点左右重合覆盖度的置信区间来评定;

8. 变异属性分析

(1) neutral coalescent分析

测序数据可以探测到低频率的变异体(MAF<=5%)。根据来自群体遗传学理论(neutral coalescent理论)的期望值可以计算低频度变异的分布。我们用不同等位基因频率下每Mb 变异数目与neutral coalescent 选择下的期望值比值,即每Mb 基因组windows内的theta 观测值,来刻画和反映自然纯化选择与种群(cancer cell-line可以特定的认为是可以区分的种群)增长速率。该分布分别考察SNP(蓝色线),Indel(红色线),具有基因型的大片段缺失(黑色线),以及外显子区域上的SNP(绿色线)在不同等位基因频率区间上的theta 情况(参见下图)。

(2). 全新变异体(novel variant)的等位基因频率和数量分布

分析对象包括全新预测的SNP,indel,large deletion, 以及外显子SNP在每个等位基因频率类别下的数目比率(fraction)(参见下图);全新预测是指预测分析结果与dbSNP(当前版本129)以及deletion数据库dbVar(2010年6月份版本)和已经发表的有关indels 研究的基因组数据经过比较后识别确定的全新的SNP,indel以及deletion。dbSNP包含SNP和indels; dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP 以及其他基因组学研究(JC Ventrer 以及Watson 基因组,炎黄计划亚洲人基因组)结果提供的short indels和large deletion。

(3). 变异体的大小分布以及新颖性分布

计算SNP,Deletion,以及Insertion 大小分布;计算SNP,Deletion,以及Insertion中属于全新预测结果的数目占已有各自参考数据库数目的比例(相对于dbSNP数据库;dbSNP 包含SNP和indels;dbVAR包含有deletion,duplication,以及mobile element insertion。dbRIP以及其他基因组学研究(JC Ventrer 以及Watson 基因组,炎黄计划亚洲人基因组)结果提供的short indels和large deletion)其中,可以给出LINE,Alu的特征位置。

(4). 结构变异SV的断点联结点(BreakPoint Junction)分析

根据SV不同检出结果经过一些列筛选步骤构建所有结构变异SV的断点联结点数据库,保留长度大于等于50bp的SV;分析断点联结点处具有homology或者microhomology的SV;并将同一染色体,起始和终止位置坐标下的不同SV进行去冗余处理。

分析识别SV 的断点联结点(Breakpoint): 将Breakpoint按照可能形成的方式可以分类为以下几类:

(a)非等位基因同源重组型(non-allelic homologous recombination-NAHR);

(b)非同源重组(nonhomologous recombination-NHR),包括nonhomologous end-joining (NHEJ)和fork stalling /template switching(FoSTeS/MMBIR);

(c)可变串联重复(VNTR)

(d)转座插入元件(TEI)。

图C

SV形成偏好性分析

分析SV形成机制与断裂点临近区域序列的关系,包括染色质界标(端粒,中心粒),重组高发热点区域,重复序列以及GC含量,短DNA motif和微同源区域(microhomology region)。

9.突变率估计

针对以家庭成员为单位的测序方案,我们主要探测de novo的突变(DNM);通过采用不同的方法/算法,我们给出每个家庭一份推断的DNM报表;

(1) 根据基因型推断结果,分别对每人每碱基位置上的de novo突变进行综合度量;

(2) 采用贝叶斯方法计算家庭组设计中DNM的后验概率

10. SNP,SNV功能分析与注释

(1). 祖先等位基因的注释

通过将人类(NCBI36),黑猩猩(chimpanzee2.1),猩猩(PPYG2)以及恒河猴(MMUL1)4种基因组进行基因组比对,发现保守的序列区域,计算祖先等位基因;以及duplication/deletion事件的进化分析。

(2). 分析基因结构序列上不同区域的多样性(Diversity)与分歧进化(divergence)

根据基因型分析结果计算基因结构序列上的多样性程度,即杂合度(heterozygosity); 杂合度指标可以说明选择效应的存在以及局部变异的结构分布特征模式。我们将考虑基因5’UTR 上游200bp ,5’UTR ,第一个外显子,第一个内含子,中间外显子,中间内含子,最末外显子和内含子,以及3’UTR及其下游200bp区域左右考察的范围(参见下图a)。分析编码转录本的起始/终止位置临近区域的多样性和进化分歧度(参见下图b)。

(3). 疾病变异体探测

将样本测序中分析得到SV与HGMD疾病变异体数据进行比对,得到交叉记录的错义和无义的SNP;通过将HGMD疾病关联突变与CUI(疾病概念分类标识数据库)比对获得HGMD 中所有SV的疾病表型,并获得HGMD与测序数据分析得到的SV的疾病表型;并通过Fisher 检验和Bonferroni多重假设检验校正计算样本SV所富集的疾病表型。

(4). 拷贝数变异CNV所含基因的功能注释

将CNV是否覆盖区段重复SD区域分类为2大类,每类CNV的所含基因的功能富集情况计算,显著性在横轴表示;各种显著性功能在纵轴表示。

(5). 变异的功能性分析与注释

(a). SNP, Indels以及大的结构变异SV的功能注释;

(b). 对包含翻译起始注释信息的转录本编码区上的SNP分类为:同义SNP,非同义SNP 和无义SNP(引入终止子),干扰终止子的SNP,以及干扰剪接位点的SNP;为了降低假阳性,我们采用严格的筛选方式过滤来自indels的错误;

(c).对错义编码区突变的功能性分析: 通过信息学分析算法评估相对于生殖系变异的体细胞突变对蛋白质的结构和功能的影响效应。

(6). SNV,SNP与miRNA研究之间的关联分析

miRNA是起重要的调控作用的小分子,我们将对miRNA的pri-mRNA,pre-miRNA以及miRNA靶基因序列进行分析,识别潜在的SNP功能位点。据文献研究提供证据表明Human pre-miRNA的二级结构中存在不同位置上的SNP,我们将通过热力学稳定性分析方法评估SNP对pre-miRNA结构的影响;另外,我们也将对miRNA-Target靶基因相互作用位点做分析,评估对SNP对靶基因靶向性的影响。

(7). SNV,SNP与GWAS研究之间的关联分析

分析GWAS研究中得到的易感基因在基因组上不同坐标上的OR值分布情况;将当前已知的GWAS研究成果与SNP进行比较;根据LD连锁不平衡将SNP与易感基因的关系进行深入讨论;直接与间接关联方法可以分别识别与表型相关的SNP,对于不易获得(missing)和定位的SNP,通过LD连锁不平衡推断疾病易感基因突变座位。

(8) 生物学通路(代谢通路,信号通路)分析

生物学通路(Biological pathway),包括代谢通路和信号转导通路是生物功能的重要组成部分,我们将各种形式的突变、变异,包括SNV和SNP,的对应基因放到生物学通路中进行综合分析,考察功能性突变对pathway的影响程度和影响的规律。通过GSEA(配合芯片表达谱数据),KS检验,超几何分布检验等方法对变异基因在某些pathway的富集程度进行排序,识别发生功能改变的潜在通路。

(9). 蛋白质-蛋白质相互作用(PPI)网络分析

蛋白质相互作用也是生物分子功能增益和缺失的重要途径,因此我们针对蛋白质相互作用网络中的突变的蛋白及其收到影响的网络节点蛋白进行系统分析,并对收到影响的网络子结构进行功能注释分析和聚类富分析。我们采用网络分析算法对由于各种突变所受到影响的子网络(subnetwork)进行功能富集度的分析;

(10). 顺式基因调控网络模块(CRM)分析

(a) 启动子序列分析

包括动子区域上的Motif预测,并与已知转录因子数据库TRANSFAC和JASPAR中的TFBS 结合位点进行比对;

启动子区域上保守性分析,分析突变位置和保守性区域的关联;

(b) 计算全基因组保守性。确定TFBS的保守性以及mutation位置的保守性;

(11)重排(arrangements)与突变(mutation)的全基因组统计

(a). 体细胞(somatic)和生殖系(germline)重排(arrangements)

体细胞突变是相对于germ line 突变的一类需要重要分析的内容,我们针对Case-control 设计的测序方案可以分别分析突变的情况,包括SNV,indel,以及CNV;如果仅在tumor/disease(Case组)出现而不在normal(对照组)出现的突变我们可以认为是somatic 体细胞突变。将somatic mutation 与dbSNP数据库比对可以发现潜在的全新的突变和有记录的突变位置。然后,将突变分别比对到基因区域和非基因区域。基因区域具体包括:内含子区,UTR,剪接位点区和外显子区。其中外显子区分别统计:同义(synonymous),缺失(deletion),阅读框移位(frameshift),插入(insertion),错义(missense),无义(nonsense)以及非编码蛋白外显子(non-protein coding exon)等不同类型。综合不同方面分析的结果,

并按照突变分类给出各重排(arrangements)类型:SNV,CNV的数目统计数据表(参见下图)。对每一测序样本分别进行标注,包括体细胞突变和生殖系突变。

(b)全基因组全局重排分布特征分析

主要将(a)染色体间和染色体内部的结构变异,(b)杂合体缺失(LOH)与等位基因不平衡的状况,(c)拷贝数变异(增益或者缺失)以及高可信度的SNV(在1Mb间隔区间统计)等不同情况配合染色体核型在环状图的不同层次上分别的表示出来(参见下图例对应a-d)

(c) 单核苷酸突变趋势与模式分析

分别统计在体细胞和生殖系细胞水平上的transversion的主要形式与各自所占比重(a);如果有表达谱数据,可以分析表达基因与非表达基因所分别具有的突变重排数目或者种类(b);转录起始位点上游区域的体细胞变异,生殖系germline变异以及随机变异的各自数目统计(c)和已知210种的不同肿瘤疾病的突变谱进行比较.

11 自然选择分析

我们通过测序所观测到的体细胞突变可能是经历了复杂的过程所成的。因此,我们在研究这些突变的起源,突变如何受到DNA修复机制的影响,以及在疾病发展与进化过程中突变的规律方面需要做深入的分析。自然选择一般在两个方面发挥作用,即保留有利于疾病发展进化的突变的同时限制其在基因组中重要功能区域发生突变,例如转录调控区域和编码蛋白质的区域。因此,(1)如果实验设计是将primary disease与normal control做比较的话,系统的分析可以解析复杂疾病在形成突变过程中可能的机制和自然选择的因素。(2)如果实验设计是基于病灶及其转移位置或者邻接位置样本作测序,我们可以构建突变进化与转移的模型解析突变的动态模式和基因组中不稳定态变异的模式。

正向选择的判定: 分析SNP,SNV区域的正向选择趋势,在进化和群体遗传水平解释SNV,SNP的功能性;对待control与case 组样本,我们分别采用不同统计算法计算SNP,CNV 在各自样本中的差异,进而从中发现具有正向选择特征的SV。

2_重测序BSA分析项目结题报告

重测序BSA项目结题报告 客户单位:____________________________________ 报告单位:____________ 联系人:____________________________________ 联系电话: ___________________________ 传真:___________________________ 报告日期:____________________________________ 项目负责人:__________ 审核人: __________________ 目录 目录 (1) 1 项目概况 (1) 1.1 合同关键指标 (1)

1.2 项目基本信息 (1) 1.3 项目执行情况 (2) 1.4项目结果概述 (2) 2 项目流程 (3) 2.1 实验流程 (3) 2.2 信息分析流程 (3) 3 生物信息学分析 (5) 3.1 测序数据质控 (5) 3.1.1 原始数据介绍 (5) 3.1.2 碱基测序质量分布 (7) 3.1.3碱基类型分布 (9) 3.1.4 低质量数据过滤 (10) 3.1.5测序数据统计 (10) 3.2 与参考基因组比对统计 (11) 3.2.1 比对结果统计 (11) 3.2.2 插入片段分布统计 (11) 3.2.3 深度分布统计 (12) 3.3 SNP 检测与注释 (14) 331样品与参考基因组间SNP的检测 (14) 332样品之间SNP的检测 (17) 3.3.3 SNP结果注释 (19) 3.4 Small In Del 检测与注释 (22) 3.4.1 样品与参考基因组间Small InDel 的检测 (22) 3.4.2样品之间Small InDel 检测 (22) 343 Small In Del 的注释 (23) 3.5 关联分析 (26) 3.5.1高质量SNP筛选 (26) 3.5.2 SNP-index方法关联结果 (26) 3.5.3 ED方法关联结果 (28)

基因组重测序

基因组重测序 背景介绍 全基因组重测序,是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。与已知序列比对,寻找单核苷酸多态性位点(SNP )、插入缺失位点(InDel ,Insertion/Deletion )、结构变异位点(SV ,Structure Variation )位点及拷贝数变化(CNV) 。 可以寻找到大量基因差异,实现遗传进化分析及重要性状候选基因的预测。涉 及临床医药研究、群体遗传学研究、关联分析、进化分析等众多应用领域。 随着测序成本的大幅度降低以及测序效率的数量级提升, 全基因组重测序已经成为研究人类疾病及动植物分子育种最为快速有效的方法之一。利用illumina Hiseq 2000 平台,将不同插入片段文库和双末端测序相结合,可以高效地挖掘基因序列差异和结构变异等信息, 为客户进行疾病研究、分子育种等提供准确依据。 重测序的两个条件:(1)该物种基因组序列已知;(2)所测序群体之间遗传性差异不大( >99% 相似度 ) 在已经完成的全基因组测序及其基因功能注释的基础上,采用全基因组鸟枪法(WGS )对DNA 插入片段进行双末端测序。 技术路线 生物信息学分析

送样要求 1.样品总量:每次样品制备需要大于5ug 的样品。为保证实验质量及延续性,请一次性提供至少20ug的样品。如需多次制备样品,按照制备次数计算样品总量。 2.样品纯度:OD值260/280应在1.8~2.0 之间;无蛋白质、RNA或肉眼可见杂质污染。 3.样品浓度:不低于50 ng/μL。 4.样品质量:基因组完整、无降解,电泳结果基因组DNA主带应在λ‐Hind III digest 最大条带23 Kb以上且主带清晰,无弥散。 5.样品保存:限选择干粉、酒精、TE buffer或超纯水一种,请在样品信息单中注明。 6.样品运输:样品请置于1.5 ml管中,做好标记,使用封口膜封好;基因组DNA如果用乙醇沉淀,可以常温运输;否则建议使用干冰或冰袋运输,并选择较快的运输方式。 提供结果 根据客户需求,提供不同深度的信息分析结果。

人类基因组重测序分析

6 首页 科技服务 医学检测 科学与技术 市场与支持 加入我们 关于我们提供领先的基因组学解决方案 Providing Advanced Genomic Solutions 诺禾致源 人类疾病基因组重测序分析图3 Circos 图 人类基因组重测序分析6项升级 Novo-Zhonghua Genomes 数据库注释 一些位点的突变可能在千人基因组中或在欧美人群中属于低频突变,但是对于中国人群来说却是常见突变。诺禾致源自建中国人数据库 Novo-Zhonghua Genomes,数据库中的所有样本均来自正常中国人群。已有研究表明,与国际通用的多人种数据库相比,使用单一人种数据库进行疾病研究,可以有效减少假阳性现象。 图2 真核生物基因的结构[6] 复杂疾病变异分类标准 DamLevel Variant Calling Variant Annotation Benign Likely Benign VUS Likely Pathogenic Custom knowledge Clinical Data Pathogenic Family Testing Published + in house data Population frequency Predictions: PolyPhen, SIFT, etc Amino acid conservation Published Disease Information Variant classification Candidate Variants Novo-Zhonghua Genomes 数据库注释 复杂疾病突变位点有害性分类 非编码区(Non-coding region)分析 疾病基因组 CNV/SV 分析 基于基因(Gene-based)的 Burden Analysis (复杂疾病散发样本) 可视化的数据结果展示 基于健康中国人群的千人测序数据,测序深度 > 30× 参考 ACMG 等,推出针对复杂疾病变异位点有害性的分类标准 应用 ENCODE 数据库最新内容,并结合国际通用数据库、自建数 复杂疾病突变位点有害性分类 基于美国医学遗传学会 ACMG[2]与 Duzkale H[3]提出的变异分类标准,诺禾致源疾病基因组信息分析团队推出了一套针对复杂疾病变异位点有害性的分类标准 DamLevel(如下图所示)。DamLevel 将变异位点的有害性分为5个层级:Pathogenic、Likely Pathogenic、VUS(Variant of uncertain significance)、Likely Begnin、Begnin,更好地鉴定个体遗传变异与疾病的相关性。 非编码区(Non-coding region)分析 基因组非编码区变异可以引发多种疾病,包括心脏类疾病、糖尿病、癌症、肥胖症等[4,5],但目前对非编码区突变的筛选和功能描述仍具挑战性。诺禾致源非编码区分析,应用 ENCODE 数据库最新内容对非编码区突变进行注释,通过国际通用数据库和自建的 Novo-Zhonghua Genomes 数据库进行频率筛选以及保守性过滤,精确定位非编码区中低频且保守的突变,筛选到与疾病相关的非编码区突变。 疾病基因组 CNV/SV 分析 CNV/SV 与基因表达、表型、人类疾病发生发展都有着非常密切的关系[7,8],诺禾致源疾病基因组信息分析团队研发了一整套 CNV/SV 筛选方法,包括有害性 CNV/SV 筛选和 de novo CNV/SV 分析(基于成三或成四家系)等。利用 DGV、DECIPHER、CNVD 等数据库对变异检出结果进行标记,从结果中进一步过滤掉良性 CNV/SV,经过一系列筛选后,准确鉴定个体 CNV/SV 遗传变异与疾病的相关性。 图4 CNV 分布图 表1 本次产品升级亮点 图5 Burden 分析结果的热图展示 1 2 3 4 5 Novo-Zhonghua Genomes 数据库注释 Novo-Zhonghua Genomes 数据库是诺禾致源自建针对 中国正常人群的数据库,助 力中国人群基因组信息解析。 复杂疾病突变位点 有害性分类 诺禾致源推出的复杂疾病变 异位点有害性的分类标准 (DamLevel),准确标识复杂 疾病的致病性突变位点。 非编码区 (Non-coding region)分析 应用 ENCODE 数据库最新内 容对非编码区进行注释、筛 选,精确定位非编码区中低 频且保守的突变。 疾病基因组 CNV/SV 分析 完整的有害性 CNV/SV 筛选 和 de novo CNV/SV 分析, 准确鉴定个体 CNV/SV 遗传 变异与疾病的相关性。 基于基因 (Gene-based)的 Burden Analysis 针对复杂疾病的研究,通过 检测疾病状态与基因变异的 相关性,寻找特定疾病(或 性状)的易感基因。 可视化的 数据结果展示 灵活易用的测序数据结果展 示,使大量复杂数据的分析 变得轻松而高效,提高数据 可读性。 ? log 10 ( P ? value ) Mutations of Genes Prioritized by Burden Analysis CIR1 PIGP CTSE PRB2 CYP HDAC1 GRK6 PIGK MYL6B EHD2 0810 246 Mutations 4 3 2 1 基于基因(Gene-based)的 Burden Analysis 关联分析是研究复杂疾病的1个重要方法,其通过检测疾病状态与基因变异的相关性,寻找特定疾病(或性状)的易感基因。通常是在具有不同表型的2组个体(一般为患病者和正常对照者)中,基于遗传位点(或基因、单体型)的频率分布差异,间接反映该遗传位点(或基因)可能与疾病(或性状)存在关联性。 Burden Analysis(Gene-based)基于复杂疾病的 case 和 control 散发样本,通过 Fisher's exact test 以及 SKAT 统计方法分析得到候选基因,针对候选基因可以进行富集分析(KEGG 富集分析和 GO 富集分析)与蛋白网络互作分析。 可视化的结果展示 诺禾致源疾病基因组信息分析团队,会为客户提供不断更新的变异注释、项目特异性分析和灵活易用的“变异-基因-疾病”可视化结果,让科学研究更轻松。 图6 疾病与基因关联性展示图 产品名称升级亮点 引领行 业新 标杆 参考文献 [1] Nagasaki M, Yasuda J, Katsuoka F, et al. Rare variant discovery by deep whole-genome sequencing of 1,070 Japanese individuals.[J]. Nature Communications, 2015, 6. 阅读原文 >> [2] Richards S, Aziz N, Bale S, et al Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology[J]. Genetics in Medicine, 2015. 阅读原文 >> [3] Duzkale H, Shen J, McLaughlin H, et al. A systematic approach to assessing the clinical significance of genetic variants[J]. Clinical genetics, 2013, 84(5): 453-463. 阅读原文 >> [4] Yoshinari M, Akihiko M, Dongquan S, et al. A functional polymorphism in the 5' UTR of GDF5 is associated with susceptibility to osteoarthritis.[J]. Nature Genetics, 2007, 39(4):529-33. 阅读原文 >> [5] Kjong-Van L, Ting C. Exploring functional variant discovery in non-coding regions with SInBaD.[J]. Nucleic Acids Research, 2012, 41 (1):e7-e7. 阅读原文 >> [6] https://https://www.sodocs.net/doc/ef12085301.html,/wiki/Regulatory_sequence 阅读原文 >> [7] Sudmant P H, Rausch T, Gardner E J, et al. An integrated map of structural variation in 2,504 human genomes.[J]. Nature, 2015, 526 (7571):75-81. 阅读原文 >> [8] Birney E, Soranzo N. Human genomics: The end of the start for population sequencing.[J]. Nature, 2015, 526(7571):52-3. 阅读原文 >> 免费升级7-9月 新签合同 免费升级数据分析

高通量测序NGS数据分析中的质控

高通量测序错误总结 一、生信分析部分 1)Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标,质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%,错误率为0.1%。同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%,错误率为1%。对于整个数据来说,我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中,背景颜色沿y-轴将坐标图分为3个区:最上面的绿色是碱基质量很好的区,Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区,Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信分析中,比如以检查差异表达为目的的RNA-seq分析,一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中,一般要求碱基质量要在Q30以上。 一般来说,测序质量分数的分布有两个特点: 1.测序质量分数会随着测序循环的进行而降低。 2.有时每条序列前几个碱基的位置测序错误率较高,质量值相对较低。 在图中这个例子里,左边的数据碱基质量很好,而右边的数据碱基质量就比较差,需要做剪切(trimming),根据生信分析的目的不同,要将质量低于Q20或者低于Q30的碱基剪切掉。 2)序列的平均质量 这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值,纵坐标代表序列数量。通过序列的平均质量报告,我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说,当绝大部分碱基序列的平均质量值的峰值大于30,可以判断序列质量较好。如这里左边的图,我们可以判断样品里没有显着数量的低质量序列。但如果曲线如右边的图所示,在质量较低的坐标位置出现另外一个或者多个峰,说明测序数据中有一部分序列质量较差,需要过滤掉。 3)GC含量分布 这个是GC含量分布报告图。GC含量分布检查是检测每一条序列的GC含量。将样品序列的GC 含量和理论的GC含量分布图进行比较,用来检测样品数据是否有污染等问题。理论上,GC含量大致是正态分布,正态分布曲线的峰值对应基因组的GC含量。如果样品的GC含量分布图不是正态分布,如右图出现两个或者多个峰值,表明测序数据里可能有其他来源的DNA序列污染,或者有接头序列的二聚体污染。这种情况下,需要进一步确认这些污染序列的来源,然后将污染清除。 4)序列碱基含量

全基因组重测序数据分析

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变,结构变异-SNV,包括重排 突变(deletioin, duplication 以及copy number variation)以及SNP的座位;针对重排突变和SNP的功能性进行综合分析;我们将分析基因功能(包括miRNA),重组率(Recombination)情况,杂合性缺失(LOH)以及进化选择与mutation之间的关系;以及这些关系将怎样使 得在disease(cancer)genome中的mutation产生对应的易感机制和功能。我们将在基因组 学以及比较基因组学,群体遗传学综合层面上深入探索疾病基因组和癌症基因组。 实验设计与样本 (1)Case-Control 对照组设计; (2)家庭成员组设计:父母-子女组(4人、3人组或多人); 初级数据分析 1.数据量产出:总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计,测序深度分析。 2.一致性序列组装:与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。3.SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基 因组信息对检测到的变异进行注释。 4.InDel检测及在基因组的分布: 在进行mapping的过程中,进行容gap的比对并检测可信的short InDel。在检测过程中,gap的长度为1~5个碱基。对于每个InDel的检测,至少需 要3个Paired-End序列的支持。 5.Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。

高通量基因组测序中 测序深度,覆盖度

高通量基因组测序中,什么是测序深度和覆盖度? 1G=1024M 测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。(测序深度=总数据量20M/基因组大小2M=10X) 覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。 1、全基因组重测序是对已知基因组序列的物种进行不同个体的基因 序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV, 技术路线 提取基因组DNA,利用Covaris进行随机打断,电泳回收所需长度的DNA片段(0.2~5Kb),加上接头, 进行cluster制备(Solexa)或E-PCR (SOLiD),最后利用Paired-End(Solexa)或者Mate-Pair(SOLiD)的方法对插入片段进行重测序。图1-1,以SOLiD为例,说明整个实验方案。

也称目标外显子组捕获,是指利用序列捕获技术将全基因组外显子区域DNA 捕捉并富集后进行高通量测序的基因组分析方法。是一种选择基因组的编码序列的高效策略,外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel 等具有较大的优势。 外显子(expressed region)是真核生物基因的一部分,它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列,又称表达序列。既存在于最初的转录产物中,也存在于成熟的RNA分子中的核苷酸序列。在人类基因中大约有180,000外显子,占人类基因组的1%,约30MB。

群体进化-基于全基因组重测序

DNA样品总量: ≥3 μg 适用范围 样品要求 文库类型测序策略与深度 分析内容项目周期 群体进化(基于全基因组重测序) 标准分析时间为120天,个性化分析需根据项目实际情况进行评估 HiSeq PE150推荐测序深度≥5X/个体350 bp小片段DNA文库 1. 已有参考基因组序列的物种中不同亚群(自然群体) 2. 各亚群间划分明显,同一亚群内的个体有一定代表性 3. 每个亚群选取10个样本左右(推荐动物≥10个,植物≥15个) 4. 总体不少于30个样本与参考基因组比对群体SNP检测、注释及统计系统进化树构建群体遗传结构分析 群体主成分分析连锁不平衡分析选择消除分析候选基因GO和KEGG富集构建单体型图谱种群历史和有效群体大小 技术参数 针对已有参考基因组的物种,对其各亚种进行全基因组重测序获得基因组信息,通过与参考基因组比对,得到大量高准确性的SNP、InDel、SV等变异信息,讨论群体的遗传结构、遗传平衡和影响遗传平衡的因素,从而从分子层面揭示该物种的进化机制、环境适应性等系列问题。该技术能精准地得到全基因组内所有遗传信息,最大程度地挖掘出群体内遗传变异。诺禾具有丰富的群体遗传学项目经验,研究成果发表于Nature Genetics(Li, M, et al. 2013& Zhou, XM, et al. 2014)等。参考文献 [1] Li M, Tian S, Jin L, et al . Genomic analyses identify distinct patterns of selection in domesticated pigs and Tibetan wild boars [J]. Nature genetics, 2013, 45(12): 1431-1438. [2] Zhan S, Zhang W, Niitepo ~ld K, et al . The genetics of monarch butterfly migration and warning colouration [J]. Nature, 2014.案例解析 [案例一] 家猪和藏猪的群体进化分析[1] 2013年,诺禾致源科技服务团队与四川农业大学研究者合作发表 该成果。本研究对6个代表性藏猪群体、5个四川盆地特有猪种, 共48个样本进行全基因组重测序,并结合55个欧亚野猪及家猪的 基因组数据进行群体遗传学分析。在藏猪中鉴定出低氧适应、能 量代谢等共268个适应高原环境的快速进化基因,揭示了藏猪高 原适应性的遗传机制。与自然选择相比,人工选择可更有效地塑 造驯养动物基因组;欧亚猪种存在明显的遗传背景差异,欧亚地 理隔离造成的遗传结构差异甚至超过了野生和驯化的差异。[案例二] 帝王蝶长距离迁飞遗传机制被解密[2] 北美地区的帝王蝶具有迁飞习性,而分布于热带地区的帝王蝶及 其近缘种不具有迁飞特性。该研究从涵盖当今世界上主要的帝王 蝶分布区域中,选取了包括迁飞型和非迁飞型的22个地理种群、 5个近缘种的101只班蝶属蝴蝶进行了全基因组重测序和群体遗传 学分析。结果表明,现存的帝王蝶起源于北美地区,且祖先属于 迁飞型,打破了先前认为包括鸟类等在内的迁飞物种均是热带起 源的普遍认知。其次,利用群体遗传学分析对全基因组进行精细 扫描发现,与飞行相关的肌肉发育进化是帝王蝶实现长距离迁飞 的主要适应性选择。 图1 藏猪及其它猪种的群体遗传结构 图2 帝王蝶样本分布及系统进化树

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

重测序分析简介

重测序参考手册

目录 目录 (1) 1. 重测序简介 (3) 2. 重测序实验方法 (3) 基因组DNA抽提 (3) 基因组DNA样品建库 (3) 上机前定量 (4) 3. 重测序分析内容 (4) 重测序分析流程 (5) 重测序分析内容 (5) 4. 重测序重要技术参数 (6) 5. 重测序分析内容解释 (6) 6. 重测序分析内容示例 (6) SNP、INDEL的样本差异分析 (12) 7. 成功分析案例/或已发表论文 (14) 8. 概念及常用工具链接 (14)

1. 重测序简介 全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV,Structure Variation)位点。众信可以协助客户,通过生物信息手段,分析不同个体基因组间的结构差异,同时完成注释。 2. 重测序实验方法 提取基因组DNA,利用Covaris进行随机打断,电泳回收所需长度的DNA片段(0.2~5Kb),加上接头, 进行cluster制备(Solexa)或E-PCR (SOLiD),最后利用Paired-End或者Mate-Pair的方法对插入片段进行重测序。 实验步骤主要包括以下几点: 基因组DNA抽提 不同生物(植物、动物、微生物)的基因组DNA的提取方法有所不同; 不同种类或同一种类的不同组织因其细胞结构及所含的成分不同,分离方法也有差异。在提取某种特殊组织的DNA时必须参照文献和经验建立相应的提取方法, 以获得可用的DNA大分子。尤其是组织中的多糖和酶类物质对随后的酶切、PCR反应等有较强的抑制作用,因此用富含这类物质的材料提取基因组DNA时, 应考虑除去多糖和酚类物质。 基因组DNA样品建库 这是样品准备过程中最主要的环节,也就是真正意义上的建库(通常我们所说的建库包括整个样品准备的过程)。 样品片段化(Covaris) Covaris利用超声波剪切DNA,并将传统超声波法可控制化、精确化。DNA可以在小体积中被剪切,减少了因为蒸发带来的样品损耗,并且被剪切的DNA片段大小之间的偏差较小。Covaris剪切的片段大小较小,并且片段大小范围较传统超声波法窄。选择合适的打断参数条件,使最后打断的DNA片段大小集中在300-500bp范围内。 末端修复 使用Covaris剪切的DNA片段都会形成一些杂合的末端,其中包括了3’ 端悬垂结构、

基于全基因组重测序获得的具LRR结构域基因的抗黄瓜白粉病功能鉴定

基于全基因组重测序获得的具LRR结构域基因的抗黄瓜白粉病 功能鉴定 黄瓜白粉病是黄瓜(CucumissativusL.)生产上的三大主要病害之一,发病时不但降低植株的光合效能,同时影响植株产量和果实品质,发病严重时常常引起30%左右的减产。黄瓜抗白粉病新品种选育及应用是克服白粉病危害的根本技术途径。 基于基因组测序技术和生物信息学的方法探究抗病基因已成为可能。本研究利用高通量Illumina测序技术,对实验室多年筛选获得的一个具有高抗白粉病且能稳定遗传的片段代换系SSL508-28和高感白粉病受体亲本D8进行了全基因组重测序,对比黄瓜9930参考基因组信息,在SSL508-28中发现了 468,616 个单核苷酸多态性位点(single nucleotide polymorphisms,SNPs)和 67,259小片段插入缺失位点(insertion/deletion,InDel),在D8 中获得了 537,352 个 SNPs 和 91,698个InDels。 通过对比SSL508-28与D8基因组,共得到了 15,682个SNPs和6,262个InDels,这些SNPs和InDels趋向于集中分布在五号染色体上。基于以上结果,我们对获得的SNPs和InDels进行了功能注释,发现有120个SNPs为非同义(non-synonymous)突变,30个InDels为移码突变(frameshift mutation),这些非同义突变SNPs和移码突变InDels分布在94个基因当中。 为了进一步验证94个突变基因对SSL508-28抗白粉病表型的贡献,我们对这94个基因进行了功能分类,其中有5个基因属于抗病(resistance,R)基因家族中NBS-LRR(Nucleotide binding site-leucine-rich repeats)类,利用 qRT-PCR 对这 5 个NBS-LRR基因在D8和SSL508-28中接种白粉菌前后的表达量进行检测,

深度测序数据分析部分

1基因数据库的建立 1.1建立病原体数据库 肺炎的发生是有很多原因所致。病因可分为以下几类:①细菌性肺炎,可分为肺炎链球菌肺炎、金黄色葡萄球菌、甲型溶血性莲球菌、肺炎克雷白杆菌、流感嗜血杆菌、铜绿假单胞菌肺炎等。②非典型病原体所致肺炎,如军团菌、支原体和衣原体等。③病毒性肺炎,如冠状病毒、腺病毒、呼吸道合胞病毒、流感病毒、麻疹病毒、巨细胞病毒、单纯疱疹病毒等。④真菌性肺炎,如白色念珠菌、曲霉、放线菌等。⑤其他病原体所致肺炎,如立克次体(如Q热立克次体)、弓形虫(如鼠弓形虫)、原虫(如卡氏肺囊虫)、寄生虫(如肺包虫、肺吸虫、肺血吸虫)等。⑥理化因系所致的肺炎如放射性损伤引起的放射性肺炎,胃酸吸入引起的化学性肺炎,对吸入或内源性脂类物质产生炎症反应的类脂性肺炎等。 凡是能引起肝脏损害、出现肝功能异常的肝脏炎症性疾病,称之为肝炎。它是一类严重危害人体健康的疾病。我们常说的肝炎,主要是指病毒性肝炎。据近几年科学研究,因其致病病原体的不同而有甲型肝炎、乙型肝炎、丙型肝炎、丁型肝炎、戊型肝炎、己型肝炎、庚型肝炎等。另外,因大量、长期饮酒引起的肝炎,叫做酒精性肝炎;对肝脏有损害的药物引起的叫做药物性肝炎;还有由于机体免疫功能紊乱引起的叫做自身免疫反应性肝炎。 本项目不考虑由理化原因引起的肺炎和肝炎疾病,因此,只需建立目前已知的所有肺炎和肝炎致病基因的数据库。 1.2建立人体常见的微生物基因组数据库 人体有四个大的细菌储存库,即皮肤、口腔、结肠、泌尿生殖道。种类繁多,多与人类能和平共处,少数是条件致病菌。论个难以数计,论重量,据估计每个活的个体可达3-4公斤。 人类体表和肠道是无数微生物的居所。Elizabeth Costello及其同僚对多达27个身体部位的微生物进行了调查,其中包括肠道、口腔、耳朵、鼻子以及多达18个区域的皮肤表面。研究人员还发现,某些皮肤部位,如食指或膝盖的背侧常常比肠道或口腔能容留更为多元的微生物。他们的数据所强调的事实是,我们身体的个体化的微生物随着时间的推移仍然保持着相对的稳定,而且它们展现了在我们身体各个位置生长的可预测的模式。 人体微生物基因组计划又称第二人类基因组计划,已由美国国立卫生研究院资助,于2007年开始启动。研究人体微生物对于疾病的预防和治疗有重大意义。 1.3人体全基因组数据库 人类基因组计划于20世纪80年代提出的,由国际合作组织包括有美、英、日、中、德、法等国参加进行了人体基因作图,测定人体23对染色体由3×109

全基因组重测序解决方案

全基因组重测序解决方案 ※ 概述 全基因组重测序是对已有参考序列(Reference Sequence)的物种的不同个体进行基因组测序,并以此 为基础进行个体或群体水平的差异性分析。通过全基因组重测序,研究者可以找到大量的单核苷酸多态性位点(SNP)、拷贝数变异(Copy Number Variation,CNV)、插入缺失(InDel,Insertion/Deletion)、结构变异(Structure Variation,SV)等变异位点。这在人类疾病及动植物育种研究等方面具有重大的指导意义。基 于此,我们推出重测序的完整解决方案,协助您一起探索生物奥秘。 ※ 实验技术流程 ※ 生物信息分析策略

1、数据量产出分析 总碱基数量、Totally mapped reads、Uniquely mapped reads统计,测序深度分析。 2、一致性序列组装 与参考基因组序列(Reference genome sequence)的比对分析,利用贝叶斯统计模型检测出每个碱基 位点的最大可能性基因型,并组装出该个体基因组的一致序列。 3、SNV检测及在基因组中的分布 提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到 可信度高的SNV数据集。并根据参考基因组序列对检测到的变异进行注释。 4、InDel检测及在基因组的分布 在进行mapping的过程中,进行容Gap的比对并检测可信的Short InDel。在检测过程中,Gap的长度为 1~5个碱基。 5、Structure Variation检测及在基因组中的分布 检测主要的结构变异类型有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比 对分析结果,检测全基因组水平的结构变异并对检测到的变异进行注释。 ※ 参考文献 1、Erin D, et al., A small-cell lung cancer genome with complex signatures of tobacco exposure. Nature, 2010, 463:184-190. 2、Carl-Johan Rubin, et al. Whole-genome resequencing reveals loci under selection during chicken domestication. Nature, 2010, 464:587-597. 3、Qingyou Xia,et al. Complete resequencing of 40 genomes reveals domestication events and genes in silkworm (Bombyx). Science, 2009, 326:433-436.

重测序-全基因组选择(GS)

首页 科技服务 测序指南 基因课堂 市场活动与进展 文章成果 关于我们 全基因组选择1. Meuwissen T H, Hayes B J, Goddard M E.Prediction of total genetic value using genome-wide dense marker maps[J]. Genetics, 2001, 157(4): 1819 1829. 阅读原文>> 2. Haberland A M, Pimentel E C G, Ytournel F, et al. Interplay between heritability, genetic correlation and economic weighting in a selection index with and without genomic information[J]. Journal of Animal Breeding and Genetics, 2013, 130(6): 456-467. 阅读原文>> 3. Wu X, Lund M S, Sun D, et al. Impact of relationships between test and training animals and among training animals on reliability of genomic prediction[J]. Journal of Animal Breeding and Genetics, 2015, 132(5): 366-375. 阅读原文>> 4. Goddard M E ,Hayes BJ. Genomic selection [J]. Journal of Animal Breeding and Genetics,2007,124:323:330. 阅读原文>> 5. Heffner E L, Sorrells M E, Jannink J L. Genomic selection for crop improvement [J]. Crop Science, 2009, 49(1): 1-12. 阅读原文>> 参考文献 全基因组选择简介 Meuwissen等[1]在2001年首次提出了基因组选择理论(Genomic selection , GS),即利用具有表型和基因型的个体来预测只具有基因型不具有表型值动植物的基因组育种值(GEBV)。 例如,提高奶牛的产奶量一直是奶牛研究者的研究重点,传统育种的方法需要牛生长至成年后,才能进行产奶量的测定,再进行后续的育种进程。如果在犊牛刚出生时就可以通过某种技术预测出其产奶量,就可以大大的减少育种时间,节省大量的育种成本。 全基因组选择(GS)利用覆盖全基因组的高密度分子遗传标记进行标记辅助选择,可以在奶牛的幼年时期就预测出其生产性状和营养性状,快速筛选出具有优良性状的奶牛或者种公牛,加速育种的进程。 全基因组选择技术参数 提供领先的基因组学解决方案 Leading Edge Genomic Services & Solutions 动植物重测序变异检测BSA性状定位遗传图谱群体进化全基因组关联分析Hi-C测序 人类基因组测序全基因组测序外显子测序目标区域测序单细胞基因组测序 动植物基因组测序全基因组survey 全基因组 de novo 测序泛基因组测序组装变异检测 微生物基因组测序16S/18S/ITS等扩增子测序细菌基因组 de novo 测序真菌基因组 de novo 测序微生物重测序宏基因组测序 建库测序建库测序 诺禾致源微信文章精彩阅读 >> 版权所有:北京诺禾致源科技股份有限公司 转录调控测序 真核有参转录组测序医学转录组测序真核无参转录组测序比较转录组与泛转录组测序原核转录组测序宏转录组测序单细胞转录组测序LncRNA测序circRNA测序small RNA测序ChiP-seq RIP-seq 全基因组甲基化测序 GS 重测序新产品发布 群体大小 参考群体的选择十分重要,表型信息及固定效应信息记录需要准确完整。此外,选择出 的参考群体要满足内部亲缘关系比较远,数量达到1000个以上[2]。候选群体最好与参考群体的亲缘关系较近,这样可以保证育种值预测的准确性[3]。 测序策略 测序深度:平均每个样本≥10×;测序平台:Illumina HiSeq PE150测序; 全基因组选择技术优势 全基因组选择与传统的分子标记辅助选择相比,具有很多优势[5]: 能够在得到物种个体DNA的时候即对其进行育种值评估,可以缩短世代间隔,加快遗传进展并且降低经济投入。 全基因组范围内的标记能够解释尽可能多的遗传变异,可以对遗传效应进行较为准确的检测和估计。 能够较准确的评估遗传力较低、难测定的性状或测定费用较高的性状。 通过基因组选择的方式,即使单个标记的效应很微小,导致遗传变异的所有遗传效应也都能够被SNP标记捕获, 所以比传统的基于系谱和表型数据的最佳线性无偏模型得到更高的可靠性。 a b c d

新手如何开始基因组测序数据分析

新手如何开始基因组测序数据分析? 摘要:基因组测序技术在短短5年时间里,从一种令人仰望的高端技术变成了实验室里的常规操作,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题——从那儿开始?以下的这些测序专家会从这一最常见的新手问题开始,一一帮助我们解答疑惑。 生物通报道:作为生命科学领域的“圈内人”,如果你还不知晓近期基因组测序的飞速发展,那你就实在太out了。。。这项技术在短短5年时间里,从一种令人仰望的高端技术变成了实验室里的常规操作,仅仅就去年一年时间,这项技术就应用到了千人基因组计划、人类微生物计划这两项重要的研究项目中,识别了大量孟德尔遗传疾病相关的基因,比如朱伯特综合症(Joubert Syndrome),米勒费雪综合症(Miller Syndrome),还破解了苹果,虱子,以及前段时间侵袭海地的霍乱弧菌的基因组,实力确实不可小窥。然而由于这一领域的发展速度飞快,因此一些新接触的实验人员可能会感到茫然无措:虽然这些研究人员都具有实体测序实验操作经验,但是如何处理获得的庞大数据是一个巨大挑战。幸运的是,目前已经有了一些免费的,或者说是低成本的多元化工具,以及活跃的用户群,可以帮助我们解决其中的一些问题,包括大部分新手都会提的一个问题——从那儿开始?以下的这些测序专家会从这一最常见的新手问题开始,一一帮助我们解答疑惑。 需要什么IT基础设备? 简而言之:视情况而定。测序数据集信息量都很大,但不是所有的数据集都一样,比如说,全人类基因组测序项目包括原始测序数据,比对数据,变异检出数据等,每个样品都能达到上百GB,而像ChIP-Seq数据集(例如染色体免疫共沉淀实验数据)就小得多

相关主题