搜档网
当前位置:搜档网 › 生物信息学作业

生物信息学作业

生物信息学作业
生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析

姓名:

学号:

专业:

1前言

细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2),又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase),其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp,这部分中有7个外显子和6个内含子,7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。在翻译过程中,该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译,属于调控序列。mRNA上只有中间的部分编码蛋白质。

CDK2基因可以转录为两种mRNA。其中,变体1长度为2325bp,编码298个氨基酸;变体2长度为2223bp,编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白,功能相同,具有调控细胞分裂的功能,主要在G1期到S期和S期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中,但只在进行分裂的细胞中行使功能,这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A、B1、B3、E等结合后,参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症,故CDK2基因可以被看作癌基因,其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控,还能与类Rb蛋白p107或转录因子E2F结合,促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。

在CDK2分子中,被称为T环的氨基酸环阻断了活性部位,妨碍激酶履行它的酶功能,而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时,周期蛋白将T环转出2nm以上,又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关,还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下,与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化,但此时复合体还没有活性,只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后,复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节,此外还存在对其活性起负性调控的蛋白质,即CDK激酶抑制物,例如p21CIP/WAF1、p27KIP2等。

前面提到,CDK2基因转录的产物有两种。这两种mRNA的不同之处在于变体1由全部7个外显子组成,而变体2缺失外显子5,由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。

2 材料和方法:

2.1序列数据来源

采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索,CDK2蛋白的记录有1013个。而采用基因名称对NCBI非冗余核酸数据库进行检索,CDK2蛋白的记录有680个。

采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。

2.2序列分析方法

2.2.1 序列比对方法

将以上序列数据以fasta格式作成一个文件后,用ClustalX2进行全序列自动比对。比对过程中采取自动比对和手动比对相结合,输出格式为Clustal格式(.aln)。

2.2.2分子系统发育分析方法

用MEGA4.0(Molecular Evolutionary Genetics Analysis 4.0)进行系统发育分析。采用MEGA4.0的邻接法(Neighbor-joining method, NJ)和最大简约法(Maximum parsimony method, MP)建树。NJ方法中采用Poission校正的氨基酸取代模型,在MP方法中采用CNI的方法搜索最简约树。在两种方法中对空位的处理都采取全部删除(Complete deletion)策略,同时采用自举检验(bootstrap test,重抽样500次)估计系统树中结点的置信值(BCL值)。

2.2.3蛋白质家族和基序与结构域分析方法

所研究蛋白质在PFAM、PROSITE等蛋白质二次数据库中的分类情况

2.2.4蛋白质三级结构与结构分类分析

所研究蛋白质在蛋白质结构数据库中的分类情况

3 结果

3.1 序列的查询情况

CDK2在HomoloGene数据库中只有1条记录,即:HomoloGene:74409. Gene conserved in Eukaryota,其中有18个物种的19条蛋白质序列。

3.2 序列的比对情况

从19条蛋白质序列的比对结果可以看出,这些序列的高度同源区较多,大致可分为7个区域。这些区域的序列有较高的保守性,是蛋白质的功能区。个别序列有十几到几十个长度不等的插入序列,这可能与蛋白质的外显子剪接或编码基因的突变有关,这一区域在功能上的作用较小。

以蛋白质的起始氨基酸为例,19条序列的起始氨基酸均为甲硫氨酸,但比对的结果却是有5条序列的的前几个氨基酸被认为是插入的。这可能的原因是如果认为19条序列的起始氨基酸均为甲硫氨酸,则其中有5个因为会给比对体系带来过多的空位,从而降低了整个体系的评分。

3.3 序列之间的遗传距离

Description

Data Type : Amino acid Analysis : Pairwise distance calculation ->Compute : Distances only Include Sites : ->Gaps/Missing Data : Complete Deletion

Substitution Model : ->Model : Amino: Poisson correction ->Substitutions to Include : All ->Pattern among Lineages : Same (Homogeneous) ->Rates among sites : Uniform rates

No. of Sites : 284 d : Estimate

[1] Homo_sapiens [2] Pan_troglodytes [3] Canis_familiaris [4] Bos_taurus [5] Mus_musculus [6] Rattus_norvegicus [7] Danio_rerio [8] Drosophila_melanogaster [9] Anopheles_gambiae [10] Schizosaccharomyces_pombe[11] Saccharomyces_cerevisiae [12] Kluyveromyces_lactis [13] Ashbya_gossypii [14] Magnaporthe_grisea[15] Neurospora_crassa [16] Arabidopsis_thaliana [17]Oryza_sativa_1 [18]Oryza_sativa_2 [19] Plasmodium_falciparum

[ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18]

[ 1]

[ 2] 0.000

[ 3] 0.011 0.011

[ 4] 0.014 0.014 0.011

[ 5] 0.011 0.011 0.007 0.004

[ 6] 0.011 0.011 0.007 0.004 0.000

[ 7] 0.100 0.100 0.088 0.092 0.092 0.092

[ 8] 0.423 0.423 0.434 0.434 0.434 0.434 0.439

[ 9] 0.507 0.507 0.501 0.507 0.501 0.501 0.496 0.429

[10] 0.391 0.391 0.402 0.402 0.397 0.397 0.413 0.519 0.606

[11] 0.456 0.456 0.456 0.450 0.456 0.456 0.450 0.568 0.568 0.413

[12] 0.484 0.484 0.484 0.478 0.484 0.484 0.478 0.549 0.580 0.407 0.124

[13] 0.462 0.462 0.462 0.462 0.462 0.462 0.450 0.561 0.586 0.407 0.136 0.088

[14] 0.391 0.391 0.402 0.402 0.397 0.397 0.423 0.531 0.586 0.351 0.331 0.321 0.297

[15] 0.381 0.381 0.386 0.381 0.386 0.386 0.407 0.519 0.580 0.361 0.316 0.326 0.316 0.104

[16] 0.366 0.366 0.366 0.366 0.366 0.366 0.356 0.525 0.531 0.445 0.467 0.473 0.467 0.423 0.402

[17] 0.361 0.361 0.361 0.371 0.371 0.371 0.366 0.543 0.549 0.434 0.456 0.467 0.445 0.381 0.381 0.173

[18] 0.407 0.407 0.402 0.397 0.397 0.397 0.402 0.599 0.561 0.439 0.467 0.473 0.456 0.423 0.402 0.164 0.168

[19] 0.462 0.462 0.462 0.467 0.462 0.462 0.467 0.612 0.638 0.574 0.543 0.543 0.549 0.537 0.561 0.434 0.439 0.456

3.4 序列/物种之间的系统发生重建结果

分子系统发育分析结果中NJ法和MP法分析结果见图1及2。

Homo sapiens

Pan troglodytes

Mus musculus

Rattus norvegicus

Bos taurus

Canis familiaris

Danio rerio

Drosophila melanogaster

Anopheles gambiae

Schizosaccharomyces pombe

Magnaporthe grisea

Neurospora crassa

Saccharomyces cerevisiae

Kluyveromyces lactis

Ashbya gossypii

Oryza sativa 1

Arabidopsis thaliana

Oryza sativa 2

Plasmodium falciparum 图1:CDK2蛋白分子进化树:NJ(Neighbor joining)分析,分枝上显示的数字是Bootstap

检验获得的BCL (bootstrap confidence level) 值。

Homo sapiens

Pan troglodytes

Mus musculus

Rattus norvegicus

Bos taurus

Canis familiaris

Danio rerio

Drosophila melanogaster

Anopheles gambiae

Schizosaccharomyces pombe

Magnaporthe grisea

Neurospora crassa

Saccharomyces cerevisiae

Kluyveromyces lactis

Ashbya gossypii

Arabidopsis thaliana

Oryza sativa 1

Oryza sativa 2

Plasmodium falciparum 图2:CDK2蛋白分子进化树:MP(Maximum parsimony)分析,分枝上显示的数字是Bootstap检验获得的BCL (bootstrap confidence level) 值。

建树结果分析:使用NJ和MP两种方法建立的进化树与物种树基本一致,主要的不同

是NJ法建立的进化树中,拟南芥与水稻的两种CDK2蛋白的进化关系有误,应为先分离出

拟南芥,然后分离出两种水稻的CDK2蛋白。

3.5 蛋白质家族特征分析结果

CDK2属于CMGC丝氨酸/苏氨酸蛋白激酶家族,CDK×亚家族。这一家族的蛋白质都

有一段相似的CDK激酶结构域,其中有一小段序列相当保守,即PSTAIRE序列。据认为,这段序列与周期蛋白结合有关。

以人的CDK2蛋白为例,其有1个结构域,7个基序。结构域上有两个分别有磷酸化激

酶和磷酸转移酶的功能的区域。

人的CDK2蛋白的结构域具有蛋白激酶的功能(Pfam00069),其结构为:

PFTK2_HUMAN [Homo sapiens (Human)] Serine/threonine-protein kinase PFTAIRE-2 EC=2.7.11.22 (384 residues)

使用PROSITE scan在人的CDK2蛋白上共找到7个基序,分别为:

(1)cAMP和cGMP依赖性蛋白激酶磷酸化位点(cAMP- and cGMP-dependent protein kinase phosphorylation site),正则表达为[RK](2)-x-[ST]。

(2)PKC磷酸化位点(Protein kinase C phosphorylation site),正则表达为[ST]-x-[RK]。有研究表明,细胞中的PKC含量升高可以促进CDK2和周期蛋白E的结合。

(3)酪蛋白激酶Ⅱ磷酸化位点(Casein kinase II phosphorylation site),正则表达为[ST]-x(2)-[DE]。

(4)酪氨酸激酶磷酸化位点(Tyrosine kinase phosphorylation site),正则表达为[RK]-x(2,3)-[DE]-x(2,3)-Y。

(5)豆蔻酰化位点(N-myristoylation site),正则表达为G-{EDRKHPFYW}-x(2)-[STAG CN]-{P}。

(6)特异性蛋白激酶与A TP结合区域(Protein kinases ATP-binding region signature),正则表达为[LIV]-G-{P}-G-{P}-[FYWMGSTNH]-[SGA]-{PW}-[LIVCAT]-{PD}-x-[GSTACLI VMFY]-x(5,18)-[LIVMFYWCSTAR]-[AIVP]-[LIVMFAGCKR]-K。有活性的CDK2在通过将ATP的磷酸基团转移到底物上以调控细胞周期。

(7)特异性丝氨酸/苏氨酸蛋白激酶活性位点(Serine/Threonine protein kinases active-site signature),正则表达为[LIVMFYC]-x-[HY]-x-D-[LIVMFY]-K-x(2)-N-[LIVMFYCT](3)。

3.6蛋白质三级结构与结构分类分析

CDK2的3D结构已知,显示其结构如下图。

CDK2在SCOP结构分类数据库中的分类如下:

Root: scop

Class: Alpha and beta proteins (a+b) [53931]

Mainly antiparallel beta sheets (segregated alpha and beta regions) Fold: Protein kinase-like (PK-like) [56111]

consists of two alpha+beta domains, C-terminal domain is mostly alpha helical

Superfamily: Protein kinase-like (PK-like) [56112]

shares functional and structural similarities with the ATP-grasp fold and PIPK Superfamily

Family: Protein kinases, catalytic subunit [88854]

members organized in the groups and subfamiles specified by the comments

Protein: Cyclin-dependent PK, CDK2 [88855]

CMGC group; CDKs subfamily; serine/threonine kinase

Species: Human (Homo sapiens) [TaxId: 9606] [88856]

SQ P24941

CDK2的两个结构域在CA TH结构分类数据库中的分类如下:

结构域1有磷酸化激酶功能,分类号为3.30.200

CATH Code Level Description

3Alpha Beta

3.302-Layer Sandwich

3.30.200Phosphorylase Kinase; domain 1

结构域2有磷酸转移酶功能,分类号为1.10.510

CATH Code Level Description

1Mainly Alpha

1.10Orthogonal Bundle

1.10.510Transferase(Phosphotransferase); domain 1

4 讨论

CDK2在生命活动中有广泛的功能,除了可以调控有丝分裂和减数分裂的细胞周期,还有可能参加细胞凋亡过程。

CDK2调控细胞周期通过与周期蛋白A或E结合为复合体实现。CyclinE-CDK2复合体为细胞从G1进入S期的关键激酶复合物。CyclinE-CDK2复合体形成后,磷酸化其底物蛋白,如视网膜母细胞瘤蛋白(pRb)、pRb家族成员P107、CDC6等,使DNA合成得以进行,细胞由G1期进入S期。DNA作为遗传物质必须被准确地复制到子代细胞中,当DNA受到损伤和出现错误时,其复制是不被允许的。这是由于高等真核细胞存在一个G1期限制点,DNA损伤后会激活一些针对Cyclin-CDK活性的抑制因子,包括CIP/KIP(周期蛋白抑制蛋白/激酶抑制蛋白)家族成员P21(cip1)、P27(kip1)和P57(kip2)。这些激酶活性的抑制因子结合与复合体结合,使其失去激酶活性,不能磷酸化其底物,DNA的合成从而不能被启动。CyclinE-CDK2的激酶活性是受着P21、P27和P57等严格调控的。CyclinE-CDK2推动细胞进入S期后,其G1/S期的使命即完成,通过S期激酶结合蛋白(Skp)2-SCF介导泛素化,被蛋白酶体降解。

CyclinA-CDK2复合体是一种丝氨酸/苏氨酸激酶,在细胞周期G1/S期转化和S期进程中发挥着关键性的作用。已有研究发现一些与DNA复制相关的CyclinA-CDK2底物,如Cdc6、Mcm4、Cdt1和Fen1。而最近的研究显示,CyclinA-CDK2能够在细胞凋亡过程中被激活,并调控细胞凋亡的进程。这一过程有可能通过磷酸化其特异性的底物来调控细胞凋亡进行,因此其潜在底物目标群为对细胞凋亡有着重要调控作用的Bcl-2家族蛋白质,可通过体外磷酸化试验验证候选蛋白能否被CDK2磷酸化。

CDK2除了是驱动细胞通过G1/S期检验点进入S期完成DNA合成的关键性调控蛋白,在减数分裂中的作用也很重要。试验发现,敲除小鼠CDK2基因后小鼠生长发育正常,只是不育,生殖细胞减数分裂受到影响。生殖细胞的分裂受到促卵细胞成熟因子MPF的影响。MPF 是由CDK1和CyclinB组成的异二聚体,在减数分裂调控中处于核心地位。CDK2是MPF的主要上游分子,其活性变化会影响到MPF的活性。因此CDK2即使对减数分裂没有直接的作用,

至少也会通过改变MPF的活性而影响到卵母细胞的减数分裂。

生物信息学是一门数学、统计、计算机与生物医学交叉结合的新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。当前生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,在人类疾病与功能基因的发现与识别、基因与蛋白质的表达与功能研究方面都发挥着关键的作用,同时生物信息学在基于基因与蛋白质功能缺陷的合理化药物设计方面也有着巨大的潜力。生物信息学目前已形成了多个研究方向,其中研究重点如序列比对、蛋白质结构比对和预测、基因识别及非编码区分析研究、分子进化和比较基因组学、序列重叠群(Contigs)装配、遗传密码的起源、基于结构的药物设计、生物系统的建模和仿真和生物信息学技术方法的研究等。

人类对基因的认识已上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系。这要求生物信息学在一些基本的思路上要做本质的观念转变。由于生物信息学是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。要使问题得到真正的解决,最终可能得从生物学自身,从数学上的新思路来获得动力。

5 参考文献

Cohen EE, Zhu H, Lingen MW, Martin LE, et al. A feed-forward loop involving protein kinase Calpha and microRNAs regulates tumor cell cycle. Cancer Res 2009 Jan 1;69(1):65-74. Hodgson JG, Yeh RF, Ray A, Wang NJ, et al. Comparative analyses of gene copy number and mRNA expression in glioblastoma multiforme tumors and xenografts. Neuro Oncol 2009 Oct;11(5):477-87.

翟中和,王喜忠,丁明孝.细胞生物学.北京:高等教育出版社,2000.

舒伟,马清钧,叶昕.CyclinE-CDK2相关蛋白与细胞周期调控.生物技术通讯,2008,19(1):97-100. 李清,何侃,高畅,李晶华,金英花.CyclinA-Cdk2对B细胞成熟因子的体外磷酸化作用. 中国生物制品学杂志,2008,21,(9):765-767.

关泽红,旭日干.CDK2在精母细胞和卵母细胞减数分裂中的作用.生理科学进展,2008,39,(2):169-171.

生物信息学作业

生物信息学试题 1、构建分子系统树得主要方法有哪些?并简要说明构建分子进化树 得一般步骤。(20分) 答:(1)构建进化树得方法包括两种:一类就是序列类似性比较,主要就是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们得差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树得情况下,通过蛋白质结构比较包括刚体结构叠合与多结构特征比较等方法建立结构进化树 (2)序列比对——选取所需序列——软件绘制 具体如下: a测序获取序列或者在NCBI上搜索所需得目得序列 b在NCBI上做blast:比对相似度较高得基因,并以fast格式下载,整合在*txt文档中。 c比对序列,比对序列转化成*meg格式 d打开保存得*meg格式文件,构建系统进化树 2、氨基酸序列打分矩阵PAM与BLOSUM中序号有什么意义?它们各自 得规律就是什么?(10分) (1)PAM矩阵:基于进化得点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就就是一个进化得变异单位, 即1%得氨基酸改变。 BLOSUM矩阵:首先寻找氨基酸模式,即有意义得一段氨基酸片断,分别比较相同得氨基酸模式之间氨基酸得保守性(某种氨基酸对另一种氨基酸得取代数据),然后,以所有60%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM60;以所有80%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM80。

(2)PAM用于家族内成员相比,然后把所有家族中对某种氨基酸得比较结果加与在一起,产生“取代”数据(PAM-1 );PAM-1自乘n次,得PAM-n。 PAM-n中,n 越小,表示氨基酸变异得可能性越小;相似得序列之间比较应该选用n值小得矩阵,不太相似得序列之间比较应该选用n值大得矩阵。PAM-250用于约 20%相同序列之间得比较。 BLOSUM-n中,n越小,表示氨基酸相似得可能性越小;相似得序列之间比较应该选用 n 值大得矩阵,不太相似得序列之间比较应该选用n值小得矩阵。BLOSUM-62用来比较62%相似度得序列,BLOSUM-80用来比较80%左右得序列。 3、蛋白质三维结构预测得主要方法有哪些?试选择其中得一种方 法,说明蛋白质三维结构预测得一般步骤。(10分) (1) a同源建模(序列相似性低于30%得蛋白质难以得到理想得结构模型 b折叠识别(已知结模板得序列一致率小于25%) c从头预测得方法(无已知结构蛋白质模板)。 (2) 4、您所熟悉得生物信息学软件有哪些?请选择其中得至少一种软 件,结合自己得研究课题,谈谈您所选择软件得基本原理,使用

基因组学与生物信息学教案

《基因组学与生物信息学》教案 授课专业:生物学大类各专业 课程名称:基因组学与生物信息学 主讲教师:夏庆友程道军赵萍徐汉福

课程说明 一、课程名称:基因组学与生物信息学 二、总课时数:36学时(理论27学时实验9学时) 三、先修课程:遗传学、分子生物学、基因工程 四、使用教材: 杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社,2002. 五、教学参考书: T.A.布朗著,袁建刚译著,基因组(2rd版),北京:科学出版社,2006. 沈桂芳,丁仁瑞,走向后基因组时代的分子生物学,杭州:浙江教育出版社,2005. 罗静初译,生物信息学概论,北京:北京大学出版社,2002. 六、考核方式:考查 七、教案编写说明: 教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标,以教学大纲为依据,在熟悉教材、了解学生的基础上,结合教学实践经验,提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课(指同一主题连续1~2节课)设计编写。教案编写说明如下: 1、编号:按施教的顺序标明序号。 2、教学课型表示所授课程的类型,请在相应课型栏内选择打“√”。 3、题目:标明章、节或主题。 4、教学内容:是授课的核心。将授课的内容按逻辑层次,有序设计编排,必要时标以“*”、“#”“?” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法,如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、 标本、挂图、音像等教学工具。 6、讨论、思考题和作业:提出若干问题以供讨论,或作为课后复习时思考,亦可要求学生作为作业 来完成,以供考核之用。 7、参考书目:列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

BioEdit实验报告

生物信息学引论实验课报告(3) 一、实验目的与要求 1、熟悉使用BioEdit软件基于核酸序列比对分析的真核基因结构分析; 2、熟悉使用BioEdit软件进行核酸序列的点突变定位; 二、实验内容 (一)使用BioEdit软件进行序列分析(选取一种数据); (二) 1. 人瘦素(leptin) 基因编码区点突变408 A→C的定位:打开BioEdit软件→将人瘦素(leptin) mRNA的FASTA格式序列输入分析框→点击左侧序列说明框中的序列说明→点击Sequence栏→选择Nucleic Acid→点击Find next O RF→从起始密码ATG的第一个碱基开始查找该基因编码区408(464,NM_000230)位碱基(A); 2. 人瘦素(leptin) 基因编码区点突变408 A→C的限制酶切点分析:再点击Sequence栏→选择Nucleic Acid→点击Restriction M ap→点击Generate Map按钮→找到该基因编码区408(464,NM_000230)位碱基后可见该位置有限制酶Hind III 的切点(AAGCTT);(提示:如发生408 A→C突变,则该酶切点消失); 3. 人瘦素(leptin) 基因编码区点突变408 A→C分析的引物设计:调用Internet浏览器并在其地址栏输入primer3网址(https://www.sodocs.net/doc/1516795534.html,/cgi-bin/primer/primer3.cgi)→用复制/粘贴方式将人瘦素(leptin) mRNA(NM_000230)的FASTA格式序列输入分析框→在targets框填入464,1→选择Product Size (~300 bp)和Primer Tm (~58.0) →点击Pick Primesr按钮→从显示的五队引物中选择合适的引物; 4. 人瘦素(leptin) mRNA定量的引物设计:方法同“3. 人瘦素(leptin) 基因编码区点突变408 A→C分析的引物设计”,但在targets框将突变点位置改为外显子交会点位置,另外Product Size 一般选择~150 bp。

生物信息学作业1实验2

上海师范大学实验报告 实验二 一、实验原理 答:利用Blast全球联网数据库,对输入的序列进行生物信息学分析,给出与输入序列相关性最大的对应的基因信息,比较两者的同源性。 二、操作步骤 答:(1)先打开网址https://www.sodocs.net/doc/1516795534.html,/ (2)点击右边的Blast链接,打开Blast数据库,进入Blast界面 (3)在Basic Blast中选择nucleotide blast (4)在对话框中输入核苷酸序列,在choose search set下的Database选项中选择Others (nr etc.) (5)把网页拉到最下方,点击Blast按钮 (6)在Descriptions 栏下找到Max ident 百分率最高的序列名称 (7)再往下拉,找到Alignments项下第一个序列,可以找到输入序列相关信息 (8)点击Accession,即能找到更多输入序列的相关信息。 1. tttcactcca tagttactcc ccaggtga 1.1它属于哪类生物? 答:属于Hepatitis C virus (丙型肝炎病毒) 1.2它属于哪类基因? 答:属于non-structural protein 5B gene 1.3它在该基因的什么位置? 答:它在该基因的第749-776这个位置。 1.4它与你搜索到的序列的同源性(Identities)是多少? 答:同源性100% 2.(1)ccacccactg aaactgcaca gacaaatttg tacataagag 1.1它属于哪类生物? 答:属于Influenza A virus (A/chicken/Iran261/01(H9N2)) hemagglutinin (HA) gene (A型流感病毒,A型伊朗型261鸡流感病毒,H9N2病毒,血细胞凝集素抗原基因为依据) 1.2它属于哪类基因? 答:属于ssRNA negative-strand viruses Orthomyxoviridae (单链RNA,负义链病毒,正粘病毒科) 1.3它在该基因的什么位置? 答:它在该基因的第1-40这个位置 1.4它与你搜索到的序列的同源性(Identities)是多少?

生物信息学课程论文 作业题目 分配表

生物技术12-1 生物技术12-1 学号姓名性 别 签名学号姓名性别签名学号姓名性 别 签名 12114350101陈丽娜女大肠杆菌连接 酶 12114350104黄少敏女人的胰蛋白 酶 12114350105黄晓静女T4噬菌体 DNA聚合酶12114350106纪秀玲女人的肌红蛋白12114350107列泳婵女蛋白酶K序 列 12114350108石彩虹女小鼠P53基 因12114350110周海琪女拟南芥端粒酶 序列 12114350111曹杰濠男淀粉酶12114350113陈永成男G-谷氨酰转 肽酶12114350115方壮杰男乳酸脱氢酶12114350116冯健锋男肝癌铁蛋白12114350118黄静云男牛血清白蛋 白12114350119李树森男18S rDNA 12114350120李涛男ATP合成酶12114350121林秀尧男谷氨酸脱羧 酶12114350123刘国标男CDK4 12114350124罗皓炽男胃蛋白酶12114350125阮永刚男鲨烯合酶基 因12114350126石晓洲男肌动蛋白12114350129王佐正男肥胖基因相 关蛋白 12114350130吴文祯男柑橘果胶酯 酶12114350131吴永鹏男凝血酶原12114350132徐国相男维生素C合 成基因 12114350133叶业林男葡萄糖脱氢 酶

12114350134张维彬男大肠杆菌Β-半 乳糖苷酶 12114350135张伟龙男抗干旱基因12114350136郑晓坤男人血红蛋白 12114350142郑桂捷男磷酸酶的蛋白 质12114350138黄忠海男牛凝乳酶原 基因 12114350139徐少东男岩藻糖苷酶 12114350141王晓敏女木瓜蛋白酶 本班总人数:31 生物技术12-2 生物技术12-2 学号姓名性别签名学号姓名性别签名学号姓名性别签名12114350201黄雪梅女人的胰岛素12114350202李晨晨女热震惊蛋白/ 热击蛋白 1211435020 3 廖垭娣女乙肝病毒 CABYR- binding prot ein 12114350204冉梦梦女腺苷酸环化酶12114350205魏丹璇女DNA ase I 1211435020 6 吴彩凤女纤维素酶 12114350207武亦婷女18 rDNA 12114350208叶国玲女谷胱甘肽1211435020 9 叶锦玉女线粒体基因

生物信息学课程设计

生物信息学课程设计报告 题目:用blast、clustalx2和mega来分析鼠伤寒沙门氏菌的四环素抗性基因 专业:生物技术 班级:11-2 学号:11114040235 姓名:邹炜球 指导教师:马超 广东石油化工学院生物工程系 2013年 12 月 21 日

摘要 生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。本课程设计主要通过分析鼠伤寒沙门氏菌的四环素抗性基因来介绍生物信息学里面常用的数据库NCBI和一些常用的软件(如blast、clustalx2、Primer Premier 5和mega),由于生物信息学这一门课在生物研究领域所起到的作用非常大,所以熟练一些常用的生物信息学软件和数据库是非常有必要的。 关键词:NCBI、blast、clustalx2、Primer Premier 、mega、生物信息学、序列比对、系统发育树

目录 1绪论 (4) 1.1生物信息学的发展概况 (4) 1.2生物信息学的发展展望 (4) 2 课题设计内容 (5) 2.1以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,蛋白质序列 为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式 (6) 2.2以设计内容1为目标序列进行BLAST分析 (7) 2.3通过BLAST或相关软件下载8条基因或蛋白质序列 (9) 2.4以8条基因序列进行多序列比对 (10) 2.5依照设计内容4构建系统发育树 (10) 2.6以其中一条基因序列设计一条长度为200-500bp的一对引物 (12) 参考文献 (16)

生物信息学专业实习总结范文

《浙江大学优秀实习总结汇编》 生物信息学岗位工作实习期总结 转眼之间,两个月的实习期即将结束,回顾这两个月的实习工作,感触很深,收获颇丰。这两个月,在领导和同事们的悉心关怀和指导下,通过我自身的不懈努力,我学到了人生难得的工作经验和社会见识。我将从以下几个方面总结生物信息学岗位工作实习这段时间自己体会和心得: 一、努力学习,理论结合实践,不断提高自身工作能力。 在生物信息学岗位工作的实习过程中,我始终把学习作为获得新知识、掌握方法、提高能力、解决问题的一条重要途径和方法,切实做到用理论武装头脑、指导实践、推动工作。思想上积极进取,积极的把自己现有的知识用于社会实践中,在实践中也才能检验知识的有用性。在这两个月的实习工作中给我最大的感触就是:我们在学校学到了很多的理论知识,但很少用于社会实践中,这样理论和实践就大大的脱节了,以至于在以后的学习和生活中找不到方向,无法学以致用。同时,在工作中不断的学习也是弥补自己的不足的有效方式。信息时代,瞬息万变,社会在变化,人也在变化,所以你一天不学习,你就会落伍。通过这两个月的实习,并结合生物信息学岗位工作的实际情况,认真学习的生物信息学岗位工作各项政策制度、管理制度和工作条例,使工作中的困难有了最有力地解决武器。通过这些工作条例的学习使我进一步加深了对各项工作的理解,可以求真务实的开展各项工作。 二、围绕工作,突出重点,尽心尽力履行职责。 在生物信息学岗位工作中我都本着认真负责的态度去对待每项工作。虽然开始由于经验不足和认识不够,觉得在生物信息学岗位工作中找不到事情做,不能得到锻炼的目的,但我迅速从自身出发寻找原因,和同事交流,认识到自己的不足,以至于迅速的转变自己的角色和工作定位。为使自己尽快熟悉工作,进入角色,我一方面抓紧时间查看相关资料,熟悉自己的工作职责,另一方面我虚心向领导、同事请教使自己对生物信息学岗位工作的情况有了一个比较系统、全面的认知和了解。根据生物信息学岗位工作的实际情况,结合自身的优势,把握工作

生物信息学课程作业

生物信息学作业 1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results. ANSWER: (1)Use Needle to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # Length: 203 # Identity: 43/203 (21.2%) # Similarity: 58/203 (28.6%) # Gaps: 90/203 (44.3%) # Score: 30.0 (2)Use Water to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # Length: 32 # Identity: 11/32 (34.4%) # Similarity: 15/32 (46.9%) # Gaps: 0/32 ( 0.0%) # Score: 35 两种软件虽然使用同一罚分标准但得分不同。因为Needle程序实现标准pairwise全局比对,而Water则是局部比对。全局比对因为是比对全长序列,所以空位罚分多,得分较局部比对低。

生物信息学实验指导书_新版本

生物信息学 实验指导书 重庆邮电大学

生物信息学实验指导书生物信息教学部谭军编 重庆邮电大学生物信息学院

前言 生物信息学是上世纪90年代初人类基因组计划(HGP)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。 本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。

实验一熟悉生物信息学网站及其数据的 生物学意义 实验目的: 培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。 实验原理: 利用互联网资源检索相关的国内外生物信息学相关网站,如:NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因组研究所、北大生物信息学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。 实验内容: 1.浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描 述网站特征; 2.下载各网站的代表性数据各10条(组)以上,并说明其生物学意义; 3.讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。 实验报告: 1.各网站网址及特征描述; 2.代表性数据的下载和生物学意义的描述; 3.讨论:这些生物信息学相关网站的信息资源,可以被那些生物信息学 研究所利用。 参考书目: 《生物信息学概论》罗静初等译,北京大学出版社, 2002; 《生物信息学手册》郝柏林等著,上海科技出版社, 2004; 《生物信息学实验指导》胡松年等著,浙江大学出版社, 2003。

《生物信息学》上机作业

《生物信息学》上机作业 题目:对人血红蛋白(HBA1)编码基因序列的生物信息分析

目录 引言 .............................................................................................................................................. - 1 -1 正文......................................................................................................................................... - 2 - 1.1 NCBI上对相关核苷酸序列的查找............................................................................ - 2 - 1.2 BLAST运行及其结果.................................................................................................. - 2 - 1.3 BLASTX运行及其结果................................................................................................ - 6 - 2 其他软件的运行及其结果..................................................................................................... - 8 - 2.1 Clustal W运行及其结果 ............................................................................................. - 9 - 2.2 MEGA4.0运行及其结果............................................................................................. - 10 -结论 ............................................................................................................................................ - 10 -

生物信息学大实验_实验指导

实验1基因组序列组装(软件CAP3的使用) 一、实验目的 1.了解基因组测序原理和主要策略; 2.掌握CAP3序列组装软件的使用方法。 二、实验原理 基因组测序常用的两种策略是克隆法(clone-based strategy)和全基因组鸟枪法(whole genome shotgun method)。克隆法先将基因组DNA打成大的片段,连到载体上,构建DNA文库;再对每一个大片段(克隆)打碎测序。序列组装时先组装成克隆,再组装成染色体。克隆测序法的好处在于序列组装时可以利用已经定位的大片段克隆, 所以序列组装起来较容易, 但是需要前期建立基因组物理图谱, 耗资大, 测序周期长。 全基因组鸟枪法测序无需构建各类复杂的物理图谱和遗传图谱,采用最经济有效的实验设计方案,直接将整个基因组打成不同大小的DNA片段构建Shotgun文库,再用传统Sanger测序法或Solexa等新一代测序技术对文库进行随机测序。最后运用生物信息学方法将测序片段拼接成全基因组序列。该方法具有高通量、低成本优势。 序列组装时,先把把单条序列(read)组装成叠连群(contig)、再把叠连群组装成“支架”(scaffold),最后组装成染色体。 本实验将练习在Linux环境下用CAP3软件组装流感病毒基因组。 1.CAP3序列组装程序简介 Huang Xiaoqiu. 和 Madan,A. 开发的一套用于序列拼接的软件,此软件适用于小的数据集或 EST 拼接,它有如下特征: 1. 应用正反向信息更正拼接错误、连接contigs。 2. 在序列拼接中应用 reads 的质量信息。 3. 自动截去 reads5`端、3`端的低质量区。 4. 产生 Consed 程序可读的ace 格式拼接结果文件。 5. CAP3 能用于Staden软件包的中的GAP4 软件。 2.下载 此软件可以免费下载,下载地址:http://https://www.sodocs.net/doc/1516795534.html,/download.html。填写基本信息表格,即可下载。CAP3 详细参考文档可见:http://https://www.sodocs.net/doc/1516795534.html,/sas.html。 3.安装 (1)上传cap3 的压缩包到本地linux/unix 运算服务器; (2)解压缩: bash-2.05b$ tar xvf cap3.tar CAP3/ CAP3/README CAP3/cap3

生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析 姓名: 学号: 专业: 1前言 细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2),又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase),其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp,这部分中有7个外显子和6个内含子,7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。在翻译过程中,该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译,属于调控序列。mRNA上只有中间的部分编码蛋白质。 CDK2基因可以转录为两种mRNA。其中,变体1长度为2325bp,编码298个氨基酸;变体2长度为2223bp,编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白,功能相同,具有调控细胞分裂的功能,主要在G1期到S期和S期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中,但只在进行分裂的细胞中行使功能,这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A、B1、B3、E等结合后,参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症,故CDK2基因可以被看作癌基因,其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控,还能与类Rb蛋白p107或转录因子E2F结合,促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。 在CDK2分子中,被称为T环的氨基酸环阻断了活性部位,妨碍激酶履行它的酶功能,而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时,周期蛋白将T环转出2nm以上,又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关,还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下,与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化,但此时复合体还没有活性,只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后,复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节,此外还存在对其活性起负性调控的蛋白质,即CDK激酶抑制物,例如p21CIP/WAF1、p27KIP2等。 前面提到,CDK2基因转录的产物有两种。这两种mRNA的不同之处在于变体1由全部7个外显子组成,而变体2缺失外显子5,由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。 2 材料和方法: 2.1序列数据来源 采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索,CDK2蛋白的记录有1013个。而采用基因名称对NCBI非冗余核酸数据库进行检索,CDK2蛋白的记录有680个。 采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。 2.2序列分析方法

生物信息学课程大纲

《生物信息学》课程大纲 一、课程目标 1.学科素养:生物信息学的基本研究方法,并能掌握应用其中的一些常用方法,以提高学生的科研能力,领会采用信息学技术去分析和探索大量核酸和蛋白质序列所蕴藏的生命意义的基本思路。(支撑毕业要求 3-1) 2.交流合作:理解团队学习的重要性,具有团队协作精神,掌握沟通合作技能,具有小组互助和协作学习体验。(支撑毕业要求 8-1) 3.交流合作:具有小组互助和协作学习体验,具备与学校领导、同事、学生、家长及社区沟通交流的知识与技能。(支撑毕业要求 8-3)

二、课程目标与毕业要求的对应关系 三、教学内容、重难点和课时安排 1.第一章生物信息学概论(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点(二)教学内容 1、生物信息学的概念和发展历史(支撑课程目标1) 2、生物信息学的生物学基础(支撑课程目标1) 3、生物信息学的计算机和网络基础(支撑课程目标1) 4、生物信息学的数学基础(支撑课程目标1) 5、生物信息学的产业化(支撑课程目标1) 6、生物信息学研究内容和发展前景展望(支撑课程目标1)

(三)本章重难点 ※生物信息学的数学基础、生物信息学的计算机和网络基础 第二章分子生物学数据库(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、生物学数据库概述(支撑课程目标1) 2、核苷酸序列与基因组数据库(支撑课程目标1) 3、蛋白质序列与模式、同源性数据库(支撑课程目标1) 4、结构数据库(支撑课程目标1) 5、基因和分子的互作和代谢途径信息数据库(支撑课程目标1) 6、RNA核苷酸序列数据库(支撑课程目标1) 7、其它遗传学与分子生物学资源(支撑课程目标1) 8、数据库中存在的问题及使用注意事项(支撑课程目标1) (三)本章重难点 ※蛋白质序列与模式、同源性数据库;基因和分子的互作和代谢途径信息数据库;RNA 核苷酸序列数据库 第三章序列比对与数据库检索(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、序列比对概述(支撑课程目标1) 2、双序列比对(支撑课程目标1) 3、比对的统计学显著性(支撑课程目标1) 4、多序列比对(支撑课程目标1) 5、数据库搜索(支撑课程目标1) 6、基因组长序列比对(支撑课程目标1) (三)本章重难点 ※双序列比对、数据库搜索 第四章核酸序列的信号和功能识别(4学时)

生物信息学论文

生物信息学论文 论文题目 PBL教学法在生物信息学课程教学中的应用与实践 指导老师:谷峻 学生姓名:吕晓莹 学号: 20112501092 院系:生命科学学院 专业:生物科学 撰写时间:2014年4月

摘要:PBL Problem-Based Leaming),即基于问题学习,是由美国神经病学教授Barrows首创并于1969年在加拿大的麦克马斯特大学医学院试行的一种新的教学方法。PBL 的基本特点是以教师为引导,以学生为中心,通过解决问题来学习,与传统的以学科为基础,以教师为中心的教学方法相比有很大的不同。本论文通过对照PBL 教学理念和生物信息学课程理论,来探究PBL 教学法在生物信息学课程教学中应用与实践,为提高生物信息学课程教学质量提供一种可行方法。 关键词:PBL 教学法,生物信息学,应用与实践 1 前言 生物信息学是20世纪90年代由多种学科知识相互渗透、融合而兴起的一门用数理和信息科学的观点、理论以及方法去研究生命现象、组织和分析呈现指数增长的生物医学数据的一门学科,具有开放性、发展性、交叉性、综合性、应用性等特点。鉴于此,尽管国内的生物信息学科学研究开展得如火如荼,但由于受到师资、教材、授课对象、教学条件、教学法等因素限制,开设该课程的高校尚未真正形成一套成熟的、科学的教学体系。 目前, 国内的生物信息学教学基本沿用以“教师讲授为主”的传统教学模式。以课堂为中心、以理论教学为主, 进行“满堂灌”式教育, “照本宣读”的方式也比较常见。缺乏与生物信息学交叉前沿性特点相适应的型教学模式。同时,实验教学比较单一, 常以验证性为目的, 有些甚至成为了“文献检索”课程, 缺乏和专相适应的综合性、设计性实验。现代教学改革与实践证明,在教学过程中必须要突出“学生是教学活动的主体”,既要注意张扬学生“个性”,更要强化学生团队合作意识及创新、创业能力培养,以保证人才培养质量。在这种情况下,传统的教学模式已与当前社会快速发展的局面格格不入,迫切需要变革。因此,为激发学生的学习积极性和教学参与热情,探索先进的教学法以革新生物信息学的教学内容及考核方式等显得尤为重要。其中,以PBL 为例的教学法在生物信息学课程教学应用与实践中取得了良好的课程教学效果。 2 PBL 教学法的优势 2.1 PBL 教学顺应时代的发展 当今社会是信息时代, 生物学不断发展, 知识不断更新, 老师要讲的内容越来越多, 学生要读的书越来越厚, 授课内容与课时不相适应的矛盾非常突出, 且教学双方负担过重, 教学效果难以保证, 这种填鸭式的传统教学越来越无法适应信息社会的要求, 这就要求学生在接受人类已有的科学知识基础上, 着重培养创造能力, 学会自己寻找知识和创造知识的本领。而PBL 教学模式能明显减少说教式教学和学习负担, 既能加强学生独立学习,又能减轻教师的教学负担,顺应了时代的发展。 2.2 有利于培养学生主动学习的能力和形成双向交流 传统的教学模式是以学科为基础, 教师课堂讲解为主, 教学内容进度和方法均由老师决定,其 对象是学生整体, 容易忽视单一个体的学习兴趣、能力及个性特征, 学生始终处于被动地接受知识的地位, 不利于主动学习能力的培养。而PBL 教学法打破传统的界限, 采取以“学生为中心、问题为核心”的教育方式。在教师的整体把握和指导下, 学生充分运用现代化科技手段如教材、图书馆、录像、模型、文献检索系统、电脑学习软件、网络以及多媒体等多种形式进行自学。课堂上,PBL模式强调学生主动参与学习, 从而大大提高学习效果和长期记忆的形成。从教学的角度来看, 指导老师长期与同一小组学生

《生物信息学》教学大纲

《生物信息学》教学大纲 Bioinformatics 课程编码:27A11708 学分:1.5 课程类别:专业任选课 计划学时:24 其中讲课:20 上机:4 适用专业:生物技术专业、药学专业 推荐教材:薛庆中著,《DNA和蛋白质序列数据分析工具》,科学出版社,2014年。 参考书目:张成岗著,《生物信息学方法与实践》,科学出版社,2005年。 课程的教学目的与任务 本课程的教学目的是引导学生初步了解生物信息学的基本研究内容与研究方法以及生物信息在多学科领域的应用。使学生掌握生物信息学的基本术语、基本原理、基本研究方法、重要核酸和蛋白质数据库等。掌握指定的基于互联网的常用生物信息学软件的基本操作使用方法。要求学生通过基于问题和任务的学习方式,初步具备解决简单生物信息学问题的研究能力。 课程的基本要求 通过本课程的学习,要求学生1. 掌握该领域的基本知识。2. 掌握指定数据库与软件的应用。3.课程的主要任务包括一次期末考试和多次的章节作业以及课程问题讨论等。 4.培养与引导学生采用生物信息学实际操作能力、以期后期能用于相应领域的研究工作中。 各章节授课内容、教学方法及学时分配建议(含课内实验) 第一章:绪论建议学时:2 [教学目的与要求] 掌握专生物信息学产生背景、概念及研究内容;介绍常用的核酸、蛋白质数据库介。 [教学重点与难点] 掌握生物信息学概念机研究内容,熟悉常用数据库的使用。 [授课方法] 课堂讲授结合上机操作 [授课内容] §1.1生物信息学的产生背景,概念 生物信息学的发展简史 生物信息学的不同定义 §1.2生物信息学的研究内容及常用的核酸、蛋白质数据库介绍 生物信息学的而研究内容 常用的核酸数据库 常用的蛋白质数据库

最新生物信息学学习心得

生物信息学学习心得 第一篇:生物信息学 生物信息学是上世纪90年代初人类基因组计划(hgp)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。 本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。实验一熟悉生物信息学网站及其数据的生物学意义 实验目的:

培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。 实验原理: 利用互联网资源检索相关的国内外生物信息学相关网站,如:ncbi、sanger、tigr、kegg、sble、中科院北京基因组研究所、北大生物信息 学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathatdb格式化库文件,并输入blast命令进行计算,获得结果文件。 实验内容: 1. 向网上blast服务器提交序列,得到匹配结果; 2. 本地使用blast,格式化库文件,输入命令行得到匹配结果;

生物信息学作业题

生物信息学作业题 绪论 1.什么是生物信息学? 2.生物信息学有哪些主要研究领域? 第一章生物信息学的分子生物学基础 1.DNA的双螺旋结构要点是什么? 2.什么是基因组和蛋白质组?对它们的研究有何意义? 第二章生物信息学的计算机基础 1.简述网络操作系统的类型。 第三章核酸序列分析 1.什么是全局比对? 2.什么是局部比对?有哪些优点? 第四章分子进化分析 1.分子进化分析具有哪些优点? 2. 简述分子进化的中性学说。 第五章基因组分析 1. 什么是基因组学?其主要研究内容是什么? 2.简述基因预测分析的一般步骤。 第六章蛋白质组分析 1. 蛋白质组学的概念和主要研究的大致方向是什么? 2. 蛋白质组功能预测的程序是怎样的? 第七章生物芯片数据分析 1. 什么是生物芯片? 2. 生物芯片有哪些方面的应用? 第八章核酸与蛋白质结构预测 1. RNA二级结构典型的预测方法有哪些? 2. 基于统计学的预测蛋白质二级结构的方法有哪些? 第九章生物信息学平台与工具软件 1. 请利用Clustal X软件对下列6条蛋白质序列进行多重比对(比对结果用BioEdit软件打开,用“截图”方式显示比对结果)。 >1 mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >2 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl >3

mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >4 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl >5 mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >6 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl 2. 现有一ZmPti1b蛋白质序列,请用DNAMAN软件分析其二级结构,给出分析结果。 1 MSCFACCGDE DTQVPDTRAQ YPGHHPARAD AYRPSDQPPK GPQPVKMQPI AVPAIPVDEI 61 REVTKGFGDE ALIGEGSFGR VYLGVLRNGR SAAVKKLDSN KQPDQEFLAQ VSMVSRLKHE 121 NVVELLGYCA DGTLRVLAYE FATMGSLHDM LRGRKGVKGA QPGPVLSWSQ RVKIAVGAAK 181 GLEYLHEKAQ PHIIHRDIKS SNVLLFDDDV AKIADFDLSN QAPDMAARLH STRVLGTFGY 241 HAPEYAMTGQ LSSKSDVYSF GVVLLELLTG RKPVDHTLPR GQQSLVTWAT PRLSEDKVRQ 301 CVDSRLGGDY PPKAVAKFAA VAALCVQYEA DFRPNMSIVV KALQPLLNAH ARATNPGDHA 361 GS

生物信息学实验指导讲解

生物信息学实验指导 适用专业:生物技术与制药大类 生物技术 编写:解增言 生物信息学院 2014年9月

目录 实验1 在线BLAST同源序列查询 (3) 实验2 本地BLAST同源序列查询 (8) 实验3 利用ClustalX与MEGA进行多序列比对与分子系统发生树构建 (10) 实验4 利用RNAfold预测RNA二级结构 (14) 实验5 Pfam蛋白质结构域分析 (17) 实验6 利用PSSpred预测蛋白质二级结构 (19) 实验7 利用Cn3D和RasMol分析蛋白质三级结构 (21) 实验8 利用GO及EST数据分析基因功能 (24)

实验1 在线BLAST同源序列查询 一、实验目的 1.了解同源序列查询的原理和用途; 2.掌握利用NCBI在线BLAST工具查找同源序列的方法。 二、实验原理 在生物学种系发生理论中,若两个或多个结构具有相同的祖先,则称它们同源(homologous)。分子生物学中的同源指两条序列来自于一条共同的祖先序列。一般来说,相似超过一定程度的序列具有同源性。在生物信息学研究中,常用序列比对(alignment)来研究序列的同源性以及推测物种之间的关系。 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系。进一步的比对是将多个蛋白质或核酸同时进行比较,寻找这些有进化关系的序列之间共同的保守区域或位点,从而探索导致它们产生共同功能的序列模式。此外,还可以把蛋白质序列与核酸序列相比来探索核酸序列可能的表达框架;把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质折叠类型的信息。 比对还是数据库搜索算法的基础,将查询序列与整个数据库]的所有序列进行比对,从数据库中获得与其最相似序列的已有的数据,能最快速的获得有关查询序列的大量有价值的参考信息,对于进一步分析其结构和功能都会有很大的帮助。近年来随着生物信息学数据大量积累和生物学知识的整理,通过比对方法可以有效地分析和预测一些新发现基因的功能。 序列两两比对 序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。在残基-残基比对中,可以明显看到序列中某些氨基酸残基比其它位置上的残基更保守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位的残基,与金属离子结合的残基,形成特定结构motif的残基等等。但并不是所有保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30%,它们就很可能是同源的。 早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳比对路径,目前最有效的方法是Needleman-Wunsch动态规划算法,在此基础上又改良产生了 Smith-Waterman算法和SIM算法。在 FASTA程序包中可以找到用动态规划算法进行序列比对的工具LALIGN,它能给出多个不相互交叉的最佳比对结果。

相关主题