搜档网
当前位置:搜档网 › 生物信息学教学大纲

生物信息学教学大纲

生物信息学教学大纲
生物信息学教学大纲

红河学院《生物信息学》课程教学大纲

一、课程基本情况与说明

(一)课程代码:

(二)课程英文名称:bioinformatics

(三)课程中文名称:生物信息学

(四)授课对象:生物科学和生物技术专业本科生

(五)开课单位:生命科学与技术学院

(六)教材:

1、生物技术专业:《生物信息学应用技术》,王禄山、高培基编,化学工业出版社,2008年

2、生物科学专业:《生物信息学基础》,孙啸、陆祖宏、谢建明编,清华大学出版社,2005年(七)参考书目

[1]《生物信息学》,DavidW.Mount著,钟扬等译,高等教育出版社,2003年

[2]《基因组数据分析手册》,胡松年、薛庆中编,浙江大学出版社,2003年

[3]《生物信息学中的计算机技术(Developing Bioinformatics Computer Skills)》,Cynthia

Gibas,Per Jambeck著,孙超等译,中国电力出版社,2002年

[4]《生物信息学:基因和蛋白质分析的实用指南》,Andreas D. Baxevanis,Francis Ouellette

B F著,李衍达、孙之荣等译,清华大学出版社,2000年

[5]《生物信息学算法导论(An Introduction to Bioinformatics Algorithms )》,琼斯,帕

夫纳著,王翼飞等译,化学工业出版社,2007年

(八)课程性质(五号宋体加粗)

生物信息学是生命科学领域一门新兴的边缘学科,综合了生物学、计算机学、信息学、统计学等方面的知识。该学科在学生掌握生物化学、遗传学、分子生物学以及计算机应用、高等数学等相关知识的基础上开设,属于生物类专业的专业课程(必修或选修)。通过学习,学生能够加深对分子生物学和基因工程等课程的理解,并为进一步学习基因组学(genomics)和蛋白质组学(protemics) 奠定基础。

(九)教学目的

1、给学生介绍生物信息学的主要内容以及未来可能的发展方向,为学生构建相关知识体系,开阔学生的视野,为将来进一步学习、科研打下基础。

2、让学生了解生物信息学的基本研究方法,并能掌握应用其中的一些常用方法,以提高学生的科研能力,领会采用信息学技术去分析和探索大量核酸和蛋白质序列所蕴藏的生命意义的基本思路。

3、学习运用计算机软件来分析生物学问题,提高用理论来辅助、提高实验的设计和数据分析水平,加强对分子生物学实验结果的预测与分析等等的能力。

(十)教学基本要求

本课程应用性、实践性和操作性很强、对计算机水平要求较高。生物信息学的发源和领先地区又多在国外,大量的生物信息学数据库已经网络化,主要软件都由国外开发,因此对英语水平也有一定要求。考虑到这些特点,为实现本大纲的要求,应积极采用新教材、多媒体及计算机辅助教学等先进教学手段,同时注意提醒、强化学生的计算机和英语应用水平,提高教学效果。在教学过程中,要注意前修课程和后续课程的联系(包括生物专业英语)。

①本课程是生物类专业高年级的课程,学生在生物领域已经有了相当基础知识,因此教学重点应放在几大学科(生物学、计算机学、信息学、统计学等)知识的综合上,着重讨论学科的交叉运用,注意对分子生物学知识的回顾、联系和应用。

②对于生物信息学中的基本研究方法的学习,应是教师介绍、课堂讨论、课后作业相结合,通过学生的实践,深入掌握这些研究方法,能理解其算法,培养学生分析问题和解决问题的能力。重点、难点要突出。注意理论联系实际。

③结合实际,介绍并提供当前热门的生物信息软件,并布置作业,让学生课下和课后实习。

④对于作为必修课的专业,要在3个学分的课时中,进行不少于18个学时的上机和上网实验,对相应软件和数据库进行操作练习,并作为考核的重要内容。

(十一)学时数、学分数及学时数具体分配

学时数:54学时(必修)或36学时(选修)

分数:3学分(必修)或2学分(选修)

(十二)教学方式

本课程采用多媒体教学与上机实习相结合的方式。主要强调利用各种公用的生物信息学资源进行上机实习过程的学习,集课堂教学、实践教学和网络教学为一体,教学环节包括课堂讲授、学生自学、上机实验以及期末考核。课程大部分内容的讲授需要采用多媒体课件或者网络机房进行教学,并实时演示相关软件操作和网络数据库检索流程等课程的重点内容。学生上机实习操作要保证学时和练习效果,上机前教师预先布置实验题目,上机实验结束学生提交实验报告。并完成教师布置的一定量的作业,加深学生对所学知识的理解、运用,进一步训练学生的实际操作能力。

(十三)考核方式和成绩记载说明

考核方式为考查。严格考核学生出勤情况,达到学籍管理规定的旷课量取消期末考查资格。

总评成绩:

平时成绩:50%(必修)或40%(选修);形式:作业与平时实验成绩;

期末成绩:40%(必修)或50%(选修);形式:论文(专题研究或文献综述等);

考勤提问:10%;形式:不定期点名。

实验成绩主要考查学生的实践动手操作能力和分析能力,平时作业可以分书面作业和电子版作业两种,后者主要是一些在线分析、数据库检索和软件应用的结果文件。期末主要考查学生理论知识的掌握情况和综合运用水平。对于少数在某些方面确有特长(如擅长编程或网页数据库制作维护等)的学生,可指定相关软件编写、数据库建设和生物资源类的网页设计等内容作为其课

程设计任务,按时完成并达到预

期设计目标的,经审核确认确为其本人独立(或者为主)完成,可以不进行期末考查,以课程设计任务成绩代替。

二、讲授大纲

第一章绪论(2学时)

基本要求:

了解生物信息学兴起的主要原因。历数遗传学和基因组学领域中各里程碑事件及基因组测序技术的发展。理解生物信息学的基本概念和目前生物信息学中的各热点问题。掌握什么是生物信息学的研究对象和研究内容,以及几个重要的生物信息学资源和主要生物信息学工具。理解生物信息学的交叉学科和大科学特点。

重点:

1、生物信息学的定义、基本概念及其发展现状。

2、生物信息学研究的基本内容、基本原理与生物学基础。

3、计算机在生物学研究中的应用。

难点:

1、信息的内涵。

2、生物大分子序列和结构的信息功能。

3、生物信息学的交叉学科和大科学特点。

主要内容:

生物信息学的兴起和发展背景,生物信息学的概念、主要内容、研究意义和学科特点,以及当前生物信息学所面临的巨大挑战等。

第二章生物数据(2学时)

基本要求:

了解一般意义上的生物数据和现代的生物信息学数据的区别。了解从单克隆技术到全基因组鸟枪法测序技术的发展使得海量的基因组数据产生,以人类基因组为例,了解基因组注释的主要步骤和内容。遗传变异(如SNP)的概念、类型及发现方法。了解核糖核苷酸水平上基因表达的概念和非编码RNA在基因组中的多种类型。掌握表达序列标签的主要特点,学习表达序列标签对掌握基因组内各种特征信息的意义。理解高通量的蛋白质组和相互作用组产生的背景,对这些新兴的概念有比较深入的理解。熟悉生物信息学数据的采集来源。

重点:

1、理解如何对已测序的基因组数据进行注释和正确地进行基因预测。

2、掌握转录组的发现和基因表达谱的概念、单核苷酸多态性(SNPs)。

3、了解蛋白质序列和结构特点及其蕴含的信息。

难点:

1、如何从海量的基因组数据提取有用的信息是基因组序列数据分析的巨大挑战。

2、基因表达数据的分析。

3、蛋白质结构。

主要内容:

核心内容是介绍海量的生物信息学数据是如何产生的,以及这些数据的主要特点(具体包括:具有信息功能的生物大分子,基因组序列数据和基因组测序技术,遗传变异数据,转录组的基本概念及应用,基因表达谱的基本概念以及应用,EST以及EST的重要性,蛋白质组学的意义和对生物信息学提出的要求,蛋白质相互作用识别和预测的多种计算方法,生物通路,蛋白质二级、三级结构的数字化,常见非编码RNA,如tRNA,rRNA和miRNA等。生物信息学数据的实验室采集和网络数据库采集。

第三章分子生物学数据库(3学时)

基本要求:

了解几个注释较好的提供基因组浏览器的生物数据库资源(如NCBI,UCSC和EMBL等)其各自的特点及它们之间的联系。理解DNA序列的存储数据库(如GenBank,DDBJ,EMBL等)和蛋白质序列的存储数据库(如UniProt等)中一些关键序列号的意义和数据库内部结构的组织等。了解常用的公共基因表达数据库、表达序列标签数据库dbEST。掌握目前已有的蛋白质相互作用数据库,生物通路数据库和蛋白质结构数据库。能够根据自己问题出发找到感兴趣的蛋白质所涉及的相互作用,参与的生物通路和三维结构。

重点:

1、常用核酸和蛋白质序列和结构数据库的种类和内容。

2、数据库的格式和注释。

难点:

数据库构建、各种数据库包含数据的种类。

主要内容:

1、DNA、RNA与蛋白质序列数据库

2、蛋白质结构数据库、蛋白质分类数据库CATH与SCOP

3、基因与蛋白质表达数据库

4、蛋白质相互作用数据库

5、其他数据库

第四章序列对齐和数据库检索(3学时)

基本要求:

了解核酸序列比对的内容和相似序列的获得方法,掌握常用数据库的检索流程,理解序列比对和数据检索的原理和意义。

重点:

双序列比对

难点:

序列比对算法,多序列比对

主要内容:

序列比对相关的基本概念,序列相似性的评价方法,最优比对的确定—动态规划方法,比对结果的显著性分析,相似序列的启发式搜索—BLAST算法原理,BLAST 软件系列的使用,FASTA 算法,多序列比对技术。

第五章 DNA序列分析(6学时)

基本要求:

熟悉核酸序列分析和基因组分析的主要内容,掌握常用序列分析工具的使用,理解基因结构与DNA序列分析的生物学意义。

重点:

核酸序列分析的内容,序列分析工具的使用,以及基因结构与DNA序列分析的生物学意义。难点:

通过序列对比,推测分子的同源性;全基因组比较结果的可视化,电子PCR。

主要内容:

DNA序列分析的意义,序列的预测与鉴定,核酸序列物理性质的计算,核酸序列的基本分析(分子质量、碱基组成、碱基分布、序列变换、限制酶切分析和克隆测序分析等),密码子指纹与密码子使用偏好性分析,电子基因定位分析,基因组测序与分析,表达序列标签(EST)分析,SNPs 识别,可读框分析,真核生物基因的启动子分析及其他调控位点分析,DNA序列分析工具。

第六章 RNA序列分析(1学时)

基本要求:

了解RNA的信息功能、种类、序列特征、熟悉常见RNA二级结构和三级结构特征、了解二级结构预测的原理,掌握二级结构预测的方法和相关软件的使用。

重点:

RNA的种类及其序列和结构特征

难点:

RNA二级结构预测理论

主要内容:

RNA标纹识别和局部结构配对,RNA二级结构预测的理论和方法(如Zuker最小自由能算法或者遗传算法),RNA结构预测软件(如Unix平台的MFold和Windows平台的RNAStructure、RNAdraw)。

第七章蛋白质序列分析和结构预测(6学时)

基本要求:

了解蛋白质序列分析的主要内容,掌握蛋白质序列和结构分析工具的使用,熟悉蛋白质结构分类,理解蛋白质结构同源模建方法,了解蛋白质空间结构的预测手段。会利用工具和网络数据库进行简单的蛋白质二级结构预测,了解蛋白质三级结构预测,了解蛋白质组数据分析方法。

重点:

蛋白质序列分析,蛋白质二级结构预测

难点:

蛋白质结构同源模建方法

主要内容:

1、多肽理化性质计算与预测(包括多肽分子量、等电点、电荷分布和酶切特征,多肽亲水性/

疏水性分析与制图,多肽抗原位点分析等)

2、蛋白质家族与蛋白质分类(蛋白质家族与超家族,蛋白质分类的方法)

3、蛋白质序列模式和结构域模式分析

4、蛋白质结构预测与合理药物分子设计

5、蛋白质组数据分析及相关工具与资源

第八章核酸和蛋白质序列的进化分析(4学时)

基本要求:

了解分子系统学(或分子进化)的有关概念和理论,理解系统发言模型建立的原理和方法,熟悉分子进化树的建立、分析,熟练掌握一种以上的系统发育分析软件的使用。

重点:

系统发育模型的组成、建立与分析,分子进化树的构建

难点:

构建进化树的原理和算法

主要内容:

1.分子系统发育概述

2.系统发育模型的组成、建立与分析

3. 建立分子进化树的方法与评估

4. 系统发育分析软件(MEGA, PAUP*, PHYLIP和Treeview等)

第九章算法和语言(2学时)

基本要求:

了解生物信息学与计算机编程的关系,了解一些生物信息学常用的计算方法和编程语言及数据库语言,了解生物信息学中的一些研究模型

重点:

遗传算法、Perl语言与Bioperl、R语言、BioJava库

难点:

隐马尔科夫模型(HMM)

主要内容:

生物信息学中的计算机技术,生物信息学中的计算方法,计算方法中的生物思想,遗传算法,Perl语言与Bioperl,R语言,BioJava库,生物信息学序列置标语言(BSML),遗传表达置标语言(GEML),隐马尔科夫模型(HMM),人工智能和人工神经网络,图论与生物信息学。

第十章生物信息学资源、平台及其综合应用(4学时)

基本要求:

对生物信息学常用软件资源、网络在线分析资源、网络数据库资源有一个比较全面的总结,并了解有关资源整合和综合分析平台构建的知识。了解与生物有关的文献信息检索常识和技巧。重点:

Windows环境下的生物信息学软件(尤其是前述章节中没有涉及到、但比较重要和常用的软件,如一些分子生物学数据分析用软件、功能比较全面的综合性分析软件、生物学统计软件),生物信息学分析类网络资源,生物信息学学习类网络资源。

难点:

生物信息学分析类网络资源,自建核酸和蛋白质序列分析平台

主要内容:

Windows环境下的生物信息学软件(前面章节所有软件小结和常用重要综合性生物信息学软件使用方法,如DNAStar、OMIGA, VectorNT suite, DNAMAN等),PCR引物和寡核苷酸探针设计(OLIGO6和PRIMER PREMIER 软件使用),遗传连锁的分析软件使用,Linux/Unix环境下的生物信息学软件,Macintosh环境下的生物信息学软件,一些通用的计算、统计和分析类软件介绍(如Matlab、SPSS等),生物信息学分析类网络资源,生物信息学学习类网络资源,资源的综合利用:自建核酸和蛋白质序列分析平台,相关实例分析。生物类信息检索和整理方法(包括相关常用软件介绍,如EndNote等)

第十一章其他生物信息学领域和技术简介(3学时)

基本要求:

了解生物信息学在基因芯片、药物设计和分子模拟等领域的应用和发展前景

重点:

基因差异表达的分析方法

难点:

聚类与分类及基因调控网络分析的方法,计算机辅助药物分子设计方法

主要内容:

1.Microarray基因表达数据分析

1.1基因表达数据分析概述

1.2差异表达分析

1.3聚类与分类

1.4基因调控网络分析

1.5基因表达数据分析相关工具与资源

2. 生物信息学与药物研究

2.1生物信息学在药物研究中的作用

2.2疾病相关基因的预测

2.3药物靶标的发现

2.4计算机辅助药物分子设计

3.分子模拟与分子动力学

红河学院《生物信息学》实验课程教学大纲

(一)课程名称:生物信息学

(二)所属实验室名称:

(三)实验教材及参考书:

生物信息学不仅是一门科学学科,更是一种重要的研究开发工具,《生物信息学》理论课程中很多内容需要进行操作实践才能实质性掌握运用,因此,在目前尚缺乏实验操作教材的前提下,自编操作实验教材和安排上机操作实验十分必要。一下教材仅供参考:

[1]《生物信息学方法与实践》,张成岗、贺福初编,科学出版社,2002年;

[2]《基因组数据分析手册》,胡松年、薛庆中编,浙江大学出版社,2003年;

[3]《基因表达序列标签( EST) 数据分析手册》,胡松年编,浙江大学出版社,2005 年。(四)实验内容和目的:

结合理论课的学习,使学生熟练使用基因和蛋白质数据库的使用方法,掌握利用相关软件进行核酸序列和蛋白质序列的基本分析,提高学生用计算机进行基因和蛋白质分析的能力。(五)考核方式:

实验成绩根据平时的实验表现、各个模块的作业成绩以及期末上机综合考查来评定,实验成绩按50%(必修)或40%(选修)比例计入课程总评成绩。实验报告或课后作业可以电子版和纸质版同时提交。

(六)实验环境:

硬件最低要求:PIII微型计算机,主频800MHZ以上,内存256MB以上,硬盘20G。每个学生每次上机实验使用一台计算机。能连接Internet(教育网要能连接国外有关的生物信息学数据库)。

软件:常用生物信息学软件,多媒体控制和网络教学软件。

(七)实验项目及安排

以下实验项目分为必做和选做两种,必做题目在学期结束时必须完成;选做题目可以根据实际上课时间和学生个人差异进行灵活安排,或作为课程设计题目在假期中完成。总实验上机学时保持不变(18学时)。教学计划中未安排上机学时或者实际条件暂时不能满足时,可以安排学生课下完成相应实验。

实验一常用分子生物学数据库类型、数据格式及检索

1、实验目的

(1)掌握序列检索的操作方法;

(2)熟悉GenBank数据库序列格式及其主要字段的含义;

(3) 了解EBML数据库序列格式及其主要字段的含义;

(4) 熟悉GenBank数据库序列格式的FASTA序列格式显示与保存;

(5) 了解Entrez和SRS搜索引擎的异同;

(6)强化培养计算机操作能力和网络搜索能力。

2、实验要求

(1)认真阅读和掌握和本实验相关的教材(或讲义)内容;

(2)有条理的进行每个步骤,出现问题和收获都要学会记录;教师注意了解学生计算机应用能力的个人差异;

(3)边操作边思考、记忆、比较,完成实验报告;

3、实验内容

(1)首先让学生自主性利用所知道的搜索引擎,搜索和浏览至少10个国外和至少5个国内生物信息学相关网站,并描述网站特征;

(2)下载各网站的代表性数据各10条(组)以上,并说明其生物学意义;

(3)使用Entrez 信息查询系统检索核酸序列BC060830 和NM_000230,连接提取该序列内容,阅读序列格式的解释,理解其含义;

(4)GenBank数据库序列格式的FASTA序列格式显示与保存;

(5)使用SRS信息查询系统检索核酸序列BC060830,连接提取该序列内容,阅读序列格式的解释,理解其含义;

(6)使用搜索引擎搜索下载DNAClub和BioEdit并正确安装。

实验二生物序列的相似型搜索——Blast及其应用

1、实验目的

了解BLAST及其子程序的原理和基本参数,熟练地应用网络平台和Linux计算平台进行本地BLAST序列比对(有条件的前提下),熟悉BLAST结果的格式和内容并能描述其主要意义,同时比较网上平台和本地平台的优缺点。

2、实验要求

利用上一次实验下载的核酸和蛋白质序列,提交到NCBI或者其他拥有BLAST运算平台的网页上,观察其基本参数设定库文件类型,并得到计算结果;(条件许可时)在本地服务器上学会用formatdb格式化库文件,并输入BLAST命令进行计算,获得结果文件。熟悉并记住blast的每个步骤、每个子程序和重要结果参数。完成实验报告。

3、实验内容

(1)向网上BLAST服务器提交序列,进行blastp、blastn、blastx、tblastn、tblastx,得到匹配结果;

(2)本地使用BLAST,格式化库文件,输入命令行得到匹配结果(视条件选作);

(3)对结果文件进行简要描述,阐述生物学意义。

实验三核酸序列的基本分析

1、实验目的

(1)掌握已知或未知序列接受号的核酸序列检索的基本步骤;

(2)掌握使用BioEdit 软件进行核酸序列的基本分析;

(3)熟悉基于核酸序列比对分析的真核基因结构分析(内含子/外显子分析);

(4)熟悉密码子偏好性分析;

(5)了解基因的电子表达谱分析。

2、实验要求

利用第一次实验下载安装的分析软件对前2次实验搜索得到的DNA序列进行一些核酸基本性质的分析,完成实验报告。

3、实验内容

(1)使用Entrez或SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子和5’调控区 (promoter) 等核酸序列,连接提取该序列内容,阅读序列格式的解释,理解其含义;(2)使用BioEdit 软件对上述核酸序列进行分子质量、碱基组成、碱基分布、序列变换以及限制性酶切分析等基本分析,并从BioEdit 软件的“help”栏了解该软件的其它功能;

(3)使用BioEdit 软件对人瘦素 (leptin) 的mRNA序列进行可读框架(ORF)分析;

(4)应用CodonW对人瘦素 (leptin) 的mRNA序列进行密码子偏好性分析;

(5)使用NCBI查询系统进行人瘦素 (leptin) 的基因组序列分析和基因的电子表达谱分析;(6)使用Blast2进行人瘦素 (leptin) mRNA序列与其外显子或基因组序列的比对分析。

实验四蛋白质序列的基本分析

1、实验目的

(1)掌握蛋白质序列检索的操作方法;

(2)熟悉蛋白质基本性质分析;

(3)熟悉基于序列同源性分析的蛋白质功能预测,了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测;

2、实验要求

复习巩固对蛋白质序列数据的检索,进一步掌握BioEdit软件的使用,熟悉蛋白质在线分析平台的使用,加深对蛋白质基本性质的了解。

3、实验内容

(1)使用Entrez或SRS信息查询系统检索人脂联素 (adiponectin)蛋白质序列;

(2)使用BioEdit 软件对上述蛋白质序列进行分子质量、氨基酸组成、和疏水性等基本性质分析;(3)使用在线分析平台ExPASy对上述蛋白质序列进行理化性质和结构域分析;

(3)对人脂联素蛋白质序列进行基于NCBI/Blast 软件的蛋白质同源性分析;

实验五生物大分子结构分析与结构预测

1、实验目的

(1)掌握常用大分子空间结构显示软件的使用方法;

(2)熟悉一些重要的结构预测软件的使用;

(3)理解大分子空间结构的数字表征和结构预测的原理;

(4)了解大分子结构数据库的种类、特点和检索方式。

2、实验要求

复习数据库知识要点,了解生物大分子的结构特征,会用本地软件和在线工具显示分析大分子的三维空间结构;能熟练运用RNA二级结构预测软件,了解蛋白质结构预测的常用方法,通过实验加深理论课知识内容的理解和掌握。

3、实验内容

(1)从PDB上下载大分子结构文件(DNA、RNA、蛋白质、糖类各一种);

(2)分别用Rosmol和ViewLite等软件显示分析下载的分子结构;

(3)下载其中的RNA分子所对应的序列,用RNAStructure、RNAdraw等软件或者MFold在线分析工具对其二级结构进行预测,并与PDB中已有的实验结构进行比较;

(4)利用swiss-model对蛋白质序列进行三维结构预测(蛋白质序列可以选用实验四下载的人脂联素)。

生物信息学复习题及答案

生物信息学复习题 名词解释 1. Homology (同源):来源于共同祖先的序列相似的序列及同源序列。序列相似序列并不一定是同源序列。 (直系同源):指由于物种形成的特殊事件来自一个共同祖先的不同物种中的同源序列,它们具有相似的功能。 (旁系(并系)同源):指同一个物种中具有共同祖先,通过基因复制产生的一组基因,这些基因在功能上的可能发生了改变。基因复制事件是促进新基因进化的重要推动力。 (异同源):通过横向转移,来源于共生或病毒侵染而产生的相似的序列,为异同源。 Score:The sum of the number of identical matches and conservative (high scoring) substitutions in a sequence alignment divided by the total number of aligned sequence characters. Gap总是不计入总数中。 6.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 7. E值:得分大于等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义,E值越接近零,越不可能找到其他匹配序列。 值:得分为所要求的分值比对或更好的比对随机发生的概率。它是将观测得到的比对得分S,与同样长度和组成的随机序列作为查询序列进行数据库搜索进行比较得到的HSP(高分片段对)得分的期望分布联系起来计算的。通常使用低于来定义统计的显著性。P=1-e-E 9.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法,是序列相似性分析的基础,其不同的选择将会出现不同的分析结果。 10.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。 :美国国家生物技术信息学中心,属于美国国立医学图书馆的一部分,具有BLAST, Entrez ,GenBank等工具,还具有PubMed文献数据库。另外还具有Genome, dbEST, dbGSS , dbSTS, MMDB, OMIM, UniGene, Taxonomy, RefSeq, etc. 序列格式:是将DNA或者蛋白质序列表示为一个带有大于号(>)开始的核苷酸或者氨基酸序列的新文件,其中大于号后可以跟上序列的相关信息,其他无特殊要求。 13genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释,主要包含生物功能或数据库信息;第三部分是feature,对序列的注释;第四部分是序列本身,以“统发生树(Phylogenetic tree )是研究生物进化和系统发育过程中的一种用树状分支图来概括各种生物之间亲缘关系,是一种亲缘分支分类方法。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。是用来研究物种进化与多样性的基础,是相近物种相关生物学数据的来源。17.基因树与物种树:物种树反映一组物种进化历程的系统树,其中每一个内部节点就代表一个物种形成的过程,而基因树则是代表来源于不同物种的单个同源基因的差异构建的系统树,而其内部的一个节点则代表一个祖先基因分化为两个新的独特的基因序列的事件。基因

生物信息学期末考试重点

第一讲 生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。 生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。 生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。 生物技术与生物信息学的区别及联系 生物信息学的发展历史 ?人类基因组计划(HGP) ?人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。(百度百科) 随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。 :

】 第二讲回顾细胞结构 细胞是所有生命形式结构和功能的基本单位 细胞组成 细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构 细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器 细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等 细胞核最大的细胞器 DNA的结构 碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G) 。 核苷酸 核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊 糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就 是A、T、C、G 基因是什么 基因是遗传物质的基本单位 基因就是核苷酸序列。 大部分的基因大约是1000-4000个核苷酸那么长。 基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。 基因在染色体上。

生物信息学课程设计

生物信息学课程设计报告 题目:用blast、clustalx2和mega来分析鼠伤寒沙门氏菌的四环素抗性基因 专业:生物技术 班级:11-2 学号:11114040235 姓名:邹炜球 指导教师:马超 广东石油化工学院生物工程系 2013年 12 月 21 日

摘要 生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。本课程设计主要通过分析鼠伤寒沙门氏菌的四环素抗性基因来介绍生物信息学里面常用的数据库NCBI和一些常用的软件(如blast、clustalx2、Primer Premier 5和mega),由于生物信息学这一门课在生物研究领域所起到的作用非常大,所以熟练一些常用的生物信息学软件和数据库是非常有必要的。 关键词:NCBI、blast、clustalx2、Primer Premier 、mega、生物信息学、序列比对、系统发育树

目录 1绪论 (4) 1.1生物信息学的发展概况 (4) 1.2生物信息学的发展展望 (4) 2 课题设计内容 (5) 2.1以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,蛋白质序列 为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式 (6) 2.2以设计内容1为目标序列进行BLAST分析 (7) 2.3通过BLAST或相关软件下载8条基因或蛋白质序列 (9) 2.4以8条基因序列进行多序列比对 (10) 2.5依照设计内容4构建系统发育树 (10) 2.6以其中一条基因序列设计一条长度为200-500bp的一对引物 (12) 参考文献 (16)

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

生物信息学复习资料

第一章 1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图 3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 、EMBL、DDBJ 5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。 第二章: 1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降 3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap 4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

生物信息学试题整理

UTR的含义是(B ) A.编码区 B. 非编码区 C. motif的含义是(D )。 A.基序 B. 跨叠克隆群 C. algorithm 的含义是(B )。 A.登录号 B. 算法 C. RGR^ (D )。 A.在线人类孟德尔遗传数据 D.水稻基因组计划 下列Fasta格式正确的是(B) 低复杂度区域 D. 幵放阅读框 碱基对 D. 结构域 比对 D. 类推 B. 国家核酸数据库 C. 人类基因组计划 A. seql: agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta C. seq1:agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta D. >seq1agcggatccagacgctgcgtttgctggctttgatgaaaactctaactaaacactccctta 如果我们试图做蛋白质亚细胞定位分析,应使用(D) A. NDB 数据库 B. PDB 数据库 C. GenBank 数据库 D. SWISS-PROT 数

据库 Bioinformatics 的含义是(A )。 A. 生物信息学 B. 基因组学 C. 蛋白质组学 D. 表观遗传学 Gen Bank中分类码PLN表示是(D )。 A.哺乳类序列 B. 细菌序列 C.噬菌体序列 D. 植物、真菌和藻类序列 ortholog 的含义是(A)0 A.直系同源 B.旁系同源 C.直接进化 D.间接进化 从cDNA文库中获得的短序列是(D )o A. STS B. UTR C. CDS D. EST con tig的含义是(B )o A.基序 B. 跨叠克隆群 C. 碱基对 D. 结构域 TAIR (AtDB)数据库是(C)o A.线虫基因组 B. 果蝇基因组 C. 拟南芥数据库 D. 大肠杆菌基因组ORF的含义是(D )o A.调控区 B. 非编码区 C.低复杂度区域 D. 幵放阅读框

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学期末考试重点

1、生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解 释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计 算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技 术而揭示大量而复杂的生物数据所赋有的生物学奥秘。 2、数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于 距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后, 数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方 式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数 据存储的大型数据库系统都在各个方面得到了广泛的应用。 3、表达序列标签从一个随机选择的cDNA 克隆进行5’端和3’端单一次测序获得的短 的cDNA 部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20 到7000bp 不等,平均长度为360 ±120bp。EST 来源于一定环境下一个组织总 mRNA 所构建的cDNA 文库,因此EST也能说明该组织中各基因的表达水平。 4、开放阅读框是基因序列中的一段无终止序列打断的碱基序列,可编码相应的蛋白。 ORF识别包括检测六个阅读框架并决定哪一个包含以启动子和终止子为界限的 DNA序列而其内部不包含启动子或终止子,符合这些条件的序列有可能对应一个 真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编 码基因的部分或全部的先决条件。 5、蛋白质的一级结构在每种蛋白质中氨基酸按照一定的数目和组成进行排列,并进 一步折叠成特定的空间结构前者我们称为蛋白质的一级结构,也叫初级结构或基 本结构。蛋白质一级结构是理解蛋白质结构、作用机制以及与其同源蛋白质生理 功能的必要基础。 6、基因识别是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别 DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因, 也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。基因识别是基 因组研究的基础。

生物信息学课程大纲

《生物信息学》课程大纲 一、课程目标 1.学科素养:生物信息学的基本研究方法,并能掌握应用其中的一些常用方法,以提高学生的科研能力,领会采用信息学技术去分析和探索大量核酸和蛋白质序列所蕴藏的生命意义的基本思路。(支撑毕业要求 3-1) 2.交流合作:理解团队学习的重要性,具有团队协作精神,掌握沟通合作技能,具有小组互助和协作学习体验。(支撑毕业要求 8-1) 3.交流合作:具有小组互助和协作学习体验,具备与学校领导、同事、学生、家长及社区沟通交流的知识与技能。(支撑毕业要求 8-3)

二、课程目标与毕业要求的对应关系 三、教学内容、重难点和课时安排 1.第一章生物信息学概论(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点(二)教学内容 1、生物信息学的概念和发展历史(支撑课程目标1) 2、生物信息学的生物学基础(支撑课程目标1) 3、生物信息学的计算机和网络基础(支撑课程目标1) 4、生物信息学的数学基础(支撑课程目标1) 5、生物信息学的产业化(支撑课程目标1) 6、生物信息学研究内容和发展前景展望(支撑课程目标1)

(三)本章重难点 ※生物信息学的数学基础、生物信息学的计算机和网络基础 第二章分子生物学数据库(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、生物学数据库概述(支撑课程目标1) 2、核苷酸序列与基因组数据库(支撑课程目标1) 3、蛋白质序列与模式、同源性数据库(支撑课程目标1) 4、结构数据库(支撑课程目标1) 5、基因和分子的互作和代谢途径信息数据库(支撑课程目标1) 6、RNA核苷酸序列数据库(支撑课程目标1) 7、其它遗传学与分子生物学资源(支撑课程目标1) 8、数据库中存在的问题及使用注意事项(支撑课程目标1) (三)本章重难点 ※蛋白质序列与模式、同源性数据库;基因和分子的互作和代谢途径信息数据库;RNA 核苷酸序列数据库 第三章序列比对与数据库检索(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、序列比对概述(支撑课程目标1) 2、双序列比对(支撑课程目标1) 3、比对的统计学显著性(支撑课程目标1) 4、多序列比对(支撑课程目标1) 5、数据库搜索(支撑课程目标1) 6、基因组长序列比对(支撑课程目标1) (三)本章重难点 ※双序列比对、数据库搜索 第四章核酸序列的信号和功能识别(4学时)

生物信息学复习资料全

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程 息的存贮、信息的涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、 实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组 序列的功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树 状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该 是进化保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会 进化出新的与原来有关的功能。用来描述在同一物种由于基因复制而分离的同源基因。(来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的 核苷酸或氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止 密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度) 9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区 域,折叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空 位并进行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编 码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单 的归类整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋 白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所 占的比例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将 同所查序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐 一地同每条所查序列作一对一的序列比对。(来自百度)

《生物信息学》教学大纲

《生物信息学》教学大纲 Bioinformatics 课程编码:27A11708 学分:1.5 课程类别:专业任选课 计划学时:24 其中讲课:20 上机:4 适用专业:生物技术专业、药学专业 推荐教材:薛庆中著,《DNA和蛋白质序列数据分析工具》,科学出版社,2014年。 参考书目:张成岗著,《生物信息学方法与实践》,科学出版社,2005年。 课程的教学目的与任务 本课程的教学目的是引导学生初步了解生物信息学的基本研究内容与研究方法以及生物信息在多学科领域的应用。使学生掌握生物信息学的基本术语、基本原理、基本研究方法、重要核酸和蛋白质数据库等。掌握指定的基于互联网的常用生物信息学软件的基本操作使用方法。要求学生通过基于问题和任务的学习方式,初步具备解决简单生物信息学问题的研究能力。 课程的基本要求 通过本课程的学习,要求学生1. 掌握该领域的基本知识。2. 掌握指定数据库与软件的应用。3.课程的主要任务包括一次期末考试和多次的章节作业以及课程问题讨论等。 4.培养与引导学生采用生物信息学实际操作能力、以期后期能用于相应领域的研究工作中。 各章节授课内容、教学方法及学时分配建议(含课内实验) 第一章:绪论建议学时:2 [教学目的与要求] 掌握专生物信息学产生背景、概念及研究内容;介绍常用的核酸、蛋白质数据库介。 [教学重点与难点] 掌握生物信息学概念机研究内容,熟悉常用数据库的使用。 [授课方法] 课堂讲授结合上机操作 [授课内容] §1.1生物信息学的产生背景,概念 生物信息学的发展简史 生物信息学的不同定义 §1.2生物信息学的研究内容及常用的核酸、蛋白质数据库介绍 生物信息学的而研究内容 常用的核酸数据库 常用的蛋白质数据库

2019版国科大生物信息学期末考试复习题

中科院生物信息学期末考试复习题 陈润生老师部分: 1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要? 答:生物信息学有三个方面的含义: 1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和 解释的所有方面,是基因组研究不可分割的部分。 2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语 言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。 3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它 是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。 2.如何利用数据库信息发现新基因,其算法本质是什么? 答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式: 1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因: (利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。②基于组分,即基因家族、特殊序列间比较,Complexity analysis,Neural Network 2)利用EST数据库发现新基因和新SNPs: (归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要是拼接问题) 数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库①构建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库; ②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质; ③用种子和纯化的EST数据库比对 ④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸; ⑤判断是否为全长cDNA序列。 (利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)

生物信息学复习重点

生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。 生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。从生物分子获得和挖掘深层次生物学知识。人类基因组计划(HGP:获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。其中我国承担了人类3 号染色体短臂。 记录:一个数据库记录一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释。 冗余:在一个数据库存在着多个相同的项,如两个或者更多的记录中有一个相同序列 Fasta 格式开始于一个标识符:">" ,然后是一行描述。 GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCU开头描述行,基因序列以ORIGN开头,以/结尾。 EMBL入口标识符ID,序列开始标识符SQ结束是/。 数据库的特点:①数据库是可以检索的,即具有检索功能;②数据库应该是定时更新的,即不断有新版内容发布;③数据库是交叉引用的,特别是在互联网时代,数据库应该通过超链接与其他数据库相连。 EST序列:表达序列标签对cDNA文库测序得到的,是转录的DNA序列。 STS序列:序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp —500bp)。 STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA序列,用于产生作图位点。 GSS序列:基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。 HTG序列:高通量基因组序列 三大数据库: NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据和各种服务。 EMBL欧洲分子生物学实验室。 DDBJ日本遗传研究所。 同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。基因同源性只有“是”和“非”的区别,是一种质的判断。 直系同源基因:分布在不同物种间的同源基因又称直系同源基因。 旁系同源基因:同一物种的同源基因则称旁系同源基因 (水平基因:, 水平基因由重复后趋异产生。 一致性:序列中同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。 相似性:序列中同一位置相同或相似序列的百分比。如同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能。 相似性和同源性关系:一般来说序列间的相似性越高的话,是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。 序列比对:确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。任务:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的根本差异。 相似性:可能是核酸/氨基酸序列的相似、可能是结构的相似、可能是功能的相似

生物信息学复习资料 整理(双语)

基因表达gene expression:是基因中的DNA序列生产出蛋白质的过程。步骤大致从DNA 转录成mRNA开始,一直到对于蛋白质进行后转译修饰为止。 基因水平转移horizontal gene transfer:指生物将遗传物质传递给其他细胞而非其子代的过程,基因水平转移是一个重要的现象。 人工神经网络(Artificial Neural Networks)人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。 序列比对sequence alignment:序列比对指将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。在比对中,错配与突变相应,而空位与插入或缺失对应。 可变剪接alternative splicing :通过不同的剪接位点,从一个单独的前体mRNA生成两个或多个mRNA成熟分子的现象。 启动子(promotor): 指一段能使基因进行转录的DNA序列。启动子可以被RNA聚合酶辨认,并开始转录。在RNA合成中,启动子可以和决定转录开始的转录因子产成相互作用,继而控制细胞开始转录翻译蛋白质。 增强子Enhancer:是DNA上一小段可与转录因子蛋白结合的区域,结合之后,基因的转录作用将会加强。强化子可能位于基因上游,也可能位于下游。 分支约束法branch and bound method :一种对最大简约树进行逐层搜索的智能高效的方法,包括两个步骤:一、将上边界确定为数据集的最大简约树的长度;二、每次增加一个分支,逐步生成一棵树,以此描述部分被考虑序列的相互关系。 趋同演化(Convergency):在演化生物学中指的是两种不具亲缘关系的动物长期生活在相同或相似的环境,或曰生态系统中,它们因应需要而发展出相同功能的器官的现象。 Chou-Fasman 参数Chou-Fasman parameter:表示与α螺旋、β折叠以及发夹环各个位置相关的氨基酸二级结构经验观察趋势的一系列数值参量。 位置特异性打分矩阵position-specific scoring matrix:一个矩阵,矩阵中的每一个数表示某个特定的氨基酸占据多序列比对中某个位置的频率。 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。 系统生物学system biology:是一个试图整合不同层次信息以理解生物系统如何行使功能的学术领域。通过研究某生物系统各不同部分之间的相互关系和相互作用(例如,与细胞信号传导,代谢通路,细胞器,细胞,生理系统与生物等相关的基因和蛋白网络),系统生物学期望最终能够建立整个系统的可理解模型。

生物信息学试题

华中农业大学研究生课程考试试卷(B) 考试科目名称:生物信息学考试时间:2011年6月15日备注:所有答案均要写在答题纸上,否则,一律无效。 提示:(1)2小时答题时间;(2)课堂开卷,独立完成;(3)答题简明扼要 1.请查询序列AK101913(GenBank注册号)的相关信息并回答下列问题:(1)若用限制性内切酶PstΙ消化这条序列,可以得到几个片段?(4分) (2)该序列编码的蛋白质有多少个氨基酸?哪种氨基酸所占比例最高?等电点是多少?是否糖蛋白质?如果是糖蛋白,请给出具体类型及糖基化位点。(10分)(3)请分析该序列编码蛋白的保守结构域,根据你的分析,该蛋白可能具有什么样的生物学功能?(6分) 2.任选一种基因结构分析工具,预测序列J04982(GenBank注册号)的基因结构及其编码产物的理化性质。请注明分析工具的名称,以及是否采用某一物种的数据作为参照。 (1)根据你所选用的分析方法,这条序列编码多少个基因?分别包含有多少个exon?预测基因(如有多个基因请注明是第几个基因)是否有转录起点和PolyA加尾信号? 分析结果是否与GenBank提供的注释信息相符合?(10分) (2)预测的第一个基因编码的蛋白质是否包含有信号肽(注明切割位点)和跨膜区域(注明跨膜区)?预测该蛋白的亚细胞定位。(10分) 注:3a、3b任选一题 3a.RZ220是水稻分子标记遗传连锁图上的一个分子标记,请回答下列有关问题:(1)这个分子标记/位点被定位于水稻的第几号染色体?在你检索的网站(请注明网址)多少水稻的遗传连锁图使用了该分子标记?请列出分子标记遗传连锁图的名称及 其类型(Map Type)(10分) (2)RZ220属于什么类型的分子标记?指出一个与该标记连锁或附近的QTL(注明其编号),并说明该QTL控制什么性状,列出定位该QTL的研究的相关文献。(10分) 3b.BM6506是羊分子标记遗传连锁图上的一个分子标记或位点,请回答下列有关问题:(请注明分析方法名称) (1)这个分子标记/位点被定位于羊的第几号染色体?(4分) (2)在SM1分子标记遗传连锁图上与这个分子标记/位点紧密连锁(两侧)的分子标记/位点的名称是什么?这个分子标记/位点在SM1分子标记遗传连锁图上的遗传位置 是多少?(8分) (3)列出一篇与该标记相关的文献及其在PubMed中的PMID号。(8分) 4.分析六条蛋白质序列(BAF63641、ABO31104、ACO11338、ABH07379、AAF65254、AAB38498)的同源性并回答下列问题(请注明分析方法名称): (1)哪两条序列的进化关系最近,一致性(Identity)是多少?相似度(Similarity/Positive)是多少?(10分)

生物信息学复习题及答案

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。

相关主题