收稿日期:2003—09—23
作者简介:张见影(1959—
),女,毕业于白求恩医科大学图书情报系,现在吉大一院《中风与神经疾病杂志》编辑部,副编审,从事医学编辑工作。
NC BI 基因序列数据库使用和检索方法
张见影 伦志军 李正红(吉林大学,长春130021)
〔摘 要〕 针对基因组信息在生物信息学中日益占据重要的地位,介绍NC BI 基因序列数据库使用特点及其检索方法。
〔关键词〕 数据库;基因序列;检索;NC BI
〔Abstract 〕 The article gives introduction to search strategies and function of NC BI G enoma.〔K ey w ords 〕 database ;gene ;searching ;NC BI 〔中图分类号〕G 25217 〔文献标识码〕A 〔文章编号〕1008-0821(2003)12-0224-02
NC BI 基因序列数据库(http :∥w w w.ncbi.nlm.nih.g ov )
收录了1981年至今各国科学家直接提交注册的基因序列、各种科技期刊论文中报道的基因序列和各种专利中公开的序列。
1 因特网免费基因序列数据库概述
分子生物学技术作为未来具有战略意义的高科技的前沿领域,其发展受到世界各国的高度重视,生物序列信息源的有效开发和利用对该领域的发展至关重要。为促进生物分子学技术的发展,许多国家都建立了专门的研究中心,由政府资助从事生物序列数据库及检索系统和检索软件的开发和研制,并通过因特网为科技人员提供生物序列信息服务。目前.internet 网上的生物序列信息源主要分布在美国、日本和欧洲。其中,比较著名的有美国国家生物技术信息中心(National Center for Biotechnology In formation )开发的genbank 数据库、日本的DDB J 核酸序列数据库、欧洲的E M BL 核酸数据库,此外还有许多其他蛋白序列数据库、序列分析软件及工具。
在众多的基因序列数据库网站中,NC BI 系统是集成化程度最高的综合性生物序列信息库,是世界各国生物学家使用最普通的序列检索和分析工具,在世界生物分子学研究中发挥着巨大的作用。
NC BI 是美国国家生物技术信息中心的简称,该中心成立于1988年,与美国国家图书馆同属于美国国立卫生研究所NIH 。该中心主要负责美国生物信息源的开发和传播,进行生物信息处理和检索软件的开发,此外还开展生物遗传学方面的研究工作。有NC BI 开发的G enBank 数据库是世界著名的核酸序列数据库,其序列信息来源于多种途径,其中由来源于期刊的基因序列,由来源于专利文献的积云序列。G enBank 已成为世界权威的核酸序列登记数据库,科研人员研究测定的核酸序列在正式发表之前,一般都先到G enBank 注册,各类学术刊物一般也要求提供序列的G enBank 登记号。
为了实现全世界范围的生物序列信息资源共享,向生物技术领域的研究人员提供最全面和权威的生物信息服务,
NC BI 还收录了除G enBank 以外的各种生物序列数据库,并
每天利用国际互连网接收这些数据库传送的最新数据,以高度集成的方式向全世界的科技人员提供生物序列信息的检索服务。
2 NCBI 基因序列数据库的收录范围
NC BI 检索系统收录了许多基因序列和蛋白序列数据
库,此外还提供ME N LI NG 数据库的检索。其中,G enBank 数据库是NC BI 检索系统中主要的基因序列数据库,该数据库收录了1981年至今的各国科学家直接提交注册的基因序列、各种科技期刊论文中报道的基因序列和各种专利中公开的序列。另外,NC BI 还收录了日本基因序列数据库DD 2B J 、欧洲基因序列数据库E M BL 以及SWISS 2PROT 、PIR 、PDB 等蛋白序列数据库。NC BI 对系统收录的众多数据库进行了整合,为用户提供了集成程度非常高的检索工具,可以使用户方便地实现多个数据库集成化大规模检索。
3 NCBI 系统提供的检索功能
NC BI 提供多种生物序列数据库和集成化检索工具,用
户根据网址http :w w w.ncbi.nlm.nih.g ov 进入NC BI 主页后可以看到在NC BI 主页上方的导航条中有许多检索工具选择,其中包括:
Pubmed:用于集成化检索ME D LI N 、PreME D LI NE 、HealthST AR 等书目数据库的检索系统和一些电子版期刊论文(ME D LI N 不收)
Entrez :集成化检索系统。用于检索BC NI 系统中相互
接连的多个数据库,这些数据库包括PubMed 书目数据库、核酸序列数据库、蛋白序列数据库、大分子结构数据库、完整染色体数据库等。
Blast :序列相似性检索系统。用于在核酸序列数据库或蛋白序列数据库中进行序列相似性检索,或对序列进行分析。
OMI M:RE N LIE 人类遗传基因序列及遗传缺陷数据库检索系统。该数据库可以单独检索,也可以通过Entrez 系统进行检索。
T ax onomy :生物序列分类数据库检索系统。该数据库
—
422—现代情报
2003年12月第12期
December 12003N o .12
■
情报纵横
将基因序列按不同生物进行分类,用户可以按生物类属检索不同种类的基因序列。
S tructure:生物大分子3D结构数据库,同时也是显示和分析生物大分子三维结构和进行比较分析的工具,该数据库收录了来自蛋白数据库PDB中蛋白生物大分子。
4 利用B LAST系统进行序列相似性检索的方法NC BI提供的BLAST相似性检索系统是专门用于检索核酸和蛋白序列并将之与所选的NC BI序列数据库中序列进行相似性比较的检索工具。BLAST系统的运算机制不同于全序列比较,该系统的设计要注重平衡运算速度和增加系统非同源序列的敏感性,注重通过序列片段的某些区域来测定共有的相似序列片段的序列之间的关系。所以,BLAST2 BU不仅仅是一个通过序列排队比较测定序列的同源性简单工具,而且也是通过序列片段的相似性来对序列的结构和功能进行比较的工具。
411 选择BLAST检索程序
BLAST系统为用户提供了几种不同的序列检索、比较和分析程序,用户可以根据需要进行选择。
检索时,首先用鼠标点击NC BI主业导航条中的BLAST 选项,进入BLAST检索系统主页,其中列出了所有BLAST 检索程序,下面分别进行介绍。
41111 Nucleotide BLAST
S tandard nucleotide2nucleotide BLAST[blastn] 标准核酸序列检索程序
MEC ABLAST 特大核酸序列检索程序
Search for short nearly exact matches 核酸短序列检索程序
41112 Protein BLAST
Protein BLAST是专门用于进行蛋白序列相似性检索的系统,其中包括三个检索程序:
S tandard protein2protein BLAST[blastp] 标准蛋白序列相似性检索程序
PSI2and PHI2BLAST 蛋白序列检索程序,该检索程序对重复保守片段给与很高的相似性得分,增加了比较的敏感性。
Search for short nearly exact matches 蛋白短序列相似性检索程序
41113 T ranslated BLAST Searches
T ranslated BLAST Searches是专门用于进行翻译序列检索的系统,包括三个检索程序:
Nucleotide query2Protein db[blastx] 将一核酸序列翻译的所有阅读框与一蛋白序列数据库进行比较,用这种方法可以找到某一已知核算序列所有可能的翻译产品。
Protein query2T ranslated db[tblastn] 将一蛋白序列与一核酸序列库中动态翻译的所有阅读框进行比较。
Nucleotide query2T ranslated db[tblastx] 将一核酸序列的每6个阅读框翻译与一核酸序列数据库中6个阅读框翻译进行比较。
41114 Search for conserved
Search the C onserved D omain Database using PRS2BLAST
利用RPS2BLAST检索保守序列系统。
Search by domain architecture[C DART]41115 Pairwise BLAST
BLAST2Sequences对两个基因序列和蛋白序列进行相似性比较的工具。
41116 G enomic BLAST pages利用BLAST对12个子库进行检索如:Human,M ouse,Rat,Fugu rubrpes等。
41117 S pecialized BLAST pages
S pecialized BLAST允许用户对研究领域进行检索
VecScreen2BLAST2based detection of vector contamination
VecScreen基于BLAST的用于测定载体序列污染的程序,解决公共基因数列数据库中载体序列污染的问题。
lg BLAST2Analysis of immunoglobulin sequences in G enBank
lg BLAST分析BankG enk数据库的免疫球蛋白序列的程序
T race BLAST2A page optimized fir cross2species com paris ons 41118 Retrieve results with a Request I D
对已有I D检索号的检索策略进行检索。
41119 JavaScript free BLAST pages
G et the BLAST home page with Java Script free links
5 利用E ntrez系统检索序列信息的方法
Entrez是一个用于通过主题途径检索NC BI数据库检索系统,提供的检索数据库包括:核酸数据库、蛋白质数据库、大分子结构数据库、完整基因组装数据库。该系统主要提供通过数据库提录信息或关键词进行检索。
参考文献
[1]胡德华.基因库的Entrez浏览检索[J].高校图书馆工作,1999,19,(3):21—23.
[2]李晓玲.美国NC BI网站基因数据库使用和检索[J].现代图书情报技术,2002,(2):42—43.
[3]高东怀.网络应用与生物医学信息检索[M].西安:第四军医大学出版社,2002.
养奶牛 奔小康
(纯种中国荷斯坦奶牛)
位于五台山绿色牧业奶牛养殖基地现有奶牛
3800余头,因乳业疲软,全部低价急售,小母牛(3
~18月)1300~3800元,头胎怀牛4000~4800元,
2~3胎(日产奶60~80斤)看牛定价,出境手续免
费,专人途中护理,如途中出现伤亡由本场负责,
保运到家,欢迎集体个人前来考察选购。启程前请
电告,专车免费接送,车号(晋H14929),谨防假冒。
凡持本广告车费全部报销。
联系场址:山西五台山绿色牧业奶牛场养殖基地
销售科科长:贺年平
电话:0350—6076455
手机:(0)138********