搜档网
当前位置:搜档网 › 蛋白质序列分析

蛋白质序列分析

蛋白质序列分析
蛋白质序列分析

肽和蛋白质的直接测序法

目前,肽和蛋白质的测序有三种策略:①根据基因测序的结果,从cDNA演绎肽和蛋白质序列,这种策略简单、快捷,甚至可以得到未分离出的蛋白质或多肽的序列信息。但是,用这一策略得到的一级结构不含蛋白质翻译后修饰及二硫键位置等信息;②直接测序策略;③质谱测序与生物信息学搜索相结合的策略。第①种策略可参考分子生物学的有关专著,第③种策略将在本书蛋白质组与蛋白质组分析一章中介绍,本章介绍直接测序策略。

1953年,Frederick Sanger在对牛胰岛素的研究中首先提出氨基酸直接测序的概念,迄今为止,已通过直接测序阐明了几千种蛋白质的氨基酸序列。

在蛋白质序列测定中,因为可以得到的蛋白质样品十分有限,而且蛋白质包含的20种不同的氨基酸表现出不同的化学功能和化学活性,在测序过程中每一次变性或裂解所发生的一系列副反应,将使测定过程变得十分复杂,在蛋白质序列测定中由于没有类似于DNA序列测定中采用的PCR技术可应用,因此,与DNA 序列测定相比,蛋白质序列测定在许多方面要复杂得多。其基本的测序过程如下所述。

确定不同的多肽链数目

首先应该确定蛋白质中不同的多肽链数目,根据蛋白质N-端或C-端残基的摩尔数和蛋白质的相对分子质量可确定蛋白质分子中的多肽链数目。如果是单体蛋白质,蛋白质分子只含一条多肽链,则蛋白质的摩尔数应与末端残基的摩尔数相等;如果蛋白质分子是由多条多肽链组成,则末端残基的摩尔数是蛋白质的摩尔数的倍数。

肽链的裂解

当蛋白质分子是由二条或二条以上多肽链构成时,必须裂解这些多肽链。如果多肽链是通过非共价相互作用缔合的寡聚蛋白质,可采用8 mol L-1尿素,6 mo1 L-1盐酸胍或高浓度盐等变性剂处理,使寡聚蛋白质中的亚基裂解;如果多肽链之间是通过共价二硫键交联的,可采用氧化剂或还原剂断裂二硫键。然后再根据裂解后的单个多肽链的大小不同或电荷不同进行分离、纯化。

太长的多肽片段不能直接进行序列测定,一般肽片段长度不超过50个左右残基的肽段,当肽段超过这个长度时,由于反应的不完全以及副反应产生的杂质积累将影响测定结果,因此,必须通过特定的反应将它们裂解为更小的肽段。通过两种或几种不同的断裂方法(即断裂点不同)将每条多肽链样品降解成为两套或几套重叠的肽段或肽碎片,每套肽段分别进行分离、纯化,再对纯化后的每一肽段进行氨基酸组成和末端残基的分析。

使肽链中某些特殊位置上的肽键发生断裂,可采用化学反应或酶反应裂解产生若干能够进行测序的小片段。一般将蛋白质样品分为两等份,采用不同的试剂裂解产生两套不同的片段,两套片段在测序完成后,根据他们之间的重叠情况即可重新排序。

1 酶解法

蛋白质通过蛋白水解酶的裂解后将产生若干能够代表每个蛋白质特性的肽片段,用于特定的蛋白质裂解的蛋白水解酶包括外肽酶和内肽酶,裂解肽链的N-端或C-端的氨基酸可采用外肽酶,而内肽酶则用于切断肽链中某个特定部位。表10.5为常用的蛋白水解酶。

表10.5 用于蛋白质部分裂解的蛋白酶

蛋白酶酶切位点

内肽酶:

胰蛋白酶R n-1=Arg,Lys R n≠Pro

胃蛋白酶R n=Leu,Phe,Trp,Tyr,Val R n-1≠Pro

糜蛋白酶R n-1=Phe,Trp,Try R n≠Pro

内肽酶GluC R n-1=Glu

外肽酶:

亮氨酸氨肽酶R1≠Pro

氨肽酶所有N-端残基

羧肽酶 A R n≠Arg,Lys,Pro R n-1≠Pro

羧肽酶 B R n=Arg,Lys R n-1≠Pro

羧肽酶 C 所有C-端残基

具有高度专一性的胰蛋白酶是最常用的内肽酶,当下一个残基不是Pro时,胰蛋白酶可催化裂解肽链中羧基端(C端)带有正电荷的残基(Arg和Lys),如式(10.15)。将胰蛋白酶消化所获得的特征片段图谱与数据库进行比较,即可进行蛋白质的鉴定,因而被作为一种对已知蛋白质进行鉴定的方法。

(10.15)

在除去裂解位点后,即除去Lys或Arg支链上的正电荷,这个位点上的肽将不再被胰蛋白酶切断。例如,用甲基马来酸酐衍生Lys残基,产生一个不带正电荷的Lys支链,则胰蛋白酶不能将其识别作为一个裂解位点,式(10.16);而在加上裂解位点后,即在其他氨基酸支链上引入正电荷,会产生一个可被胰蛋白酶识别的新裂解位点。例如,采用如2-溴乙胺使Cys发生氨基烷基化反应,在Cys支链中引入了一个正电荷,则胰蛋白酶能将其识别作为新裂解位点,式(10.17)。通过上述两种方式,就能够更充分地发挥胰蛋白酶对蛋白质的裂解特性。

(10.16)

(10.17)

与胰蛋白酶相比较,内肽酶的专一性略差,所产生的肽片段小,与其它肽片段的重叠程度不够,肽片段在蛋白质序列中重新排列时的位置则可能发生错误。

对Arg和Lys含量较高的蛋白质,则可采用限制胰蛋白酶水解的方式,亦即通过改变反应条件,缩短反应时间,使酶与肽链接触的机会减小,从而获得符合测序要求的肽片段。

2 化学降解法

许多化学反应也可用于专一性地裂解肽键,例如,为裂解所有Met残基,可在温和酸性的反应条件下,采用溴化氰(CNBr)在C端对Met残基进行专一性的裂解,形成肽基高丝氨酸内酯,如式(10.18)

(10.18)

总的来说,为满足测序的要求,有时需要采用不同的处理方法来进行多肽链的裂解,才能得到足够小的多肽片段。

二硫键的裂解

二硫键(Disulfide bond)在两个Cys残基之间形成,可出现在一条多肽链中不同的氨基酸残基之间,也可出现在不同多肽链中的氨基酸残基之间。测序之前,必须裂解存在于多肽链中或不同多肽链之间的二硫键以便于分离和展开亚基,同时,蛋白质原有结构的分解也使测序中采用的蛋白质分解试剂能够更好地发挥作用。

裂解反应最好在变性条件下进行,例如,通过加入盐酸胍或诸如SDS等变性剂,使紧密结合的蛋白质结构展开而暴露出所有的二硫键,然后加入氧化剂或还原剂使二硫键裂解。

常用的氧化剂是过甲酸,它能使蛋白质中所有的Cys残基均被氧化为磺基丙氨酸(无论是否通过二硫键连接),式(10.19)。由于磺基丙氨酸在酸碱条件下都稳定,因此可通过产生的磺基丙氨酸数量推断Cys残基总量。

(10.19)

该方法的明显缺点是过甲酸会导致Met残基氧化为甲硫氨酸亚砜和砜,式(10.20),也可使Trp残基的吲哚侧链部分降解。

(10.20)

二硫键也可以用大大过量的二硫苏糖醇(DTT)或巯基乙醇还原为巯基,如式(10.21),式(10.22)所示。但是,产生的巯基(-SH)必须用烷基化试剂(例如碘乙酸)处理,以防止二硫键的重新形成, 式(10.23)。所产生的烷基化衍生物在后续测序步骤中的肽裂解条件下十分稳定。

(10.21)

(10.22)

(10.23)

氨基酸组成分析

在裂解二硫键后,需要对每个多肽链中氨基酸的组成进行测定。一般将分离、纯化后的多肽链样品分为两部分,一部分样品经过完全水解,测定其氨基酸组成,并计算出氨基酸各种残基的含量;另一部分样品则进行N-端或C端测序。

一个未知蛋白质的氨基酸组成,可以通过测量氨基酸残基的相对百分比并与数据库进行比较而确定。其

测量可通过两个步骤来完成,首先通过酸水解、碱水解或酶水解等方式裂解蛋白质中所有的肽键,继而分离游离氨基酸并进行定量测定。

在二硫键裂解之后,蛋白质不同亚基可通过电泳方法如SDS-PAGE或色谱方法如SEC或RP-HPLC等进行分离。由于每一个氨基酸残基具有大约110Da的分子质量,根据每个亚基分子质量的大小,即可确定氨基酸残基的数量。以往,一般采用SDS-PAGE或SEC等方法确定蛋白质的分子质量,生物质谱法因为准确度更高、分析速度更快,现在越来越被普遍采用。

在酸催化水解中,要寻找理想的水解条件是比较困难的,因为要裂解所有的肽键,必须对氨基酸残基的降解平衡进行综合考虑。一般情况下,不同氨基酸的降解反应是在各自不同的条件下进行,实际的氨基酸组成是从不同的降解实验中推断得到的。通常,为防止氨基酸中的硫被空气氧化,在真空条件下对多肽用6MHCl 进行处理,反应混合物需要在100~120℃保温24小时,而Leu、Val、Ile等脂肪氨基酸则可能需要较长的反应时间才能完全水解。但是,在这样的反应条件下,部分氨基酸残基会发生降解,Trp将被完全降解。此外,在酸催化水解中,Asn和Gln分别转化为Asp和Glu并消去NH4+。对这些氨基酸,必须测定Asx(Asn+Asp)、Glx(Gln+Glu)和NH4+(Asn+Gln)的总含量并进行比较。

碱催化水解一般仅用于特殊情况下,多肽在100℃条件下与4MNaOH反应4~8小时,Arg、Cys、Ser、Thr被分解,其它的氨基酸则被脱胺基和外消旋。正因如此,应用碱水解测定Trp含量就受到了限制。

由于具有高度的专一性,内肽酶和外肽酶都可用作催化某些肽键水解的酶,Asn、Gln、Trp等含量的测定常常采用酶法。为保证所有肽键的完全水解,一般都采用这些酶的混合物进行催化水解。但是酶本身也是蛋白质,在反应条件下也可以发生降解而污染反应混合物,所使用的酶浓度不能过高,大约在1%左右。

上面几种方法都可应用于某些氨基酸的定量测定。但是,要保证使所有的肽键完全水解,而又不引起氨基酸残基的降解,单独采用任何一种方法都不能满足这个要求。因此,要实现多肽中的所有氨基酸的定量测定,可采用两种或三种水解方法的联合应用。

水解完成后所得到的游离氨基酸混合物采用离子交换色谱或RP-HPLC进行分离,然后根据洗脱时间进行鉴定,根据峰面积或峰高进行定量测定。为增加分析的灵敏度,可以采用丹磺酰氯(dansyl chloride)、Edman 试剂(PITC)、邻苯二醛(OPA)及2-巯基乙醇等试剂对氨基酸进行柱前或柱后衍生化,形成具有强荧光性的加成化合物之后进行检测,如本章§10.1节所述。

肽段氨基酸序列的测定

肽和蛋白质序列测定(Protein Sequencing)直接测序策略的步骤通常包括:第一,采用化学法或酶法从蛋白质多肽链的N端或C端将氨基酸残基依次从蛋白质或多肽的末端切割下来;第二,对每次切割下来的氨基酸残基进行正确的鉴定,氨基酸残基的鉴定通常采用在氨基酸残基上衍生一个生色基团,利用高效液相色谱法进行分离鉴定。随着生物质谱法、自动化技术和生物信息学的不断发展,尤其是生物质谱法中生物分子的电离技术的改进,使蛋白质序列测定技术已经发生了革命性的变化,蛋白质序列分析的时间大大缩短。

N-端序列分析(Edman降解)

1.Edman降解分析原理

蛋白质和多肽的N端分析可通过与丹磺酰氯(dansyl chloride)、氨肽酶(aminopeptidase)或Edman试剂(异硫氰酸苯酯,phenyl isothiocyanate,PITC)的反应进行分析。其中,1950年由P. Edman公布的氨基酸序列测定技术,即运用苯异硫氰酸酯与氨基酸的反应(Edman反应)进行N端分析特别有用。该技术采用每次从蛋白质的N端解离和鉴定一个氨基酸残基的方法,是蛋白质序列分析革命化的一项技术。目前,整个测序过程都可通过测序仪自动进行。Edman降解测序主要包括式(10.24)中耦联、裂解、萃取和转换等4个过程。

(10.24)

首先采用苯异硫氰酸酯(PITC)在pH 9.0的温和碱性条件下与蛋白质和多肽N端的自由α-氨基发生耦合反应,形成苯氨基硫甲酰(PTC)衍生物,即PTC-肽。PTC-肽在无水三氟乙酸等强酸条件下裂解,通过选择性地切断N-端氨基酸残基肽键,释放出该氨基酸残基的噻唑啉酮苯胺衍生物,由此暴露出相邻的第二个氨基酸残基上的自由α-氨基,则可与PITC继续发生耦合反应。

用氯丁烷等有机溶剂从反应液中将噻唑啉酮衍生物选择性地萃取出来,去掉了一个N-端氨基酸残基的肽未被萃取将仍然保留在溶液中。由于噻唑啉酮苯胺衍生物的不稳定性,在萃取出来之后,于25%的三氟乙酸水溶液中转化为稳定的苯乙内酰硫脲(PTH)衍生物,即PTH-氨基酸。

减少了一个氨基酸残基的肽保留在溶液中,再不断重复进行上述反应过程,每一循环都得到一个PTH-氨基酸,采用色谱或电泳的方法对PTH-氨基酸与其它组分进行分离后,对包含在PTH衍生物中的氨基酸即可采用色谱或质谱等分析方法进行鉴定。

Edman降解的最大优点是在水解除去末端标记的氨基酸残基时,不会破坏余下的多肽链。当蛋白质中含有一个或多个半胱氨酸残基时,有时一对半胱氨酸残基会通过二硫键发生交联,在这种情况下进行测序时,首先要对二硫键进行裂解处理(如用过甲酸处理),然后再进行Edman降解测序。

2.影响Edman降解反应裂解率的因素

如果样品具有足够的纯度,在测序完成后,根据每个循环的产率得出起始产率(initial yield),起始产率可以估计蛋白质的真实含量,与氨基酸组成分析得到的含量相比,还可以推测N端是否封闭;而根据每个循环的产率得出的重复产率(repetitive yield)可判断仪器是否正常运行。

目前,对一般蛋白质的分析最多能够分析至N端第50个氨基酸左右,而对蛋白质全序列的分析,首先需要将蛋白质裂解为一系列肽段,对各个肽段进行分析后再拼接。这是因为在经过多次循环后,Edman反应在其耦联、裂解、转换等过程发生的副反应使PTH-氨基酸的分析谱中将出现较多的杂峰,影响正确辨认。

当蛋白质样品中含有较多的对Edman反应敏感的残基或肽键时,由于这些肽键容易发生断裂,从而得到的裂解率将会更低。

三氟乙酸的作用是构成强酸条件并裂解PTC-肽,但是三氟乙酸也可与Ser和Thr上的羟基发生反应,使Ser和Thr的N端α-氨基发生部分封闭。因此,当反应循环至Ser和Thr时,裂解产率会突然降低。

丝氨酸和苏氨酸的PTH衍生物由于会部分转化为其他产物,也会导致产率降低。

此外,耦联试剂PITC所发生副反应也会正确辨认产生影响。

Edman降解法可在全自动测序装置中完成。在全自动测序仪的反应杯中,蛋白质键合于固相基质上或吸附于惰性玻璃纤维上而被固定,通过泵系统注入反应试剂,同时也通过泵系统控制反应试剂的量,Edman降解反应产生的噻唑啉酮衍生物被输送进入反应杯,再经过水解生成PTH-氨基酸,含有50个氨基酸残基的蛋白质序列可在1小时内完成测定,在蛋白质的量低至pmol时也能够得到准确的分析结果。

在Merrifield树脂固相基质上进行的Edman降解反应情况如式(10.25)所示,通过共价键合将肽片段固定于高分子聚合物薄膜上或微米大小的珠粒上,当固相基质浸入液相之后,依次加入所需要的反应试剂,进行Edman降解反应并移出反应产物进行分析。

(10.25)

在气相序列分析中,常用四级铵盐聚合物polybrene作为载体材料,蛋白质或多肽样品通过肽链中极性基团的作用(非共价键合)而固定在化学惰性的玻璃纤维膜上,反应试剂通过氩气流载入并引入到玻璃纤维膜上,通过色谱方法对自动移出的反应产物进行在线检测。由于该方法采用非共价键合固定蛋白质或多肽样品,可在酸性或碱性溶液中防止蛋白质在萃取时发生损失。

C端序列分析

C端序列分析方法是对Edman降解法的一种有益的补充,它适合于N端封闭的肽和蛋白质的测序,DNA 序列数据数据的确认,寡核苷酸探针的设计以及重组蛋白产物的质量控制等方面。

1.C端分析原理

羧肽酶作为一种肽链外切酶,可用于多肽的C端残基的切割,能够应用于蛋白质和多肽的C端分析,但是不同类型的羧肽酶对个别氨基酸残基具有不同的选择性,因而在切割过程中,某些氨基酸残基由于比较稳定或切割速度很慢,从而使羧肽酶的应用不尽完美[28][29]。式(10.26)是用氨肽酶引发的N-端残基的裂解,式

(10.27)是用羧肽酶引发的C-端残基的裂解。

(10.26)

(10.27)

化学法采用化学试剂(例如肼)与蛋白质和多肽的α-羧基反应进行C端分析。在温和的酸性条件下,多

肽与无水肼在90℃反应20~100小时,反应生成除C端残基之外的所有氨基酸残基的氨酰肼衍生物,C端残

基以游离氨基酸形式释放出来,如式(10.28)所示。通过色谱分离反应后的混合物,可对游离氨基酸进行鉴定。

(10.28)

下面介绍一种C端自动化测序方法[30],其整个测序过程只需在开始时对C端进行一次性活化,并修饰Asp和Glu侧链羧基以及Thr和Ser上的羟基,循环反应实际上分为烷基化和裂解两步,其全过程如图10.17所示。

图10.17 C端自动化测序全过程示意图

⑴活化

蛋白质和多肽C端的α-羧基与乙酸酐反应生成可环化的噁唑酮混合酸酐,在硫氰四丁铵的作用下,C端的噁唑酮转化为乙内酰硫脲(thiohydantoin,TH)衍生物,如图10.18。

图10.18 蛋白质和多肽C端的活化

⑵酰胺化保护侧链羧基

蛋白质和多肽侧链上的羧基与乙酸酐反应生成难以成环的混合酸酐,与硫氰哌啶作用形成酰胺而保护侧链,如图10.19。

图10.19 酰胺化保护侧链羧基

⑶烷基化

C端环化形成的TH衍生物十分稳定,不易被切割。为提高裂解产率,可用溴甲基萘选择性地烷基化修饰硫原子,形成Alkylated-TH(ATH)衍生物,如图10.20。

图10.20 A TH衍生物的形成

⑷修饰Thr和Ser上的羟基

通过修饰蛋白质和多肽中的羟基,可防止羟基对测序的干扰。乙酸酐在活化过程中也会与羟基反应而使其乙酰化,不过该反应不完全;Thr和Ser上的羟基在N-甲基咪唑(NMI)和乙酸酐的共同作用下也基本被乙酰化,如图10.21。

图10.21 Thr和Ser上的羟基的修饰

⑸裂解和衍生

在酸性条件下,C端的A TH衍生物与[NCS]-反应而裂解生成ATH-氨基酸,新的C端自动形成TH,不需要重新活化。

2.影响C端测序反应产率的因素

目前,C端测序可测1~10个残基,测序需要的样品量在1 mmol以上,与N端测序需要的样品量相比较,完成一次测序所需要的样品量要大得多。

由于C端测序的副反应多,不同的氨基酸反应产率不同,对其图谱的分析也比N端测序复杂。马肌红蛋白原是目前C端测序结果最好一个样品,可测C端10个以上的残基,通常将其作为标准样品来判断仪器的稳定性。而对富含Asp、Glu、Thr、Ser等氨基酸的C端,副反应使其产率更低,测序过程将十分困难。

如果C端有Pro,由于吡咯环不能与乙酸酐反应成环,则整个测序过程将被终止。

有的氨基酸由于副反应的存在将生成多种A TH衍生物,如:Arg的A TH衍生物可能发生乙酰化或烷化;Tyr-ATH发生乙酰化;Cys在修饰后形成丙烯酰胺化的Cys-ATH以及脱氢Ala-ATH;脱水Thr-ATH会产生两个非对映异构体等,也使测序过程难以进行。

3 重建完整的多肽链一级结构

完成肽片段的测序之后,接下来的工作就是建立肽片段的序列,即建立它们在蛋白质中原有的连接方式。将第一套肽片段的氨基酸序列与第二套肽片段的氨基酸序列进行比较,由于它们的特异性裂解位点不同,通过对它们的氨基酸序列彼此之间有互相重叠部分的比较,即可重建完整的多肽链的氨基酸序列。对裂解位点进行鉴定时,要求来自不同裂解反应的肽片段之间应该有足够多的重叠部分。由于每种氨基酸有20种可能的位置排列,通常只需要残基之间有少许的重叠部分,就可以进行裂解位点的鉴定了。

图10.22是采用胰蛋白酶和CNBr进行多肽裂解的示意图,通过比较两套片段中互相重叠部分,便可推断出氨基酸中残基中片段的排序。

图10.22 采用胰蛋白酶和CNBr进行多肽裂解的示意图

4 确定完整的蛋白质结构

蛋白质测序的最后工作,就是确定包括不同多肽链之间的二硫键在内的完整的蛋白质结构。推断蛋白质的一级结构,必须确定可能存在的二硫键的位置。按照前面描述的方法对蛋白质进行裂解,得到肽片段的混合物,而有些肽片段在混合物中可通过二硫键进行结合。可采用分离条件相同的二维凝胶电泳对肽片段混合物进行分离,在经过第一维凝胶电泳分离后,将基质暴露出来,用过甲酸氧化裂解全部可能存在的二硫键,接着进行第二维凝胶电泳分离由二硫键连接的片段并进行序列测定,再将他们的氨基酸序列与整个蛋白质的

序列进行比较,由此确定二硫键的位置。

蛋白质测定序列前的样品处理

纯度鉴定

进行蛋白质序列测定,要求样品具备足够的纯度(>97%以上)。因此,在测定序列之前,必须对样品进行纯度鉴定,N-端测序样品和C-端测序样品的纯度鉴定方法基本相同,如反相HPLC、SDS-PAGE、毛细管电泳、阴离子或阳离子的FPLC等鉴定方法,并可采用多种互补有效的手段对样品的纯度进行鉴定。

脱盐

脱盐过程中采用的试剂、仪器必须是测序级的,才能保证脱盐完全,避免引入新的杂质。凝胶过滤、透析、超滤、反相HPLC等均可作为脱盐的有效方法。Perkin-Elmer公司推出的ProSpin装置,十分适合对蛋白质含量少的N-端测序样品的脱盐处理,它采用ProBlott PVDF膜与分子质量3000Da截留过滤膜,通过离心方式除去样品中的缓冲盐、去垢剂及其他小分子杂质。而对C端测序样品的脱盐,则普遍采用结构和操作方法与ProSpin类似的ProSorb装置。

巯基修饰方法

N端测序样品和C端测序样品的巯基修饰方法基本相同,主要包括丙烯酰胺修饰和4-乙烯吡啶修饰两种方法。

丙烯酰胺修饰[31]

1. 还原

用10~15 μl 0.2 mol L-1 Tris,pH值为8.4,含有100 mmol L-1 DTT的缓冲液中溶解蛋白质样品,并加入SDS并使其最终浓度为1%,于70℃水浴中保温20~30分钟后,再用4倍体积重蒸水稀释。

2. 烷基化

加入6 mol L-1丙烯酰胺浓溶液并控制其最终浓度为2 mol L-1,通入氩气或高纯度氮气,于37℃避光保温30~60分钟。

3. 脱盐

加入甲醇至最终浓度为10%,再用ProSpin装置或其他有效脱盐方法进行脱盐。采用ProSpin装置进行脱盐的操作步骤:先用10 μl甲醇润湿ProSpin上的ProBlott PVDF膜,加入反应溶液并离心,至膜上面无液体时加入50 μl 20%甲醇,再次进行离心,切割下膜片并放入1.5 ml离心管中,用0.1%TFA清洗膜片,再用水漂洗,待其自然晾干后或用氮气吹干后,即可进行序列分析。

4-乙烯吡啶修饰[32]

1. 还原

于40 μl 100 mmol L-1 Tris,pH值为8.4,含有6 mol L-1盐酸胍的缓冲液中溶解蛋白质,加入1 mol L-1 DTT 浓溶液并使其最终浓度为20 mmol L-1,充入氩气,于室温放置1~2小时。

2. 烷基化

加入2 μl 4-乙烯吡啶,充分混合,于室温保温1~2小时。

3. 脱盐

按1∶1比例加入重蒸水稀释蛋白质溶液,然后用ProSpin装置或其他脱盐方法进行脱盐。

N端封闭基团的去除[33]

对使蛋白质和多肽的N端发生封闭的一些基团,可采用下述方法去除。

1. 去除N-乙酰丝氨酸和N-乙酰苏氨酸残基

⑴蛋白质吸附在PVDF膜上,经过蛋白质N端序列分析几个循环后,未能检测出N端氨基酸残基,将膜

条置于1.5 ml的塑料离心管中。

⑵加入50 μl三氟乙酸液体后密封管口并在40℃保温1小时。

⑶打开管盖,在通风橱中使TFA完全挥发。

⑷将此膜条再放回序列仪中进行分析。

2. 去除N端甲酰甲硫氨酸中的甲酰基

⑴将吸附了蛋白质的PVDF膜条置于1.5 ml的塑料离心管中。

⑵加入30 μl 0.6 mol L-1 HCl后密封管口并在25℃保温24小时。

⑶打开管盖,吸去HCl溶液,再将膜条真空干燥或氮气吹干。

⑷将此膜条再放回序列仪中进行分析。

3. 去除N端的焦谷氨酸

⑴将吸附了蛋白质的PVDF膜条置于1.5 ml的塑料离心管中,加入1.2 ml 0.5%(m/V)PVP-40(溶于100 mmol L-1冰醋酸中)封闭膜条,使其不再吸附其他蛋白质ml,于37℃保温30分钟,然后用超纯水清洗膜条至少5遍,再用0.5 ml酶解缓冲液漂洗一遍。

⑵加入100 μl左右焦谷氨酸水解酶(5 μg酶溶于100 μl 50 mmol L-1,pH 7.0磷酸钠及10 mmol L-1 DTT缓冲液中),于37℃保温5~10小时。

⑶膜条用超纯水漂洗,自然吹干后放回序列仪中。

4. 去除N-乙酰基封闭的氨基酸残基

⑴将吸附了蛋白质的PVDF膜条置于1.5 ml的塑料离心管中,用0.5%PVP-40封闭膜条以防止吸附蛋白酶。

⑵将膜用超纯水充分清洗后,加入5~10 μg胰蛋白酶(溶于100 μl 0.1 mol L-1碳酸氢铵,pH 8.0,内含10%乙腈),于37℃酶解24小时。

⑶将离心管中的溶液移至另一干净的离心管中,用100 μl超纯水清洗膜条后,将此清洗液与酶解后的溶液合并,然后此含有酶解多肽的溶液冷冻干燥。

⑷加入100 μl50%吡啶及10 μl异硫氰酸苯酯(PITC),通入氮气20秒,然后于60℃保温1小时。此步骤中PITC可以和除N端被乙酰基封闭的多肽以外的酶解后的各个多肽的N端α-氨基反应。

⑸加入50 μl苯/乙酸乙酯(1∶1体积比)混合溶剂,充分振荡后以3000 g离心1分钟。

⑹吸去含有过量试剂及反应副产物的上层溶液,再按照⑤对下层溶液抽提3次,然后真空干燥下层溶液。

⑺加入100 μl过甲酸(9份甲酸与1份过氧化氢混合后室温放置1小时),于0℃保温1小时,以封闭经过上述几步反应的多肽的N端。

⑻真空抽干,再用水溶解,然后再将样品抽干。

⑼将多肽用100 μl 0.2 mmol L-1,pH7.2磷酸缓冲液(含1 mmol L-1 DTT)溶解,加入0.05单位的N-乙酰氨基酸去除酶(AARE),于37℃保温12小时

⑽将反应混合物加样至已预处理过的测序用玻璃纤维支持膜上,放入序列仪中分析。

蛋白质测序技术平台

N端蛋白质序列仪

1. 液相旋转杯序列仪

液相旋转杯序列仪的核心是一个反应杯,通过导管将溶解后的蛋白质或多肽样品注入反应杯中,利用旋转离心力将样品均匀涂在反应杯壁上,形成一层薄膜,薄膜的厚度可通过反应杯的旋转速度进行控制。反应试剂及溶剂分别通过导管进入反应杯,与杯内薄膜上的样品的N端发生Edman反应,通过另一导管引出并

收集降解产物A TZ氨基酸衍生物,ATZ氨基酸转化为PTH氨基酸后进行鉴定,依次循环分析。该仪器的缺点是样品消耗量较大。

2. 固相序列分析仪

对不易吸附在旋转杯上的小肽和疏水性多肽,可通过蛋白质和多肽的氨基或羧基与载体的活性基团间的共价结合作用,将其固定在惰性载体上,再进行Edman降解反应。由于是通过共价结合,在有机溶剂洗涤、抽提过程中没有样品的损失,因此循环次数较多。但是谷氨酸、天冬氨酸、赖氨酸等氨基酸残基除α-氨基或α-羧基会与载体结合外,含有的其它氨基或羧基也会发生结合,对含有这类氨基酸残基的蛋白质和多肽,固相序列分析仪不能正确鉴定。

3. 气相序列仪

20世纪80年代初,为了满足分子生物学对对蛋白质进行微量分析的需要,针对原有自动化蛋白质序列仪样品消耗量大的缺点,Hewick和Hunkpiller等采用弹筒型玻璃反应室代替旋转反应杯,以四级铵盐聚合物polybrene固定样品,以气体方式输送Edman降解反应中的部分试剂(如三甲胺)。通过改进后的自动化序列仪灵敏度高,样品消耗量为50~100 pmol,试剂和溶剂消耗量为液相序列仪的十分之一,每步降解循环时间也大大缩短。

20世纪80年代末改进的脉冲液相序列仪,采用载有活性基团的功能性PVDF膜共价固定蛋白质和多肽样品,将由气体方式输送的三氟乙烯改为液相脉冲输送。同上仪器一样,Edman降解反应生成的PTH氨基酸衍生物直接从转化腔中进入HPLC系统进行定性、定量分析,可满足不同样品的分析要求。

C端蛋白质序列仪

C端序列仪一般由N端序列仪改装,基本结构与N端序列仪类似。与N端序列仪不同,C端序列仪的所有化学反应在弹筒型反应室进行,ATH-AA切割下来后,在转化腔中干燥和溶解后即进入HPLC系统进行分离分析。由于采用不同的试剂,C端序列仪和N端序列仪互不兼容,否则容易发生管道堵塞。

(材料节选自《生物分析化学》教材,重庆医科大学易钢编写)

蛋白质序列分析

蛋白质序列、性质、功能和结构分析 基于网络的蛋白质序列检索与核酸类似,从NCBI或利用SRS系统从EMBL 检索。 1、疏水性分析 ExPASy的ProtScale程序(https://www.sodocs.net/doc/6517406494.html,/cgi-bin/protscale.pl)可用来计算蛋白质的疏水性图谱。输入的数据可为蛋白质序列或SWISS-PROT数据库的序列接受号。也可用BioEdit、DNAMAN等软件进行分析。 2、跨膜区分析 蛋白质跨膜区域分析的网络资源有: TMPRED:https://www.sodocs.net/doc/6517406494.html,/software/TMPRED_form.html PHDhtm: http:www.embl-heidelberg.de/Services/sander/predictprotein/predictpro tein.html MEMSAT: ftp://https://www.sodocs.net/doc/6517406494.html, 3、前导肽和蛋白质定位 一般认为,蛋白质定位的信息存在于该蛋白自身结构中,并且通过与膜上特殊受体的相互作用得以表达。这就是信号肽假说的基础。这一假说认为,穿膜蛋白质是由mRNA编码的。在起始密码子后,有一段疏水性氨基酸序列的RNA片段,这个氨基酸序列就称为信号序列(signal sequence)。 蛋白质序列的信号肽分析可联网到http://genome.cbs.dtu.dk /services/SignalP/或其二版网址 http://genome.cbs.dtu.dk/services/SignalP-2.0/。该服务器也提供利用 e-mail进行批量蛋白质序列信号肽分析的方案 (http://genome.cbs.dtu.dk/services /SignalP/mailserver.html),e-mail 地址为signalp@ genome.cbs.dtu.dk。 蛋白质序列中含有的信号肽序列将有助于它们向细胞内特定区域的移动,如前导肽和面向特定细胞器的靶向肽。在线粒体蛋白质的跨膜运输过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端延伸出的一段前导肽或引肽(leader peptide)共同组成。迄今有40多种线粒体蛋白质前导肽的一级结构被阐明,它们约含有20~80个氨基酸残基,当前体蛋白跨膜时,前导肽被一种或两种多肽酶所水解转变成成熟蛋白质,同时失去继续跨膜能力。前导肽一般具有如下性质:①带正电荷的碱性氨基酸(特别是精氨酸)含量较丰富,它们分散于不带电荷的氨基酸序列中间;②缺失带负电荷的酸性

核酸蛋白序列比对分析

核酸\蛋白序列比对分析 生物技术 02级 021402198 曾彪 摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。 关键词核酸/蛋白质序列分析生物信息数据与查询序列比较 DNA芯片质谱隐马尔可夫模型 正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。 大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有

Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。 要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。 面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。 核酸序列分析 核酸序列的基本分析 1.测定分子质量、碱基组成、碱基分布等基本数值; 2.序列变换:反向序列、互补序列、互补反向序列;

核酸蛋白序列比对分析

核酸\蛋白序列比对分析 生物技术02级021402198 曾彪 摘要生物信息学——是一门新兴的交叉学科,是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。核酸与蛋白质序列分析是生物信息学的基本研究方法。核酸与蛋白质序列分析是生物信息学的基本研究方法。 关键词核酸/蛋白质序列分析生物信息数据与查询序列比较DNA芯片质谱隐马尔可夫模型 正文人类基因组计划完成了人类基因组的测序与分析工作,也积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。大量生物学实验的数据积累,形成了当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。国际上著名的一级核酸数据库有Genbank数据库、EMBL核酸库和DDBJ库等;蛋白质序列数据库有

SWISS-PROT、PIR等;蛋白质结构库有PDB等。国际上二级生物学数据库非常多,它们因针对不同的研究内容和需要而各具特色,如人类基因组图谱库GDB、转录因子和结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等等。 要在如此庞大的数据库中找到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有Entrez, SRS等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有BLAST 、FASTA 和BLITZ 。 面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义。线性核酸序列的分析主要包括同源比较,读框分析,酶切位点查找,GC比例分析,序列翻译,引物设计等;蛋白质序列分析包括同源比较,疏水性分析,序列模体识别,结构域识别,高级结构预测等。 核酸序列分析 核酸序列的基本分析 1.测定分子质量、碱基组成、碱基分布等基本数值; 2.序列变换:反向序列、互补序列、互补反向序列; 3.限制性酶切分析:限制酶的所有信息,包括甲基化酶、相应的

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据 库,目前这二个数据库在EMBL和GenBank数据库上均建 立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序 列,这些序列经过检验和注释。该数据库主要由日内瓦大 学医学生物化学系和欧洲生物信息学研究所(EBI)合作维 护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即 进行注释需要时间。一大批含有开放阅读 了解决这一问题,TrEMBL(Translated E 白质数据库,它包括了所有EMBL库中的 质序列数据源,但这势必导致其注释质量 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金 会(National Biomedical Research Foundation, NBRF) 收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋 白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息 中心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss I 质分析专家系统(Expert protein anal 据库。 网址:https://www.sodocs.net/doc/6517406494.html, 我国的北京大学生物信息中心(www.cbi.

核酸和蛋白质序列分析

核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站 (https://www.sodocs.net/doc/6517406494.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件 (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

实验二 核酸及蛋白质序列的比对

实验二核酸及蛋白质序列的比对 姓名:班级:序号:指导老师: 一、实验内容 利用检索出的蛋白质和核酸序列进行序列比对并进行分子进化树分析。 二、实验步骤 键入上次实验获得的phyA的核酸序列编号(NM_100828),获得核酸及蛋白质序列。利用blastx程序寻找与phyA蛋白质序列相似性的序列→选择下列序列:sorghum propinquum(高粱);zea mays(玉米);水稻;大豆;arabidopsis thaliana(拟南芥);cyrtosia septentrionalis(血红肉果兰)→点击get select sequence按钮显示序列为纯文本格式文件→分别命名为各自的文件名保存在本地电脑上备用。 在数字基因网找到dnaman及clustalx软件安装并进行多序列比对及分子进化树分析。 利用ebi上提供多序列比对工具再作一次比对.uk/clustalw/。 选作核酸序列的比对 5、打开ncbi主页点击BLAST→学习网页左侧的BLAST FAQS及program guide 三、作业 1、绘制分子进化树,并标明各个物种phyA蛋白之间的序列相似性。 2、根据你所学生物分类的知识,试解释该分子进化树的合理性 ①拟南芥:植物界种子植物门被子植物门双子叶植物纲十字花目十字花科鼠耳芥属(拟南芥属) ②大豆:植物界种子植物门被子植物亚门双子叶植物纲豆目蝶形花科大豆属 ③血红肉果兰:植物界种子植物门被子植物亚门百合纲百合目兰科树兰亚科肉果兰属 ④水稻:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科稻属 ⑤玉米:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科玉米属 ⑥高粱:植物界种子植物门被子植物亚门单子叶植物纲禾本目禾本科高粱属 经过对比可得下列同源性关系 高粱 玉米 水稻 拟南芥 大豆 血红肉果兰 与前面的同源树对比基本相似,说明软件分析结果与实际相符 3、找出一条可能的保守序列(多条蛋白共同的氨基酸序列)。 最长的保守序列:kliqpfgcllaldek

blast核酸氨基酸序列相似性比较

BLAST 核酸/氨基酸序列相似性比较 Blast(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。 BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。如果您想进一步了解BLAST算法,您可以参考NCBI的BLAST Course ,该页有BLAST算法的介绍。 BLAST的功能 BLAST对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。 BLAST是基于Altschul等人在上发表的方法在序列数据库中对查询序列进行同源性比对工作。从最初的BLAST发展到现在NCBI提供的,已将有缺口的比对序列也考虑在内了。BLAST可处理任何数量的序列,包括蛋白序列和核算序列;也可选择多个数据库但数据库必须是同一类型的,即要么都是蛋白数据库要么都是核酸数据库。 所查询的序列和调用的数据库则可以是任何形式的组合,既可以是核酸序列到蛋白库中作查询,也可以是蛋白序列到蛋白库中作查询,反之亦然。 BLAST包含的程序: 1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列。 通常根据查询序列的类型(蛋白或核酸)来决定选用何种BLAST。假如是作核酸-核酸查询,有两种BLAST供选择,通常默认为BLASTN。如要用TBLASTX也可,但记住此时不考虑缺口。 BLAST适用于本地查询。可以下载公共数据库,对于该数据库的更新和维护是必不可少的。如果要直接到网上查询也可以(即NetBlast),但记住如果你认为自己的序列很有价值的话,还是谨慎为宜。 如何访问在线的BLAST功能服务 您只要通过浏览器访问Blast主页( 。所有的查询和分析都通过浏览器来完成,就象您在您的本地机上一样方便和快捷。

蛋白质序列分析

肽和蛋白质的直接测序法 目前,肽和蛋白质的测序有三种策略:①根据基因测序的结果,从cDNA演绎肽和蛋白质序列,这种策略简单、快捷,甚至可以得到未分离出的蛋白质或多肽的序列信息。但是,用这一策略得到的一级结构不含蛋白质翻译后修饰及二硫键位置等信息;②直接测序策略;③质谱测序与生物信息学搜索相结合的策略。第①种策略可参考分子生物学的有关专著,第③种策略将在本书蛋白质组与蛋白质组分析一章中介绍,本章介绍直接测序策略。 1953年,Frederick Sanger在对牛胰岛素的研究中首先提出氨基酸直接测序的概念,迄今为止,已通过直接测序阐明了几千种蛋白质的氨基酸序列。 在蛋白质序列测定中,因为可以得到的蛋白质样品十分有限,而且蛋白质包含的20种不同的氨基酸表现出不同的化学功能和化学活性,在测序过程中每一次变性或裂解所发生的一系列副反应,将使测定过程变得十分复杂,在蛋白质序列测定中由于没有类似于DNA序列测定中采用的PCR技术可应用,因此,与DNA 序列测定相比,蛋白质序列测定在许多方面要复杂得多。其基本的测序过程如下所述。 确定不同的多肽链数目 首先应该确定蛋白质中不同的多肽链数目,根据蛋白质N-端或C-端残基的摩尔数和蛋白质的相对分子质量可确定蛋白质分子中的多肽链数目。如果是单体蛋白质,蛋白质分子只含一条多肽链,则蛋白质的摩尔数应与末端残基的摩尔数相等;如果蛋白质分子是由多条多肽链组成,则末端残基的摩尔数是蛋白质的摩尔数的倍数。 肽链的裂解 当蛋白质分子是由二条或二条以上多肽链构成时,必须裂解这些多肽链。如果多肽链是通过非共价相互作用缔合的寡聚蛋白质,可采用8 mol L-1尿素,6 mo1 L-1盐酸胍或高浓度盐等变性剂处理,使寡聚蛋白质中的亚基裂解;如果多肽链之间是通过共价二硫键交联的,可采用氧化剂或还原剂断裂二硫键。然后再根据裂解后的单个多肽链的大小不同或电荷不同进行分离、纯化。 太长的多肽片段不能直接进行序列测定,一般肽片段长度不超过50个左右残基的肽段,当肽段超过这个长度时,由于反应的不完全以及副反应产生的杂质积累将影响测定结果,因此,必须通过特定的反应将它们裂解为更小的肽段。通过两种或几种不同的断裂方法(即断裂点不同)将每条多肽链样品降解成为两套或几套重叠的肽段或肽碎片,每套肽段分别进行分离、纯化,再对纯化后的每一肽段进行氨基酸组成和末端残基的分析。 使肽链中某些特殊位置上的肽键发生断裂,可采用化学反应或酶反应裂解产生若干能够进行测序的小片段。一般将蛋白质样品分为两等份,采用不同的试剂裂解产生两套不同的片段,两套片段在测序完成后,根据他们之间的重叠情况即可重新排序。 1 酶解法 蛋白质通过蛋白水解酶的裂解后将产生若干能够代表每个蛋白质特性的肽片段,用于特定的蛋白质裂解的蛋白水解酶包括外肽酶和内肽酶,裂解肽链的N-端或C-端的氨基酸可采用外肽酶,而内肽酶则用于切断肽链中某个特定部位。表10.5为常用的蛋白水解酶。 表10.5 用于蛋白质部分裂解的蛋白酶 蛋白酶酶切位点 内肽酶: 胰蛋白酶R n-1=Arg,Lys R n≠Pro 胃蛋白酶R n=Leu,Phe,Trp,Tyr,Val R n-1≠Pro 糜蛋白酶R n-1=Phe,Trp,Try R n≠Pro 内肽酶GluC R n-1=Glu

核酸序列分析软件介绍

核酸序列分析 1、核酸序列检索 可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。其中“[ac]”是序列接受号的描述字段。 2、核酸序列的基本分析 (1)分子质量、碱基组成、碱基分布 分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。如: BioEdit(https://www.sodocs.net/doc/6517406494.html,/BioEdit/bioedit.html), DNAMAN(https://www.sodocs.net/doc/6517406494.html,)。 (2)序列变换 进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。 (3)限制性酶切分析 该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。REBASE数据库(https://www.sodocs.net/doc/6517406494.html,,https://www.sodocs.net/doc/6517406494.html,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。其它资源还有:WebGene:https://www.sodocs.net/doc/6517406494.html,/~tjyin/WebGene/RE.html, https://www.sodocs.net/doc/6517406494.html,/personal/tyin.html WebCutter2: http://www/https://www.sodocs.net/doc/6517406494.html,/firstmarkert/firstmarket/cutter/cut2.html 同时,很多软件也能够识别REBASE限制酶数据库。强烈推荐使用集成化的软件如BioEdit和DNAMAN等。所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。 在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。此时DNAMAN软件是一个良好的选择。在对所有序列进行多重对齐后,其输出项“Output”中即有“Restriction Analysis”选项,执行后即可完成对所有参与对齐序列的酶切分析,能够得到所有序列的差异酶切图谱和一致酶切图谱。 (4)克隆测序分析 得到测序结果后,需要对所测序列进行后续分析,其中主要包括对测序峰图的查看和载体序列的去除等过程。 a. 测序峰图的查看 最简单的程序是澳大利亚的Conor McCarthy (https://www.sodocs.net/doc/6517406494.html,.au./~conor/)开发的Chromas.exe程序,但该程 N 序不支持Windows 95以上的长文件名。其实,集成化的软件如BioEdit和DNAMA 也具有此功能。 b. 载体序列的去除 许多数据库中收集了常用的测序载体序列,如:

蛋白质序列分析常用网站-2018.8

蛋白质序列分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。 基本理化性质分析:https://https://www.sodocs.net/doc/6517406494.html,/protparam/ 信号肽预测:http://www.cbs.dtu.dk/services/SignalP/ 在生物内,蛋白质的合成场所与功能场所常被一层或多层细胞膜所隔开,这样就涉及到蛋白质的转运。合成的蛋白质只有准确地定向运行才能保证生命活动的正常进行。一般来说,蛋白质的定位的信息存在于该蛋白质自身结构中,并通过与膜上特殊的受体相互作用而得以表达。在起始密码子之后,有一段编码疏水性氨基酸序列的RNA片段,这个氨基酸序列就这个氨基酸序列就是信号肽序列。含有信号肽的蛋白质一般都是分泌到细胞外,可能作为重要的细胞因子起作用,从而具有潜在的应用价值。 糖基化位点预测:http://www.cbs.dtu.dk/services/Net NGlyc/ 跨膜区分析:TMORED 蛋白质序列含有跨膜区提示它可能作为膜受体起作用,也可能是定位于膜的锚定蛋白或者离子通道蛋白等,从而,含有跨膜区的蛋白质往往和细胞的功能状态密切相关。 蛋白酶的结构功能进行预测和分析:http://smart.embl-heidelberg.de/ 同源建模分析:https://www.sodocs.net/doc/6517406494.html,//SWISS-MODEL.html 二级结构及折叠类预测:Predictprotein 特殊结构或结构预测:COILS MacStripe 疏水性分析:ExPASy的ProtScale 基于序列同源性分析的蛋白质功能预测: 至少有80个氨基酸长度范围内具有25%以上序列一致性才提示可能的显著性意义。类似于核酸序列同源性分析,用户直接将待分析的蛋白质序列输入NCBI/BLAST(https://www.sodocs.net/doc/6517406494.html,/blast),选择程序BLASTP就可网上分析。 基于motif、结构位点、结构功能域数据库的蛋白质功能预测 蛋白质的磷酸化与糖基化对蛋白质的功能影响很大,所以对其的分析也是生物信息学的一个部分。同时,分子进化方面的研究表明,蛋白质的不同区域具有

《蛋白质序列分析》word版

7 蛋白质序列分析与功能预测 (1) 7.1 引言 (1) 7.2 功能描述 (2) 7.2.1 基因本体 (3) 7.2.2 利用GO术语的功能注释 (7) 7.3 基于序列相似性的功能预测 (8) 7.3.1 基本预测方法 (10) 7.3.2 分析与讨论 (14) 7.3.3 蛋白质家族与序列的相似性聚类 (15) 7.4 基于蛋白质信号的功能预测 (17) 7.4.1 蛋白质信号 (17) 7.4.2 信号的描述 (22) 7.4.3 蛋白质模体、结构域和家族数据库 (28) 7.4.4 分析与讨论 (34) 7.5 基于蛋白质序列特征的功能预测 (35) 7.5.1 序列的理化性质 (35) 7.5.2 跨膜与卷曲螺旋分析 (37) 7.5.3 蛋白质翻译后修饰分析 (40) 7.5.4 亚细胞定位预测 (42) 7.5.5 基于序列特征的蛋白质分子功能预测 (44) 7.6 功能预测的其他思路 (45) 参考书目 (47)

7 蛋白质序列分析与功能预测 DNA经常被比喻为构筑生命的蓝图,相应地,蛋白质就是构筑生命体最主要的材料。蛋白质在生命过程中发挥着巨大的作用,它们执行着大部分生物功能。这些功能包括结构功能(如细胞骨架中的肌动蛋白)、酶功能(很多蛋白质可以催化生物反应,常见的蛋白质催化功能是使生物反应加速一定数量级),以及在细胞内或细胞间转运物质的功能。大量序列被测定带给了生物信息学家一个挑战,那就是如何从这些序列中找到基因,然后给基因加上注释,即给这些基因提供关于它们性质或功能的简单描述。 7.1 引言 继基因组结构注释(genome structural annotation)完成后,阐明基因组所表达的全部蛋白质的表达规律和生物功能,称为功能注释(functional annotation),成为研究的热点,是基因组注释(genome annotation)的重要组成部分。据Friedberg I称,2006年时,GeneBack中约有~40%的序列被标注为“unknown function”。由于蛋白质是生命活动的最终执行者,并且蛋白质功能的阐明将有助于疾病机理的研究并最终帮助人类进行药物设计与疾病治疗。因此,对基因产物——蛋白质的功能预测(protein functional prediction)是后基因组时代的一项重要任务。 尽管新的实验技术例如DNA芯片、酵母双杂交系统、RNA干扰以及大范围地、系统地缺失突变(knock-out)取得了巨大的进展,但这些方法都需要各种特定的设备,且价格昂贵、操作繁琐,成本高、周期长。由于实验同时会受到一些不可预知的环境以及人为因素的影响,其所得结果的可信度也需加以考虑。种种这些因素制约了蛋白质大规模分析的开展。目前,实验方法阐明蛋白质功能尚远远落后于序列的测定。面对呈指数增长的蛋白质序列数据,采用生物信息学的方法和手段来阐明大批量蛋白质序列的生物学功能具有非常重大的意义。 可采用生物信息学方法对蛋白质序列的功能进行预测的本质在于,承担核心生物功能的相当一部分基因被所有生物物种共享,从而可以利用某些特定物种中基因所编码的少量蛋白质序列(目前占已知蛋白质序列总数的5%)的已知生物功能信息(知识)对其他物种的大量蛋白质序列进行功能注释。Hawkins T于2006年在“Protein Science”上发表文章,将蛋白质序列分析和功能预测方法大致分为四类:

相关主题