蛋白质二级结构
蛋白质二级结构(精选8篇)
蛋白质二级结构 第1篇
关键词:网格,蛋白质二级结构预测,结构分类,位矩阵编码,并行遗传算法
随着人类基因组计划的完成,进入了以基因功能研究为核心的“后基因组时代”,大规模的结构基因组、蛋白质组以及药物基因组的研究计划已经成为新的热点。每天在全世界,大量的生物学数据不断地产生和积累,要有效地处理、保存和利用这些处于异域的巨量信息,必须建立强大而高效的信息处理平台,“生物信息网格”应运而生。
蛋白质结构预测是生物信息学中一个重要问题,它研究如何从氨基酸序列出发,预测蛋白质的功能构象。20世纪50年代后期,Christian B.Anfinsen等人[1]通过蛋白质复性实验证实:某些蛋白质在体外的一定条件下解聚失活后,可以自动折叠而恢复其原有的高级结构与活性。这就意味着蛋白质空间结构的全部信息蕴藏在蛋白质的一级结构(即蛋白质的氨基酸序列)中。蛋白质一级结构决定其高级结构是蛋白质结构预测的理论基础。蛋白质的二级结构在蛋白质肽链快速折叠成具有特定功能的构象方面,扮演着极其重要的角色。因此,蛋白质二级结构的预测不仅有助于了解蛋白质的功能及其作用机制,对于正确预测蛋白质的空间结构更具有非常重要的意义。
目前对蛋白质预测的大部分研究主要是基于对已知蛋白质结构规律的总结、吸收和利用,采用所谓的、基于知识的预测(Knowledge-based Protein Modeling)。蛋白质结构预测方法总体上可分为三大类,即比较建模法(Comparative modeling method)、反向折叠法(Inverse folding)和从头预测法(ab initio prediction method)。目前,比较建模法和反向折叠法的研究都已取得了重要的进展,这两类方法的共同点是:在预测目标蛋白质的结构时都要利用已知的结构数据库。当目标蛋白质找不到同源蛋白质, 或同源性过低时,这些方法都无法奏效。而从头预测法仅利用氨基酸序列和模拟氨基酸间相互作用的模型来预测目标蛋白质的空间结构, 因此具有更大的发展空间,也是我们关注的重点。这种方法的关键在于发展更高效的搜索方法用于功能构象的搜索,有很多工作研究用遗传算法[2,3]、神经网络[4,5]和模拟退火法[6]等协同算法来解决,取得了一定的成效。但他们也存在算法收敛性不确定[2,6];算法并行度低[3];预测准确率不高[4];过于依赖数据集的规模[5]等缺点。
在后者的基础上,对上述算法进行改进和优化,提出了一种基于结构分类的按位矩阵编码的并行遗传算法来进行预测。为了充分发挥并行算法的优势,在网格平台进行部署,实验表明预测效率得到较大的提高。
1 基于网格的蛋白质二级结构预测
1.1 问题描述
蛋白质二级结构的基本类型包括α螺旋、β折叠、β转角和无规卷曲,弄清其折叠类型对合理设计生化实验,进行功能研究十分重要。蛋白质特定空间构象是其功能活性的基础,因而空间构象预测可为蛋白功能研究提供启示。根据在笛卡儿空间中使用全原子力场(force field)和外部溶剂描述的分子动力学(MD)方法所建立的时间函数,被认为能够可靠再现多肽链的运动。如果上述理论成立, 那么从一个随机结构出发, 只要产生一条足够长的轨道, 就可以找到功能构象。但事实上,这是一个NP难问题,以目前的计算机能力很难满足“足够长”这一条件。目前的计算能力能产生的MD轨道大约为10-8s, 而蛋白质体外折叠通常需要1 s。也就是说, 即使是一个短肽, 搜索其构象空间的计算量也是十分巨大的[7]。
传统的二级结构预测方法,如Chou-Fasman方法和GOR方法等的预测精度比较低,Chou-Fasman 方法是一种统计方法,通过统计每种氨基酸在α螺旋、β折叠和无规卷曲中出现的频率得到反映20种氨基酸形成三种二级结构的倾向性因子;GOR方法运用信息论的基本原理,将多肽链上一连串的R基团作为一种信息,在蛋白质的折叠中,这种信息被翻译成构象状态。人工神经网络方法的应用将二级结构预测的精度提高到70%以上。一般认为, 如果二级结构的预测准确率能达到80%,那么便可以基本准确地预测一个蛋白质分子的三维空间结构,因此进一步提高蛋白质二级结构预测的准确度是非常关键的。
遗传算法是一种高频率的全局自适应搜索算法,适合于能量最低状态的搜索(按热力学假说,蛋白质在天然状态的能量最低)。但是,由于随着人类基因组和蛋白质科研信息迅速膨胀,在基因组、蛋白质组水平上的生物学数据巨量增长,而且众多生物学数据库分散在不同的异构平台上,在一般网络平台上使用普通遗传算法不仅无法达到生物信息数据整合、智能化的复合、交叉检索、共享、可视化和使用统一的用户界面,还容易因为蛋白质的势能面上存在着很多的局部极小点而陷入局部极值。为了充分利用网络资源,提高预测效率,根据网格动态性、异构性、可扩展性和自治性的特点,采用基于网格的并行遗传算法显然更利于问题的解决。
1.2 基于结构分类的按位矩阵编码的并行遗传算法
目前,用于蛋白质二级结构预测的数据大部分来源于PDB(Protein Data Bank)数据库。PDB数据库中将蛋白质结构分为G,H,I,B,E,S,T和C共8类,简化表示为3类:(a)Helices,包括G,H,I三类,记为H;(b)Sheets,包括B和E二类,记为S;(c)Coils包括S,T和C三类,记为C。由于(1)数据量太大;(2)PDB库更新是很快的,造成某些蛋白质索取码发生变动;(3)并不是所有的蛋白质都适合于预测,因此我们先对随机选取出的数据进行分类预处理,并把预处理后的数据作为初始种群,每个蛋白质作为一个个体。
1.2.1 结构分类预处理
预处理采用Chou-Fasman 算法,参照蛋白质结构分类数据库(SCOP)的二级结构分类方法,将蛋白质的结构类型分为All-α、All-β、α/β和其他(见表1) [8]。
1.2.2 位矩阵编码并行遗传算法
遗传算法是由美国密执安大学的John Holland教授于1975年首先提出的一种仿生类优化算法,它以达尔文的生物进化论“适者生存、优胜劣汰”和孟德尔的遗传变异理论“生物遗传进化主要在染色体上,子代是父代遗传基因在染色体上的有序排列”为基础,模拟生物界进化过程。
经典遗传算法存在着局部搜索性能较差的缺陷,对于某些分布变化缓慢的问题,常常需要进行大量的计算,并且由于进化初期的超常个体使得种群过早收敛到局部最小值。为了解决这一缺陷,在遗传算法并行运算的基础上,通过多种群并行进化和引入迁移算子进行种群间信息交流的思想,将遗传算法分解为在多个子种群间并行进行,并通过子种群间交叉来增加基因模式数,避免未成熟收敛。并行遗传算法就是指将遗传算法的计算工作分发到一组并行计算机上并行计算,加快计算速度。并行遗传算法有三种形式:全局并行模型,粗粒度模型和细粒度模型,其中粗粒度模型以其实现简单,便于在网格中多个Agent执行,以及容易模拟等优点,被我们选用。
1.2.2.1 编码
组成蛋白质的氨基酸有20种,根据二维晶格模型,它们在空间有一定的组成和顺序。显然,简单地用一维的二进制编码无法很好地反映蛋白质构象的组成。采用一种多维位矩阵来对蛋白质构象进行编码,这样能更利于遗传算法进行搜索。对于20种氨基酸,采用5位二进制编码,例如氨基酸a用(00001)表示,氨基酸c用(00010)表示,,氨基酸y用(10010)。对于二维晶格模型,蛋白质构象链分为4个方向,每个方向用一个4位二进制表示,构造示意图见图1。对于图2中一个蛋白质构象(acy),编码就为:,其他的构象编码以此类推。
1.2.2.2 染色体和适应度函数
我们将疏水作用力作为衡量自由能的唯一标准,根据适应度函数选择准备进行交配的染色体父串,适应度函数为[9]:
式中E(i)=-1X (X为该构象中HH类的拓扑相邻的数目),为某构象的能量;Emin为该次迭代中构象的最低能量,是一小于或等于0的整数;Emax为该次迭代中构象的最高能量,是一小于或等于0的整数。当Emin=Emax时,该次迭代中所有构象的能量都一样,则此时进行随机选择来决定亲本。
1.2.2.3 交叉和变异
由于交叉的作用是产生新个体,实现算法的全局搜索能力,因此交叉概率要与个体适应度有关。为了避免产生无效基因,我们采用位交叉算子和根据适应度函数评估而定的交叉策略,即用适应度函数评估位交叉的结果,只有适应度能得到提高的变化才能接受。变异起维持种群多样性的作用,即产生新个体和抑制早熟,但概率不大,我们取固定变异概率p =0.05,变异策略采用为并行遗传算法设计的多级变异策略[10]。
1.3 评价指标
为了将我们的方法与其他的方法进行公平的对比,必须要有统一的评价指标。根据国际通用标准,在只提交蛋白质一级序列的前提下,我们选用以下3个标准:
(1)三态准确率
其中Pi表示被正确预测为i态的残基个数,Oi表示被错误预测为i态的残基个数。
(2)整体准确率
其中Pi(i∈{a,b,c})分别表示被正确预测出的三态(H,E,C)的残基个数,T代表残基总数。
(3)Motthew函数
其中pi表示i态的残基个数,ni表示非i态被预测为非i态的残基个数,μi表示i态被预测为非i态的残基个数,oi表示非i态被预测为i态的残基个数。Ci=0时,称为随机预测;Ci=1时,称为完全预测[11]。
1.4 实验及结果
我们在3台P4 2.4 G,512 M内存的机器中,安装Globus Toolkit3[12]进行实验,将并行遗传算法迭代次数固定为50代,然后对经过预处理的95条蛋白质进行预测。我们把本文算法(GPSSP, Grid-based Protein Secondary Structure Prediction)的预测进行15次后的平均结果分别与在Internet平台下基于BP神经网络(PPSSBP, Predicting Protein Secondary Structure based on BP Neural Network)、Chou-fasman算法、普通遗传算法和模拟退火法的混合算法(HGA, Hybrid Genetic Algorithm)以及国际上目前比较好的蛋白质2级结构预测算法APSSP2(Advance Protein Secondary Structure Prediction)和SOMPA(Self Optimized Prediction Method from Aligment)进行预测的平均结果进行比较(如表2所示),显示本算法是具有一定优势的。
(注:H代表α螺旋,E代表β折叠,C代表无规则卷曲;QH代表α螺旋的预测准确率,QE代表β折叠的预测准确率,QC代表无规则卷曲的预测准确率;CH、CE、CC分别为三态的Matthews函数;Q3claim代表为该算法宣称的预测准确率;Q3代表整体准确率)
从目前的研究来看,使用混合算法可以提高蛋白质二级结构预测的准确率,如APSSP2(采用最近邻居法和神经网络混合),SOMPA(采用GOR算法、Levin预测同源算法、双重预测算法、PHD算法和CNRS算法进行混合)和HGA等等,他们普遍可以达到75%~85%的预测率,比单一的预测算法(PPSSBP算法、Chou-fasman算法等)更具优势。
在实验中可以看出,本文提出的算法虽然属于单一算法,但已经达到并优于其他混合算法的预测结果。这主要是由于:首先,位矩阵编码比二进制编码更适合表达蛋白质构象;其次,有目的地对数据进行预处理,即结构分类,使数据集的功能性更加突出;最后,借助网格高性能的并行计算能力,使采用位矩阵编码的并行遗传算法的性能能最大发挥出来,在较短时间内获得全局较优解。
如果将我们的算法改为混合算法,如与蚂蚁算法结合,利用蚂蚁算法对结构分类的蛋白质数据进行预筛选,抽取能决定预测结果的关键数据集,再利用并行遗传算法进行蛋白质二级结构预测,预计也能提高预测的精度,这将是我们下一步的研究工作。
2 总结
蛋白质结构预测是生物信息学中一个重要问题,蛋白质特定空间构象是其功能活性的基础,因而空间构象预测可为蛋白功能研究提供启示。但事实上,这是一个NP难问题。传统的二级结构预测方法,如Chou-Fasman方法和GOR方法等的预测精度比较低。而提高蛋白质二级结构预测的准确度,对于预测一个蛋白质分子的三维空间结构是非常关键的。针对生物信息数据呈指数形式快速增长,而且相关数据库存在不同的地域,受不同的组织拥有,以及预测问题的NP难本质,本文提出了一种网格中基于结构分类的、按位矩阵编码的并行遗传算法来进行预测,实验表明预测效率和精度均得到较大的提高,并为下一步的研究工作打下了坚实的基础。
参考文献
[1] Frederic M R.The protein folding problem.Scientific American,1991;1:31—34
[2] Backofen R,Will S,Clote P.Algorithmic approach to quantifyingthe hydrophobic force contribution in protein folding.In:Klein R,Altman B.Pacific Symposium on Biocomputing,2000.Singapo re:World Scientific Publishing Co Pte L td,2000;95—106
[3] Baker D.A surprising simplicity to protein folding.Nature,2000;405:39—42
[4] Wu C H,Artificial neural networks for molecular sequence analysis.Comput Chem,2006;21(4):21—24
[5] Chandonia J.The importance of larger data sets for protein secondarystructure prediction with neural networks.Protein Sci,2006;5(4):12—16
[6] Pedersen J T,Moult J.Ab initio protein folding simulations with ge-netic algorithms:simulations on the complete sequence of small pro-teins.Proteins,2005;(1):35—39
[7]倪红春,王翼飞,史定华.遗传算法在蛋白质结构预测中的应用.上海大学学报(自然科学版),2001;(6):18—20
[8]李菁,相秉仁.基于结构分类的BP神经网络预测蛋白质二级结构.药学进展,2003;27(2):7—9
[9]熊赟,陈越,朱扬勇.ProFaM:一个蛋白质序列家族挖掘算法.计算机研究与发展,2007;(7):14—15
[10]何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究.中文信息学报,2007;(4):3—5
[11]张海霞.蛋白质二级结构预测方法的评价.计算机与应用化学,2006;20(6):17—19
蛋白质二级结构 第2篇
人载脂蛋白A-Ⅰ的原核表达及二级结构和功能鉴定
目的`为获得高产量并具有正常结构和生物学活性的原核表达人载脂蛋白A-Ⅰ(apoA-Ⅰ).方法利用DNA重组技术对人apoA-Ⅰ的前8个氨基酸引入沉默突变,以pET-30b(+)为原核表达载体,在apoA-Ⅰ多肽链C-末端引入6组氨酸标签,采用镍亲和层析对表达蛋白进行纯化.分别使用圆二色分析、浊度澄清试验和胆固醇外流试验对重组apoA-Ⅰ的α螺旋含量、脂质结合动力学及促细胞胆固醇外流能力进行评价.结果获得高表达产量的重组apoA-Ⅰ(12 mg纯化apoA-Ⅰ蛋白/L菌液);重组蛋白的α螺旋含量为(54±4)%,脂质结合动力学速率常数k1/2为0.059±0.002 min-1,胆固醇外流百分比为(16.68±1.77)%.结论可获得高产量并具有生物学活性的重组人apoA-Ⅰ;为构建apoA-Ⅰ其他突变体提供模式.
作 者:祝学卫 吴钢 曾武威 薛红 陈保生 ZHU Xue-wei WU Gang ZENG Wu-wei XUE Hong CHEN Bao-sheng 作者单位:中国医学科学院,中国协和医科大学,基础医学研究所,医学分子生物学国家重点实验室,北京,100005刊 名:基础医学与临床 ISTIC PKU英文刊名:BASIC & CLINICAL MEDICINE年,卷(期):26(4)分类号:Q816关键词:人载脂蛋白A-Ⅰ 原核表达 α螺旋含量 脂质结合 细胞胆固醇外流
蛋白质结构与功能的关系 第3篇
关键词:蛋白质;结构;功能
蛋白质是一切生命的物质基础,机体中的每一个细胞和所有重要组成部分都有蛋白质的参与,它是与生命及与各种形式的生命活动紧密联系在一起的物质。蛋白质的生物活性不仅取决于蛋白质分子的一级结构,而且作为在生命活动中起重要作用的生物大分子,其在生物体内的各种功能都由其空间结构决定。异常的蛋白质空间结构很可能导致其生物活性的降低、丧失,甚至会导致疾病。对于蛋白质空间结构的研究不仅有利于认识蛋白质的功能,也有利于认识蛋白质的生物功能以及蛋白质与蛋白质之间的相互作用。
1 蛋白质的结构
蛋白质是一类非常重要的生物大分子,在人类以及各种生物体重占有特殊地位。它是细胞组织成分中含量最丰富,功能最多的高分子物质。它们是构成生命的基本要素之一,在生命体的生命活动中起着关键性的作用[1]。任何一个生物细胞都蕴含着多种蛋白质,它们的结构各不相同,各有其特殊的功能,其多样性的功能由其千差万别的结构所决定的。
1.1 蛋白质的一级机构 蛋白质是由一条或者几条具有确定氨基酸序列的多肽链构成的大分子。蛋白质一级结构即指蛋白质多肽链的氨基酸残基序列。一条肽链由L型氨基酸按照一定序列排列,相邻氨基酸之间通过缩合脱去一分子水而形成肽键,肽键由羰基碳和酰胺氮连接而成。
每一种蛋白质分子都有自己特有的氨基酸的组成和排列顺序即一级结构,由这种氨基酸排列顺序决定它的特定的空间结构,也就是蛋白质的一级结构决定了蛋白质的二级三级等高级结构,这就是荣获诺贝尔奖的著名的Anfinsen 原理。
1.2 蛋白质的二级机构 蛋白质的二级结构主要分为α螺旋,β折叠和无规卷曲。
1.3 蛋白质的三级机构 蛋白质的三级结构也多指球状蛋白的三级结构,即在蛋白质二级结构的基础上,在多种非共价键的作用下构成的蛋白质三维空间的结构。
1.4 蛋白质的四级机构 四级结构是蛋白质最高级的结构,四级结构增加了蛋白质的稳定性,提高了遗传经济性和效率,亚基间的协同性和别构效应对蛋白质在发挥蛋白质功能方面起着巨大作用。
2 蛋白质的功能
蛋白质是生命活动的最终执行者,蛋白质功能的认识可用于了解蛋白质在生物过程中所起到得作用,从而有助于人们理解复杂的生命现象。
2.1 蛋白质的结合功能 蛋白质可以结合到其他分子上或者蛋白质上。特异性地识别其他分子是蛋白质功能的关键,这主要得益于蛋白质结构和表面化学性质的多样性。结合的分子(配体)可大可小,小的如与肌红蛋白血红素基团协同结合的氧分子,大的如结合在TA—TA 结合蛋白上被弯曲的特定DNA 顺序(TA—TA box)。
2.2 蛋白质的催化功能 基本上活细胞中的每个化学反应都是被催化的,大多数的催化剂是酶蛋白。酶的许多结构特性都为催化作出了贡献。
2.3 蛋白质作为分子开关的功能 蛋白质是柔性分子,其构象可以随着pH值的变化或结合配体而改变。这种变化可以作为控制细胞变化的分子开关。
2.4 蛋白质的结构功能 蛋白质可以作为活体中一些主要结构的元件。这种功能来自于蛋白质亚基自身之间,以及与其他蛋白质、碳水化合物等特异性结合,使得像肌动蛋白丝这样的复杂系统也可以自发组装。
3 蛋白质的结构与功能的关系
3.1 蛋白质结构与催化功能的关系 催化同一类化学反应的酶往往具有相似的特征结构,如丝氨酸蛋白酶是一类庞大的酶系,在这类酶中活性位点丝氨酸残基的侧链羟基攻击将要被水解的酰胺键的碳原子、组氨酸残基和天冬氨酸残基协助这一水解过程的进行,并与丝氨酸一起形成一个催化三连体。
3.2 蛋白质超家族与结构预测 超家族被定义为具有相似三维结构和相关但不一定相同的生物化学功能的同源蛋白质。把一个蛋白质归属到某个特定超家族是由于结构和功能上的关系。每个超家族中又有家族,它们的功能更加紧密,序列一致性更加显著(>50%)。
4 结论
蛋白质的生物功能很大程度上取决于蛋白质的三维结构性质。具有相同结构和特征的蛋白质往往具有相似的功能,行使同一功能的蛋白质常常在结构上具有许多共同点,如具有相同的活性位点、相似的氨基酸组成或类似的构象。蛋白质序列有30%相似的蛋白质总体上的反应类型是相似的,序列一致性在40%以上的生物化学功能上很少有差异。在生物进化中,两物种的亲缘关系越近,其蛋白质序列越相以,反之则氨基酸的替换增多,序列的差异增大。 因此,蛋白质的氨基酸序列为进化的演变提供了进化过程近似的时间尺度。
蛋白质二级结构 第4篇
通过X-射线衍射或者核磁共振方法可以得到蛋白质中每一个原子的坐标。对这些原子坐标的解析就成为了解蛋白质的结构和功能的关键。DSSP和STRIDE是在得到蛋白质原子坐标的基础上对其进行解析和说明的工具,并将每一个氨基酸残基的二级结构定义为α-螺旋、β-折叠或无规则卷曲等结构。本文将详细分析介绍它们的异同及其应用条件。
1.1 DSSP(Definition of Secondary Struc-ture of Proteins)。
DSSP是由Wolfgang Kabsch和Chris Sander建立的,用来使二级结构定义标准化。DSSP根据蛋白数据库格式(PDB)中的原子坐标定义蛋白质二级结构、几何特征和疏水性[1]。DSSP至今是应用最广泛的二级结构定义系统,它的运算法则是建立在静电规范定义的氢键探测的基础上。它DSSP定义了8种二级结构类型:H(α-螺旋),G(310-螺旋),I(π-螺旋),B(单个的桥,即β桥),E(延伸的β桥,即β股),T(转角),S(卷曲)和空白(环或无规则卷曲)[2]。DSSP文件格式如图1所示。
1.2 STRIDE(Protein secondary structureassignment from atomic coordinates)。
STRIDE是由D.Frishman和P.Argos等建立的,它的文件将蛋白质的二级结构分为七类:H(α-螺旋)、G(310-螺旋)、E(延伸的结构)、B或b(单个的桥)、T(转角)、I(Phi-螺旋)、C(无规则卷曲)[4]。STRIDE文件结构除对所提交的蛋白链的一些描述信息外,默认的模式主要包括以下三个部分(以血红蛋白1gdi为例)[5]:
1.2.1简易的二级结构信息,可以直观地看到蛋白链的二级结构。1.2.2有意义结构的起始及终止氨基酸及其在链中所处的位置。这样的文件结构一目了然,可以很容易地整体了解提交的蛋白链的二级结构。1.2.3蛋白链二级结构的详细信息。包括每一个残基的二级结构信息以及这个残基的π角、ψ角和它所占的面积。以下为总信息的一部分。π角和ψ角分别精确到小数点后两位。
2 DSSP与STRIDE的比较
2.1 文件结构所含信息。
二硫键:在DSSP文件中,相同两个小写字母分别标记形成二硫键的两个半胱氨酸。大写字母是氨基酸的单字母表示,适用于未形成二硫键的半胱氨酸;在STRIDE文件中,单纯以数字的形式标出哪两个位置的半胱氨酸形成了二硫键。
氢键:在DSSP文件中,“>”表示此氨基酸(即第i个)的羰基与后面的氨基酸(即第i+n个)的“N-H”键上的氢原子形成氢键。N决定于第一个“O->H-N”的第一个数;“〉”下面的数字“n”表示此氨基酸没有与其它的氨基酸形成氢键,而且它位于一个由第i和i+n所形成的螺旋中;在STRIDE文件输出的结果中,氢键信息可选,不是默认的,如果在提交页面选择输出氢键信息,它会在原有输出详细信息的下面单独列出这条蛋白链的氢键信息。
桥:在DSSP文件中,“a”表示ladder,小写字母表示的是平行桥,大写字母表示的是反平行桥。序列中,第一次出现的ladder用“A”或“a”表示,余下的以此类推;在STRIDE文件中,B或b表示单个的桥。
手性:在DSSP文件中,“+”和“-”表示手性。由四个相邻的氨基酸的α-碳原子组成的二面角决定;在STRIDE文件中,未做出手性的明确标记。
2.2 文件的直观简易性。
单纯从文件结构的角度上来说,STRIDE文件比DSSP文件要简单、直观、整齐,如果STRIDE文件与DSSP文件所含的信息相同时,STRIDE偏向以数字的方式来描述和定位残基及其对应的二级结构。而从蛋白质结构的表现上来说,DSSP文件对于人的阅读则包含更多、更详细的信息量,更注重细节。
2.3 残基表示形式。
在DSSP文件中,所有氨基酸残基均用单字母表示;而STRIDE文件中,氨基酸残基的简易信息以单字母形式表示,详细信息是以三字母形式表示,更适于人的阅读。
3 应用
DSSP和STRIDE系统详细、系统地分析了PDB文件中的信息,但之前还未有人对二者做过详细的比较,并可区别地应用于对蛋白质的二级结构的预测。本文将其进行了系统对比,发现二者的应用和应用前景如下:
3.1 在蛋白质二级结构预测中的直接应用。
DSSP和STRIDE是作为蛋白质二结构定义的角色进入到蛋白质二级结构预测的过程中。其应用过程:先将已知原子坐标的数据集经过DSSP或者STRIDE定义其每一个残基的二级结构,再将这些已知二级结构的残基作为训练集来训练机器学习系统(SVM或者神经网络),得到一个“学习”后的模板,再以这个模板进行对未知结构的蛋白质的二级结构预测,如图2所示。
3.2 对蛋白质结构预测过程中使用的训练集的筛选和优化。
国际上常用的蛋白质二级结构预测中使用的训练集有RS126和CB513,它们是这样生成的:首先以单一序列间30%相似性为同源,将PDB文件按同源性划分为若干家族,然后在有代表性的家族中选出有代表性的链组成训练集。训练集是否具有代表性,直接影响着对蛋白质二级结构预测的准确率。DSSP和STRIDE这些软件就可以作为我们筛选这些蛋白链的工具。将蛋白链经过DSSP或STRIDE分析后,我们可以通过分析结果文件中螺旋和折叠的含量、分布情况来确定这条链是否适合作为训练集的一部分。
然而,并不是DSSP和STRIDE文件中的每一个信息都已用于蛋白质二级结构的预测。在DSSP和STRIDE文件中,大量的信息,比如氢键信息、平面角信息、TOC值等都没有用于对蛋白质二级结构的预测。如何提取最有效的信息才能更准确地预测未知结构的蛋白质的二级结构是分析和研究DSSP和STRIDE及其文件的意义所在。这些信息将有可能作为训练数据集的因素,应用到数据集的训练过程中。
4 展望
DSSP和STRIDE文件中有很多信息尚未用于蛋白质二级结构的预测,但并不是所有的这些未用于蛋白质二级结构预测的信息对蛋白质的立体结构的形成都是无关的,如果需要更多的影响残基成螺旋或者成折叠的因子时,就需要我们从DSSP和STRIDE文件中去提取相关的信息。比如,在DSSP文件中,TOC值代表第i个氨基酸的羰基与第i-1个氨基酸的羰基的夹角的余弦,当它接近于1时,残基往往倾向于形成螺旋;当它接近于-1时,残基往往倾向于形成折叠。如果能够合理地将类似的这些因子加入到蛋白质二级结构预测的影响因子中,很可能会提高二级结构预测的准确率,也是我们研究DSSP与STRIDE的意义所在。
参考文献
[1]Kabsch,W.&Sander,C.(1983)Dictionaryof protein secondary structure:patternrecognition of hydrogen-bonded andgeometrical features.Biopolymers,22:2577-2637
[2]Kuntz,I.(1972)J.Am.Chem.Soc.94,4009-4012.
[3]http://bioweb.pasteur.fr/docs/doc-gensoft/dssp/dssp-80.1.
[4]Frishman,D&Argos,P.(1995)Knowledge-based secondary structureassignment.Proteins:structure,function and genetics,23(4):566-79.
二级注册结构工程师考试科目 第5篇
《建筑工程抗震设防分类标准》(GB50223-2008)
《建筑抗震设计规范》(GB50011-2001)
《建筑地基基础设计规范》(GB50007-2002)
《建筑桩基技术规范》(JGJ94-2008)
《钢结构设计规范》(GB50017-2003)
《砌体结构设计规范》(GB50003-2001)
《建筑地基处理技术规范》(JGJ79-2002、J220-2002)
《混凝土结构设计规范》(GB50010-2002)69元
《木结构设计规范》(GB50005-2003)
《高层建筑混凝土结构技术规程》(JGJ3-2002、J186-2002)
《注册结构工程师专业考试应试指南》 中国建筑工业出版社 施岚青
《注册结构工程师专业考试答题指导》中国建筑工业出版社 施岚青
蛋白质二级结构 第6篇
关键词:口蹄疫病毒,结构蛋白,二级结构,抗原表位,疫苗
口蹄疫病毒( FMDV) 的抗原结构十分复杂,存在广泛的抗原变异,各型间无交叉反应,既使是免疫动物在接触新病毒后也可形成隐性感染而持续带毒。Hankou /99株是O型FMDV的一株,它的P1编码区长2 160 nt,编码720个氨基酸,此株的P1与OLZ、TW /97毒株变异率小,仅为7. 3% 、7. 2% ,但与其他O型FMDV( 如China /99 ) 同源性较差,这样就给免疫、预防工作带来了巨大的挑战,为了综合预防FM-DV,预测它的抗原表位就显得尤为重要。
随着生物信息学的运用,疫苗研究领域发生了根本性的变化,为开发新型和改进疫苗提供了机遇。使用不同的运算法则能挖掘基因序列信息,表现目的基因的特性,这就是所谓的“反向疫苗学”[1]。这种方法与传统研制疫苗的方法截然相反,它是结合分子生物学的新技术,能全面确定所有潜在病原的抗原,进而研制出有效的疫苗。本研究运用计算机技术和分子生物学软件对Hankou /99株结构蛋白基因编码的蛋白质二级结构和B细胞抗原表位进行分析和预测,获取未知序列的有利用价值的生物信息,为研制有效的基因疫苗提供充分的数据。
1 材料与方法
1.1试验毒株
FMDV氨基酸序列,来自于国家口蹄疫参考实验室研究成果。
1. 2 FMDV 结构蛋白二级结构的预测
通过使用计算机软件采用不同的方法预测Ha-nkou /99株结构蛋白的二级结构; 采用Garnier - Rob-son方法[2]计算特定氨基酸残基在特定结构内部的可能性; 采用Chou - Fasman方法[3]通过序列氨基酸残基的晶体 结构来预 测蛋白质 二级结构; 采用Karplus - Schulz方法[4]预测蛋白质骨架区的柔韧性。
1. 3 FMDV 结构蛋白 B 细胞抗原表位的预测
J. Kyte等[5]根据序列的氨基酸组成预测蛋白质的疏水区和亲水区; E. A. Emini等[6]预测特定区域位于蛋白质的表面的可能性; B. A. Jameson等[7]通过现有的蛋白质结构预测方法预测潜在的蛋白质抗原决定簇。本试验通过以上方法对FMDV Hankou /99株结构蛋白抗原特异性淋巴细胞的抗原表位进行综合预测。
2 结果与分析
2. 1 VP1 蛋白预测的二级结构
Garnier - Robson和Chou - Fasman方法是从不同角度来预测蛋白质的二级结构,因此,所预测的二级结构有所不同。Garnier - Robson法计算的可能性结果为: 1个α - 螺旋( 第75 ~ 82位氨基酸残基) ; 有15个β - 折叠; 转角较多,有14个。用Chou - Fas-man方法预测蛋白质的二级结构,结果为: 第73 ~81、111 ~ 118、144 ~ 158、178 ~ 186位氨基酸残基处为α - 螺旋; 有8个β - 折叠; 转角多,有17个。见图1。跨膜区的α - 螺旋有10个。
A. α - 螺旋; B. β - 折叠; T. 转角; C. 无规卷曲。
采用Karplus - Schulz方法预测蛋白质骨架的柔韧性的结果( 见图2) 表明,有13个柔韧性区。
2. 2 VP1 蛋白的 B 细胞表位预测
按照Kyte - Doolittle的氨基酸亲水性标准,可以看出: VP1结构蛋白亲水性较高的区域( ≥0) 主要为第16 ~ 31、91 ~ 108、132 ~ 147、178 ~ 187、199 ~212位的氨基酸残基 ( 见图3 ) ; 用Emini方法发现VP1蛋白的多数区段出现在蛋白质表面的可能性比较大,而且这些区段几乎都位于VP1蛋白的亲水区域,其中一致性较高的区段是第23 ~ 31、100 ~ 111、200 ~ 211位氨基酸残基,VP1蛋白的N端和C端具有亲水性,但表面可能性小; 用Jameson - Wolf方法预测VP1结构蛋白潜在的抗原决定簇,结果表明,大多数区段抗原指数都比较高,主要是3 ~ 10、16 ~ 31、42 ~ 49、80 ~ 86、96 ~ 104、132 ~ 148、177 ~ 182、197 ~212位的氨基酸残基。以上的亲水性、抗原指数和表面可能性结果预示,VP1蛋白展示在蛋白表面的可能区域可能是B细胞抗原表位,具有抗原特异性淋巴细胞表位优势区域。
2. 3 VP2 蛋白预测的二级结构
采用Garnier - Robson方法计算特定氨基酸残基在特定结构内部的可能性,结果表明: α - 螺旋少,仅有1个( 8 ~ 11位) ; β - 折叠有15个; 转角多,有19个。采用Chou - Fasman法预测蛋白质的二级结构,结果表明: 第5 ~16、37 ~ 44、77 ~ 84、87 ~ 101、106 ~ 113位氨基酸残基为α - 螺旋; 有8个β - 折叠; 转角多,有17个; 跨膜区的α - 螺旋有14个。见图4。
A. α - 螺旋; B. β - 折叠; T. 转角; C. 无规卷曲。
采用Karplus - Schulz方法预测蛋白质骨架的柔韧性,发现该蛋白的柔性区域呈散在性分布,各个区段较短,有13个柔性区,见图5。
2. 4 VP2 蛋白 B 细胞表位的预测
用Kyte - Doolittle方法预测VP2结构蛋白的亲水性,其亲水性较高的区域( ≥0) 较少,主要在第1 ~10、14 ~ 27、165 ~ 176位氨基酸残基,见图6。用Emi-ni方法预测该蛋白的表面可能性,结果表明,VP2蛋白出现在蛋白质表面的可能性小,主要在1 ~ 7、132 ~ 135、167 ~ 174、214 ~ 218位的氨基酸残基。用Jameson - Wolf方法预测VP2结构蛋白潜在的抗原决定簇,结果表明,大多数区段抗原指数都比较高,呈现一定的正性分布,结合其亲水性和表面可能性,第1 ~ 23、130 ~ 135、166 ~ 177、213 ~ 218位的氨基酸残基最有可能成为B细胞抗原表位。
2. 5 VP3 蛋白预测的二级结构
用Garnier - Robson方法计算出特定氨基酸残基在特定结构内部的可能性,结果表明: α - 螺旋较丰富,有10个; β - 折叠多( 20个) ; 转角呈散在分布。用Chou - Fasman方法预测蛋白质的二级结构,结果表明: 有α - 螺旋10个; β - 折叠8个; 转角15个; 跨膜区的α - 螺旋有9个。这两种方法均发现预测VP3蛋白的氨基端形成β - 折叠的能力较强,在分布区段上α - 螺旋与β - 折叠呈交叉分布,见图7。
用Karplus - Schulz方法预测蛋白质骨架的柔韧性,结果表明,有13个柔性区,见图8。
2. 6 VP3 蛋白 B 细胞表位的预测
用Kyte - Doolittle方法预测VP3结构蛋白的亲水性,结果表明,VP3蛋白亲水性区域( ≥0) 比较分散,主要是第19 ~ 24、63 ~ 74、129 ~ 138、216 ~ 220位的氨基酸残基,并且亲水性指数不高。用Emini方法预测VP3结构蛋白的表面可能性,结果表明,VP3蛋白的多数区段出现在蛋白质表面的可能性不多。以Jameson - Wolf方法预测VP3结构蛋白潜在的抗原决定簇,结果表明,VP3抗原表位较多,指数较高,见图9。
A. α - 螺旋; B. β - 折叠; T. 转角; C. 无规卷曲。
由此可以推测,VP3蛋白的B细胞抗原表位主要在17 ~ 26、65 ~ 73、117 ~ 119、129 ~ 138位的氨基酸残基。
2. 7 VP4 蛋白预测的二级结构
VP4蛋白的二级结构比较简单,几乎不能形成α - 螺旋和β - 折叠,存在一定的转角结构。在形成转角的数目上,两种方法预测的结果有较大差异: 用Garnier - Robson方法预测转角有3个,用Chou - Fas-man方法预测转角有10个。跨膜区的α - 螺旋有5个,见图10。
A. α - 螺旋; B. β - 折叠; T. 转角; C. 无规卷曲。
用Karplus - Schulz方法预测的蛋白质骨架柔性区仅有2个,但所占据的区段却比较大,柔性区Ⅰ占据VP4蛋白第14 ~ 24位的氨基酸残基,柔性区Ⅱ占据第27 ~ 57位的氨基酸残基,见图11。
2. 8 VP4 蛋白的 B 细胞表位预测
用Kyte - Doolittle方法预测VP4结构蛋白亲水性较高的区域( ≥0) 主要分布在两部分: 第8 ~ 25、27 ~ 54位的氨基酸残基处,而且跨度大。用Emini方法预测VP4结构蛋白的表面可能性结果表明,VP4蛋白出现在蛋白质表面的可能性区域也主要分布在第9 ~ 19位和33 ~ 49位的氨基 酸残基处; 用Jameson - Wolf方法预测VP4结构蛋白潜在的抗原决定簇,结果表明,VP4蛋白抗原指数较高的区域是14 ~ 51位的氨基酸残基,见图12。
因此,推测VP4蛋白的第42 ~ 50位氨基酸残基可能存在B细胞抗原表位。
3 讨论
生物科学正进入一个转折时期,实验的规模正以前所未有的速度增加,数据越来越多,如Microarrays和Proteomics中自动测序工程和各种功能基因组工程,出现传统分析跟不上时代步伐的现象,这就要求计算机的帮助,产生了生物信息学,它是一门信息学、分子生物学和遗传学交叉学科,作为一种工具,它收集、存储和分析大量新的信息。基因组革命已经为疫苗的发现打开了一个完全新的途径,反向疫苗学现正用于疫苗的研制[8],如B型脑膜炎球菌疫苗就是在基因组序列基础上获得的[9],其中600个潜在的抗原表位是通过电脑分析来预测的,已表达和通过免疫测试的有350个表位[10]。预防HIV的大多数途径是使用包膜多聚蛋白和核心蛋白( gag) ,但这些蛋白由于免疫系统压力易高度变异,使用反向疫苗学,通过基因组预测潜在的抗原表位,为有效研制疫苗提供极有价值的信息[11]。另外,此学科也用于肺炎链球菌、肺炎衣原体、结核分枝杆菌、炭疽杆菌、梅毒螺旋体等的研究[12]。
从科学角度来说,在发展新型诊断、治疗和疫苗上,基因组和相关技术结合应用于病毒已起到了明显的作用。本研究应用生物信息学,对猪源FMDV Ha-nkou /99株结构蛋白的二级结构及其潜在的B细胞抗原表位进行了预测和分析,结果表明: Hankou /99株VP1结构不像其他FMDV那样丰富,用Garnier -Robson方法预测的α - 螺旋只有1个,但相对VP2、VP4来说仍较复杂; VP3含有较多的α - 螺旋,但亲水性较差,出现在蛋白质表面的可能性也不多; VP2和VP4二级结构较为简单,其中VP4的结构最简单,这些结构形成与蛋白的一级结构有关。VP1蛋白脯氨酸( Pro) 出现的频率是6. 60% ,甘氨酸( Gly) 出现的频率是4. 72% ,VP3蛋白Gly和Pro出现的频率都为7. 27% ,VP4蛋白Gly出现的频率是10. 14% 。试验证明,肽链中Pro或Gly的出现频率较高,将会妨碍α - 螺旋的形成。另外,α - 螺旋结构的稳定主要是靠链内的氢键,这就会受酸碱性氨基酸的影响,由于同电相斥,也不利于α - 螺旋的形成,VP3蛋白中氨基酸的酸性、碱性氨基酸是随机分布的,没有相对集中的区域,因此有利于形成α - 螺旋,这一点在VP2和VP4蛋白也有充分体现,从而体现了Hankou /99株P1结构蛋白的特殊性。从一定程度上讲,也反映了氨基酸的一级结构与高级结构的密切关系。总之,这种计算机和试验相结合的方法能明显增加对微生物致病机理的了解和有效疫苗的研制,进一步研究基因组进化机理和过程[13]。
随着对蛋白质分子结构研究的逐渐深入,使人们逐渐认识到蛋白质的结构与功能的关系不仅具有相互适应性、高度的统一性,而且也是相互制约、相互矛盾的。根据不同的参数,本研究还评价了此FMDV结构蛋白潜在的B细胞优势抗原表位,含有较多的α - 螺旋、β - 折叠等二级结构,化学键键能比较高,较牢固地维持蛋白的高级结构,抗原表位就少; 而蛋白质的转角及无规卷曲等二级结构则是比较松散的结构,易发生扭曲,盘旋并展示在蛋白的表面,抗原位点就可能多。上述蛋白质二级结构和B细胞抗原表位的预测结果也充分证明了这些理论,VP1蛋白的转角和无规卷曲多,柔性区域很丰富,呈现出随机分布,出现在蛋白的可能性大,因此存在B细胞优势抗原表位,如: 第144 ~ 147位、177 ~ 182位的氨基酸残基。另外,VP2、VP3有2个B细胞抗原表位: VP2的第132 ~ 134位氨基酸残基和VP3的第117 ~ 119位氨基酸残基抗原指数都比较突出。这就提示我们,在研制FMD基因工程疫苗时,由于不同毒株抗原表位差异引起抗原性不同,应充分考虑到不同毒株抗原表位的改变问题,如R. Acharya等[14]用单克隆抗体识别到VP2的第82 ~ 88区段是胰岛素的结合位点。另外,通过单克隆抗体也发现VP2的βB - C环上有明显的抗原位点,从而体现了抗原位点在流行中变化的性质[15]。本次研究预测了4个比较突出的抗原表位,当然这并不意味着这4个抗原表位就是此株FM-DV的所有抗原表位,可能还有抗原表位没有预测到,这主要是由于这些表位组装成衣壳蛋白时,由于立体结构的限制受到外层蛋白屏蔽的影响,造成预测的抗原表位与真实情况存在一些差异。
蛋白质二级结构 第7篇
PCV-2是圆环病毒科圆环病毒属成员, 为单股环状负链无囊膜的DNA病毒, 是已知的最小动物病毒之一。PCV-2具有致病性, 基因组全长1 767 bp或1 768 bp, 包括11个读码框, 其中ORF2编码病毒的主要结构蛋白为核衣壳蛋白 (Cap) , 决定着PCV-2的表型特异性。目前, 基因工程疫苗是疫苗研究的热点, 技术思路是通过分析病毒的基因序列来预测病原体的抗原信息, 然后筛选出合适的候选抗原, 进而研制出有效的疫苗。本试验的目的就是在已获得的PCV-2基因组序列资料的基础上, 运用计算机和分子生物学软件对其结构蛋白的二级结构和B细胞抗原表位进行预测, 从而为PCV-2的反向疫苗学研究提供理论依据, 为研制ELISA诊断试剂盒和单克隆抗体的制备和抗原表位的鉴定工作奠定基础。
1 材料和方法
1.1 PCV-2结构蛋白的氨基酸序列 PCV2-871株
根据PCV2-871株[1]的氨基酸序列进行分析。
1.2 PCV-2结构蛋白二级结构的预测
运用Camier-Robson方法、Chou-Fasman方法和Karplus-Schulz方法预测PCV-2去除NLS ORF2结构蛋白的二级结构。
1.3 PCV-2结构蛋白B细胞抗原表位的预测
用Kyte-Doolittle方法对结构蛋白的疏水性进行了分析, 用Emini方法预测各结构蛋白的表面可能性, 以Jameson-Wolf方法预测结构蛋白的抗原指数, 然后综合评价PCV-2去除NLS ORF2结构蛋白B细胞抗原表位的地位。
2 结果
2.1 PCV-2结构蛋白二级结构的预测
Camier-Robson方法是通过计算机根据特定氨基酸残基在特定结构内部的可能性来预测蛋白质的二级结构的。用该方法预测PCV-2去除NLS ORF2结构蛋白二级结构, 没有发现α螺旋, 但有许多β折叠存在, 且分布比较均匀, 在各β折叠单元存在长短不一的转角。该方法预测的结果显示, 在该蛋白的跨膜区有一些小α螺旋结构形成, 见图1。
A.α螺旋结构;B.β折叠;T.转角区域;C.无规则卷曲。
Chou-Fasman方法是通过序列氨基酸的残基的晶体结构来预测二级结构, 用该方法预测的PCV-2结构蛋白二级, 发现它有少量α螺旋结构形成, 其位置分别在第27~33, 56~65, 89~96, 142~148, 178~186, 191~195区段。用该方法预测的β折叠和转角的结构就较少并主要在该蛋白的两端, 见图1。
2.2 PCV-2结构蛋白亲水性分析
用Kyte-Doolittle方法对PCV-2去除NLS ORF2结构蛋白的亲水性进行了分析, 结果表明, 该蛋白存在众多的疏水性区域, 而且亲水性指数比较高, 其中包括第3~77, 98~193位氨基酸残基, 提示该区域暴露于表面的概率较大, 作为抗原表位的可能性也最大, 见图 2。
2.3 PCV-2结构蛋白的表面可能性分析
PCV-2结构蛋白的氨基酸呈现在表面可能性较大的区域主要是第7~25, 44~60, 96~122, 133~140, 164~170区段, 其他部位展示的可能性较小或表现为负值, 见图3。
2.4 PCV-2结构蛋白骨架区的柔韧性分析
PCV-2结构蛋白骨架区含有较多的柔韧性区域, 且分布比较均匀, 提示该蛋白肽段的柔韧性较大, 发生扭曲、折叠的概率较高, 能形成丰富的二级结构, 见图4。
2.5 PCV-2结构蛋白B细胞抗原表位的预测分析
通过联合以上蛋白质结构预测方法分析PCV-2结构蛋白潜在的蛋白抗原决定簇, 结果表明, 结构蛋白含有许多抗原指数较高的区域, 提示该区段含有潜在优势抗原表位, 如第7~25, 40~88, 102~154, 164~173区段等, 见图5。这些区域的抗原指数也比较高, 但是亲水性和表面呈现指数偏低, 因此要综合看待其作为抗原表位的可能性。
3 讨论
本研究借助于计算机技术和生物学软件对PCV-2结构蛋白的二级结构和潜在的B淋巴细胞抗原表位进行了预测和分析。该蛋白表位的预测为研制一种适于临床应用的、简便、快速的ELISA诊断试剂盒和单克隆抗体的制备奠定了技术基础。
参考文献
[1]符芳, 王晓武, 李曦.一株2型猪圆环病毒的分离及其序列、致病性的初步分析[J].黑龙江畜牧兽医, 2007 (8) :78-80.
[2]OTALI Y, NUNYOA T.Depression of vaccinal immunity to Markesdisease by infection with anemia agent[J].Avian Pathol, 1998, 17:333-347.
[3]CHOI C, CHAE C.Colocalitzation of porcine reproductive and re-spiratory syndrome virus and porcine circo-virus 2 in porcine der-matitis and nephropathy syndrome by double labeling technique[J].Vet Pathol, 2001, 38:441-463.
蛋白质二级结构 第8篇
目前,研究发现猪链球菌疾病候选的蛋白疫苗有: 层粘连蛋白结合蛋白( Laminin binding protein,Lmb) 、表面蛋白( Surface antigen one,Sao) 、高亲和力锌吸收蛋白( High - affinity zinc uptake system protein,Znu A ) 、菌毛样结构蛋白( Pili - like protein,PLP) 与组氨酸三聚体蛋白( Histidine triad protein,Htp) 等。Lmb蛋白是一种与锌离子吸收有关的表面蛋白,与细菌的黏附相关,为脂蛋白受体家族。小鼠免疫发现Lmb蛋白产生的特异性抗体,可有效抵抗链球菌的感染[6,7],在疫苗上有应用价值。Znu A蛋白与锌吸收和细菌致病性相关,具有较好的免疫原性[8],小鼠免疫攻毒实验证实Znu A蛋白具有免疫保护作用[9,10]。Sao蛋白在不同种链球菌间存在高度保守性,可诱导猪产生强烈的免疫反应,有效抵抗链球菌的感染[11,12]。但Sao蛋白稳定性较差,给疫苗开发带来一些困难[4]。
本研究旨在借助生物信息学方法,对Znu A、Sao、Lmb蛋白进行抗原表位与二级结构分析,从中选取抗原表位富集区,设计串联表位多肽。以期进一步提高疫苗的作用效果,为猪链球菌多肽表位疫苗的研制奠定基础。
1 材料与方法
1. 1 材料
依据NCBI公布的猪链球菌Lmb、Sao、Znu A蛋白的氨基酸序列,登录号分别为AER14507. 1、AEG67301. 1、ABP91052. 1,氨基酸序列长度依次为306、580、317。后续将对这3 个蛋白的氨基酸序列开展B /T细胞抗原表位与二级结构分析,以及链球菌重组表位疫苗分子的设计。
1. 2 方法
1. 2. 1 蛋白B细胞抗原表位分析
B细胞表位预测采用ABCpred方法( 人工神经网络算法) ,以及基于氨基酸的亲水性、柔韧性、可及性、极性、暴露表面、转角和隐形马尔可夫模型的Bepi Pred方案[13]。然后综合两种方法的重叠部分,获得蛋白的B细胞抗原表位。
1. 2. 2 蛋白T细胞抗原表位分析
细胞毒性T细胞( CTL) 抗原表位预测选择HLA- A2、HLA - A *0201、HLA - A *0202、HLA - A *0203、HLA - A*0205 分子结合肽,通过CTLpred程序预测。辅助T细胞( Th) 抗原表位预测类型选择DRB1 - 0101、DRB1 - 0102 和DRB1 - 0301 结合肽,预测网站为http: / /www. imtech. res. in /raghava /propred /[14]。
1. 2. 3 蛋白二级结构预测
蛋白二级结构采用SOPMA方法[13],以及DNASTAR软件的Protean程序进行联合预测。
1. 2. 4 重组表位疫苗的设计
将预测获得的B /T细胞表位进行选择性拼接,每个表位之间采用4 个甘氨酸( GGGG) 短肽进行分割,以减少各个表位间的相互影响。采用DNASTAR Protean软件分析表位的不同排列方式,以各表位间相对独立且具有较好抗原性参数的组合方式,作为重组表位疫苗的氨基酸序列。然后,翻译为核酸序列,最终获得重组表位疫苗基因序列。
2 结果与分析
2. 1 蛋白B细胞抗原表位分析
通过人工神经网络方法,采用ABCpred在线软件,预测获得Lmb、Sao、Znu A蛋白优势B细胞表位区段,如表1 所示。基于氨基酸可及性、亲水性、柔韧性、极性、转角和隐形马尔可夫模型的Bepi Pred方法,预测Lmb、Sao、Znu A蛋白的优势B细胞表位如表2 所示。综合ABCpred方案与Bepi Pred方案的重叠区段,最终获得Lmb蛋白B细胞表位区段为: 65- 75、131 - 141、179 - 189、279 - 287; Sao蛋白B细胞表位为: 38 - 48、370 - 385、384 - 399、475 - 490;Zun A蛋白B细胞表位为: 33 - 45、125 - 136、254- 263。
2. 2 蛋白T细胞抗原表位分析
2. 2. 1 CTL表位预测
CTL( 细胞毒性T淋巴细胞) 表位采用神经网络与量化矩阵法( ANN + QM) 法,选择性预测HLA -A2、HLA - A * 0201、HLA - A * 0202、HLA - A *0203、HLA - A*0205 的分子结合肽,结果如表3 所示。综合各个分子结合肽的重叠部分,最终获得Lmb蛋白CTL抗原表位为12 - 20 位的ALFGFVLAA; Sao蛋白CTL表位为16 - 24 位的VLFGTVALV; Znu A蛋白CTL抗原表位为50 - 58 位的FLNDMVYQL。
2. 2. 2 Th表位预测
Th( T辅助细胞) 采用Pro Pred程序进行预测,预测类型选择DRB1 - 0101、DRB1 - 0102 和DRB1 -0301 结合肽,结果如表4 所示。综合各个分子结合肽的重叠部分,最终获得Lmb蛋白Th表位为150 -158 位的LVGQEAVAI和203 - 211 位的FVTQHTAFS; Sao蛋白Th表位为60 - 68 位VRLFGRELL; Znu A蛋白Th表位为21 - 28 位LLSLIGLG。
2. 3 蛋白二级结构预测
为进一步验证预测获得的3 种蛋白B /T表位的准确性。利用SOPMA方法,并结合DNASTAR软件的Protean程序对蛋白二级结构进行预测。从而检测获得的蛋白B /T细胞表位区段是否处于易于蛋白产生抗体的暴露表面、无规则卷曲与转角等位置。SOPMA方法预测结果如图1 ~ 图3 所示。结果发现Lmb、Sao与Znu A的B / T细胞表位基本均处于无规则卷曲与转角区段,表明预测的B /T细胞表位较为合理。使用Protean程序,从蛋白的亲水性、可柔性、表面可极性与抗原指数方面,预测的3 种蛋白抗原性结果如图4 ~ 图6 所示。结果发现预测的3 种蛋白表位均处于抗原性较好的区段,同样支持预测获得的B /T细胞表位合理性。
c:无规则卷曲;e:β-片层;h:α-螺旋;t:β-转角。c:Random coil;e:Extended strand;h:Alpha helix;t:Beta turn.
2. 4 重组表位疫苗的设计
依据预测获得的Lmb、Sao、Znu A蛋白的B/T细胞表位,分别将各自蛋白的B/T细胞表位进行组合拼接,各多肽间接头氨基酸采用GGGG,利用Protean程序分析线性表位的各种排列方式,结果发现:Lmb蛋白epitope3-epitope4-epitope6-epitope2-epitope7-epitope1-epitope5;Sao蛋白epitope1-epitope2-epitope5-epitope3-epitope6-epitope4;Znu A蛋白epitope2-epitope5-epitope3-epitope4-epitope1,排列重组多表位间相对独立,抗原性参数较好。进一步将3个蛋白的B/T细胞表位融合拼接,最终获得抗原性参数较好的多肽序列(图7)。从而设计获得Lmb、Sao、Znu A蛋白的表位多肽序列为:TLEGKAQKLADGGGGPLEADPENNGGGGLVGQEAVAIGGGGGQGIDEASLYDGGGGFVTQHTAFSGGGGGIHSYEPSAADGGGGALFGFVLAAGGGGSAKQPDGGQATGGGGPEKQMTNKENDNIETSGGGGVLF-GTVALVGGGGTSEKQMPSVVNENAVTGGGGVRLFGRELLGGGGSEKQMPGGGGLNTMDEDGEEIVGGGGLLSLIGLGGGGGESTTNPERMKGGGGFLNDMVYQLGGGGSQTTEGSSKPRVA,下划线为柔性肽序列。翻译为核酸,即获得重组的表位多肽核酸序列为:ACTTTAGAGGGAAAGGCGCAAAAGTTGGCAGACGGTGGCGGTGGCCCTCTTGAAGCAGATCCAGAAAATAATGGTGGCGGTGGCTTGGTTGGTCAGGAAGCTGTTGCGATTGGTGGCGGTGGCGGTCAAGGGATTGATGAAGCTAGTTTATATGACGGTGGCGGTGGCTTTGTCACTCAACACACAGCCTTCTCTGGTGGCGGTGGCGGCATACACTCTTATGAACCATCGGCTGCGGACGGTGGCGGTGGCGCCTTATTCGGTTTTGTTTTAGCAGCTGGTGGCGGTGGCAGCGCAAAACAACCTGATGGGGGACAGGCTACTGGTGGCGGTGGCCCTGAAAAGCAAATGACTAATAAAGAGAACGATAATATTGAAACCTCT GGTGGCGGTGGCGTATTATTTGGAACTGTTGCTCTAGTG GGTGGCGGTGGCACCTCTGAAAAACAGATGCCGAGTGTTGTGAACGAAAATGCCGTAACA GGTGGCGGTGGCGTACGACTATTTGGTCGTGAGCTTCTA GGTGGCGGTGGCTCTGAAAAACAGATGCCTGTTAATGAGAAGGACAATGCCGTAACACCT GGTGGCGGTGGCTTGAATACGATGGATGAGGATGGAGAAGAGATTGTC GGTGGCGGTGGCCTATTGTCCCTAATAGGGTTAGGA GGTGGCGGTGGCGAGTCTACAACCAATCCAGAACGCATGAAG GGTGGCGGTGGCTTCCTCAATGACATGGTCTATCAGTTG GGTGGCGGTGGCTCGCAAACCACAGAAGGCTCTAGTAAGCCAAGAGTGGCT,下划线为柔性肽的核酸序列。
c:无规则卷曲;e:β-片层;h:a-螺旋;t:β-转角。c:Random coil;e:Extended strand;h:Alpha helix;t:Beta turn.
c:无规则卷曲;e:β-片层;h:α-螺旋;t:β-转角,c:Random coil;e:Extended strand;h:Alpha helix;t:Beta turn.
3 讨论
生物信息学方法在蛋白的抗原表位、高级结构预测上应用广泛,尤其在表位疫苗的设计上,可有效减少实验的盲目性,为人工合成多肽表位疫苗提供科学依据[15,16]。目前,表位多肽在肿瘤、肝炎、艾滋病、流感、寄生虫等重大疾病防治上均有研究[17]。通过生物信息学,已经对猪链球菌Sao蛋白[4]、Rfe A蛋白[18]、溶血素蛋白[19]、IBP蛋白[20]的B细胞表位进行预测,并设计了相关的表位疫苗,但这些表位疫苗的抗原性有待深入研究。本研究利用生物信息学方法,对猪链球菌潜在疫苗蛋白Lmb、Sao、Znu A进行抗原表位分析,并采用SOPMA方法与Protean程序对蛋白二级结构进行预测,以验证获得的抗原表位准确性,最终设计获得猪链球菌串联重组表位多肽,为进一步提高蛋白的免疫效果奠定基础。
本研究采用Bepi Pred和ABCpred方案对猪链球菌Lmb、Sao、Znu A蛋白进行B细胞表位预测。Bepi Pred方法主要是根据氨基酸的可及性、亲水性、转角与暴露表面等理化性质,以及隐形马尔可夫模型进行表位预测[21]; ABCpred方法依据人工神经网络算法,准确率较高[22]。前期,我们通过两种方法的结合,对绿脓杆菌Opr F蛋白、溶藻弧菌Omp U蛋白进行了B细胞表位预测[13,14]。本研究结合Bepi Pred和ABCpred方法,提高预测的准确性,最终获得猪链球菌Lmb、Sao、Znu A蛋白的B细胞表位。为多肽表位的拼接重组奠定基础。
CTL抗原表位是与MHC -Ⅰ类分子结合的短肽[23],其预测方法主要有BIMAS、SYFPEITHI、RANKPEP、量化矩阵与人工神经网络等方法[16,24]。目前,量化矩阵与人工神经网络法相互结合,在病毒、细菌蛋白CTL表位预测上获得广泛运用[14,23]。本文结合量化矩阵与人工神经网络方法,预测获得猪链球菌Lmb、Sao、Znu A蛋白的CTL表位。
Th表位是与MHC -Ⅱ类分子结合的短肽,可活化Th细胞,以辅助B细胞产生抗体。Th表位在病毒[25]、细菌蛋白[13]等均实现很好的预测。此外,通用的Th表位( PADRE) 在疫苗多肽设计上也受到关注[26]。本研究预测获得了Lmb、Sao、Znu A蛋白的Th表位。为表位多肽设计奠定基础。
对于抗原表位的拼接,要求构建的多肽各表位间相对独立,具有一定的分子刚性[27]。通常各个表位间接头的氨基酸序列有GGGG、AAY、KK与GGGGS[27,28,29]等。本研究采用GGGG氨基酸接头,通过Protean程序对获得的猪链球菌Lmb、Sao、Znu A蛋白的B/T细胞表位进行优化组合,最终获得抗原性较好的重组多肽。然而,设计的重组多肽需要开展进一步的试验,以验证其免疫学功能。
4 结论
蛋白质二级结构
声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。如若本站内容侵犯了原著者的合法权益,可联系本站删除。