16种微生物蛋白酶(Protease)生物信息学分析
富玉竹,李欣*,李晔**,邢丽楠,金丽华,于然
(北京电子科技职业学院生物工程学院,北京,100176)
摘要:蛋白酶(Protease)是以降解蛋白质为主的糖苷酶, 具有丰富的多样性,在生物有机体中发挥着重要而又广泛的作用,具有广泛的研究和应用价值。本研究采用ProtParam、ProtScale、SignalP 4.1 server和NPSA serve等生物信息学软件, 对天蓝色链霉菌、普通拟杆菌、金黄色葡萄球菌、枯草杆菌等16种微生物蛋白酶的理化性质、蛋白结构、系统发生树和功能域等进行了分析。结果表明:通过分析16种微生物蛋白酶的稳定性发现,金黄色葡萄球菌、唾液链球菌、短小芽孢杆菌、绿脓杆菌为不稳定蛋白;二级结构由α螺旋、β折叠、无规则卷曲和延伸链等结构元件组成;除了化脓拟杆菌具有信号肽,其余蛋白酶氨基酸序列不具有信号肽的特点,可以推测出蛋白酶为非分泌性蛋白;只有化脓杆菌和猪链球菌有跨膜结构,剩下其余几种微生物均没有跨膜结构。具有2个蛋白功能域:分别为Peptidase S8 familyi、Fn3-like domain。
关键词:微生物;蛋白酶;序列分析;生物信息学
中图分类号: Q946. 8
Bioinformatics Analysis of protease in sixteen microorganism Microorganisms
Fu Yuzhu, Li Xin*, Li Ye**, Xing Linan, Jin Lihua, Yu Ran
Abstract: Protease is a glycosidase mainly degrading protein. It has rich diversity and plays an important and extensive role in biological organisms. It has extensive research and application value. This study used bioinformatics software such as ProtParam, ProtScale, SignalP 4.1 server and NPSA serve to analyze the physicochemical properties, protein structure and phylogeny of 16 microbial proteases such as Streptomyces coelicolor, Bacteroides, Staphylococcus aureus and Bacillus subtilis. Trees and functional domains were analyzed. The results showed that Staphylococcus aureus, Streptococcus salivarius, Bacillus pumilus and Pseudomonas aeruginosa were unstable proteins by analyzing the stability of 16 microbial proteases; the secondary structure consisted of α-helix, β-sheet, random curl and extension. It consists of structural elements such as chains; except for Bacteroides pyogenes with signal peptides, the remaining protease amino acid sequences do not have the characteristics of signal peptides, and it can be inferred that proteases are non-secretory proteins; only Pseudomonas aeruginosa and Streptococcus suis have a trans membrane structure, leaving the rest Several microorganisms have no trans membrane structure. It has two protein domains: Peptidase S8 familyi and Fn3-like domain.
Key words: Microorganism;hyaluronidase;sequence analysis; bioinformatics
0引言
蛋白酶是催化水解蛋白质肽键的一类酶的总称[1]。在生物有机体中发挥着重要而又广泛的作用,具有广泛的研究和应用价值。按其水解多肽的方式,可以将其分为内肽酶和外肽酶两类。内肽酶将蛋白质分子内部切断,形成分子质量较小的肽。外肽酶从蛋白质分子的游离氨基或羧基的末端逐个将肽键水解,而游离出氨基酸,前者为氨肽酶,后者为羧肽酶。[2-4]蛋白酶在食品产业中运用十分广泛,如在白酒发酵中可添加适量蛋白酶对白酒香气进行改良[5-7],或在对肉类进行加工中添加,改进肉的嫩度,提升口感[8-10],或使用蛋白对小麦进行提取有益物质[11-13]或对对虾进行改良[14,15]。市面上食品用蛋白酶大部分来源于植物中蛋白酶的分离提取,如木瓜蛋白酶,但是提取率较低[16-18],若采用基因工程手段,对其进行分析优化,使其在细菌中重组表达,则有望大幅度提高产量,进一步推广工业化应用。[19]
本研究采用生物信息学的分析方法,结合ProtParam、ProtScale、TargetP 1.1 Server等生物信息学软件,对天蓝色链球霉,节杆菌属、普通拟杆菌、金黄色葡萄球菌、肠杆菌属、霍氏肠杆菌、大肠杆菌、粗球孢子菌、无乳链霉菌、枯草杆菌、嗜碱芽孢杆菌、地衣芽孢杆菌、短小芽胞杆菌、来源于海洋细菌、唾液链球菌、绿脓杆菌属共计16种微生物蛋白酶氨基酸序列的理化性质、序列分子进化、亲∕疏水性、磷酸化位点、二级结构、跨膜结构、功能域、亚细胞定位、信号肽等进行分析和预测。为下一步课题组进行基因工程菌构建、表达、重组蛋白酶奠定基础。
1材料与方法
1.1数据来源
实验中氨基酸序列均来自于NCBI中已登录的序列:天蓝色链球菌(Streptomyces coelicolorA3(2):CAB66227.1)、节杆菌属(Arthrobacter sp. ATCC 21022:AMB42363.1)、普通拟杆菌(Bacteroides vulgatus:ALK83510.1)、金黄色葡萄球菌(Staphylococcus aureus:ALS85936.1)、肠杆菌属(Bacteroides intestinalis. P6W:CCY85782.1)、霍氏肠杆菌(Enterobacter hormaechei:KHM85426.1)、大肠杆菌(Enterobacter cloacaepolymyxa:AIV29370.1)、粗球孢子菌(BCoccidioides immitis RS JCM:EAS31003.3)、无乳链霉菌(Streptococcus agalactiae:CNB86322.1)枯草杆菌(Bacillus subtilis:AIY98367.1)、嗜碱芽孢杆菌(Bacillus alcalophilus:KGA98012.1)、地衣芽孢杆菌(Bacillus licheniformis:KND09260.1)、短小芽孢杆菌(Bacillus pumilus:KEO50246.1)、来源于海洋细菌(Pseudoalteromonas:WP_010603741.1)、唾液链球菌(Streptococcus salivarius:AMB82506.1)、绿脓杆菌(Pseudomonas aeruginosa:ALZ29363.1)、共计16种微生物(表1)
表1 16种微生物蛋白酶的氨基酸序列登录号
Table 1 The accession No.of nucleotide sequences and their amino acid sequences of microbial protease in 16 kinds
1.2实验方法
运用ProtParam分析微生物蛋白酶序列理化性质;运用MEGA 5软件中的NJ法构建分子进化树;运用ProtScale进行亲/疏水性的分析和预测;运用TargetP 1.1 Server进行亚细胞定位分析和预测;运用在线工具SignalP 4.1 server进行信号肽分析和预测;运用NPSA server进行微生物蛋白酶氨基酸序列二级结构分析和预测;运用NetPhosK 2.0 Server进行磷酸化位点分析和预测;运用TMHMM 2.0 Server进行跨膜结构域的分析和预测;运用NCBI上的CDD进行功能结构域分析和预测(表2)。
表2生物学在线分析工具网址
Table 2 Bioinformatics analysistools online websites
工具 |
网站地址 |
ProtParam |
http://web.expasy.org/protparam |
ProtScale |
http://web.expasy.org/protscale/ |
TargetP 1.1 Server |
http://www.cbs.dtu.dk/services/TargetP/ |
SignalP 4.1 Server |
http://www.cbs.dtu.dk/services/SignalP/ |
NPSA server |
http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_ sopm.html |
NetPhosK 2.0 Server |
http://www.cbs.dtu.dk/services/NetPhos/ |
NetNGlyc 1.0 Server |
http://www.cbs.dtu.dk/services/NetNGlyc/ |
TMHMM 2.0 Server |
http://www.cbs.dtu.dk/services/TMHMM-2.0/ |
CDD |
http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi |
2结果与分析
2.1微生物蛋白酶氨基酸理化性质特性分析
经过ProtParam分析16种微生物蛋白酶氨基酸序列,结果见表3,除天蓝色链霉菌(1067)、节杆菌属(1033)、普通拟杆菌(1074)、肠杆菌属(120898)、无乳链霉菌(1233)、来源于海洋生物(1093)其他微生物蛋白酶氨基酸残基数量除了其余均在200-700个之间,分子量无乳链霉菌最大(135883.2);粗球孢子菌最小(27413)。所选细菌蛋白酶理论等电点PI均在pH4.7-6.6之间,霍氏肠杆菌最大(6.61),金黄色普通球菌菌最小(4.78)。所选细菌蛋白酶脂肪指数基本集中在80-90左右。通过分析16种微生物蛋白酶的稳定性,发现除金黄色葡萄球菌、唾液链球菌、短小芽孢杆菌、绿脓杆菌为不稳定蛋白,其余的均为稳定蛋白。Ala、Glu 、Gly 这三种氨基酸在天蓝色链霉菌、节杆菌属等16种微生物蛋白酶中含量最为丰富,这可能与维持蛋白酶空间结构的稳定性有关。[20]
表3 16种微生物蛋白酶氨基酸理化性质
Table 3 Analysis of physical and chemical properties of protease in 16 kinds
微生物 |
氨基酸数目∕个 |
分子量 |
等电点 |
原子总数 |
不稳定的指数 |
脂肪指数 |
亲水性 |
含量最丰富的氨基酸% |
||
1 |
2 |
3 |
||||||||
天蓝色链霉菌 |
1067 |
115646.9 |
5.47 |
16120 |
36.88 |
81.27 |
-0.395 |
Ala 11.1 |
Gly10.7 |
Arg 9.3 |
节杆菌属 |
1033 |
105844.5 |
5.06 |
14843 |
24.16 |
79.83 |
-0.115 |
Ala 12.4 |
Gly10.2 |
Val 9.6 |
普通拟杆菌 |
1074 |
120766.2 |
5.49 |
16872 |
36.10 |
78.19 |
-0.508 |
Gly 8.2 |
Ile7.4 |
Asp 7.1 |
金黄色葡萄球菌 |
422 |
47655.1 |
4.78 |
6645 |
41.54 |
82.30 |
-0.381 |
Glu 10.7 |
Ile 8.3 |
Ala 7.6 |
肠杆菌属 |
1082 |
120898.4 |
5.53 |
16890 |
31.44 |
75.45 |
-0.470 |
Gly 8.3 |
Ala 7.0 |
Lys 6.9 |
大肠杆菌 |
618 |
67257.4 |
6.06 |
9451 |
34.10 |
88.25 |
-0.118 |
Ala 10.7 |
Leu 8.4 |
Ser 8.3/Val 8.3 |
霍氏肠杆菌 |
654 |
72824 |
6.61 |
10219 |
34.37 |
89.24 |
-0.283 |
Ala 10.1 |
Leu 9.6 |
Asp 7.0 |
粗球孢子菌 |
325 |
35439.7 |
6.21 |
4945 |
32.07 |
87.63 |
-0.320 |
Leu 10.5 |
Gly9.5 |
Ala 8.6 |
无乳链霉菌 < |