蛋白质复合物结构与亲和能数据库的整理与分析研究

本文讲述了蛋白质复合物结构和亲和能的基本概念,以及蛋白质复合物结构和亲和能预测的计算方法与不足并且阐述了当前为止的研究进展


摘要:蛋白质会参与细胞生命活动的各种生命过程,例如基因的复制和细胞周期调控、信号传导及细胞对外界、内部环境的众多变化做出反应等行为。蛋白质复合物所具有的功能很大程度上和其结构有关,当我们得到他们的结构时,就可以直接认识到生命体在不同生理状态下或生病状态下的变化方式。目前国际上在蛋白质的晶体结构分析预测领域的研究已经达到预测方差2kcal/mol,可以满足大规模预测计算的初步筛选.但是精度还不够。因此通过我们需要通过整理并预测蛋白质复合物亲和能的大数据集合,同时对已有数据集合进行检查排错。然后对不同类型复合物进行分类研究各自特性,能来让蛋白质结构的预测更加精准。当我们能够分析预测蛋白质复合物的结构时也就可以在现代分子生物学方面做出引导,为生命科学做出理论支持。

关键词:亲和能预测;蛋白质相互作用;PDB;

Abstract:Proteins are involved in various life processes of cell life activities, such as gene replication and cell cycle regulation, signal transduction, and cell responses to external and internal changes in the environment. The function of the protein complex is largely related to its structure, and when we get their structure, we can directly recognize the way in which the living body changes in different physiological conditions or in a sick state. At present, the study of crystal structure analysis and prediction of protein has reached the

prediction variance of 2kcal / mol, which can meet the preliminary screening of large-scale prediction calculation, but the accuracy is not enough. Therefore, we need to sort out and predict the protein complex affinity of large data sets, while the existing data collection to check the wrong. And then different types of complexes to study their respective characteristics of classification, to make the prediction of protein structure more accurate. When we can analyze the structure of the predicted protein complexes, we can also guide the modern molecular biology and make theoretical support for the life sciences.

Keywords:Affinity prediction; protein-protein interaction; PDB;

目录

第一章绪论 1

1.1研究背景 1

第二章蛋白质结构基本理论 3

2.1蛋白质结构预测 3

2.2蛋白质结构预测方法 4

2.3蛋白质结构预测的理论预测方法 4

第三章蛋白质数据库 7

3.1蛋白质数据库基本信息 7

3.2蛋白质的数据库应用 7

第四章蛋白质的复合物亲和能预测法 8

4.1自由能扰动法 8

4.2基于结构的预测法 8

第五章 数据和计算模拟

5.1亲和能的搜集 11

5.2亲和能的预测 15

5.3结果讨论 16

结论 18

致谢 19

参考文献 20

第一章绪论

1.1研究背景

生命体是由蛋白质构成的,而蛋白质又是由基因构成的。每一种生命的基因构成的集合都是可以规定它构成的生命体蛋白质的,也就是说基因可以规定蛋白质当中的氨基酸的排列方式,也就是氨基酸序列。我们通过进一步的研究得知,氨基酸的独特排列方式是由蛋白质来组成的,然而他们独特的活性和生物学的一些能力是要靠他们通过折叠成特殊的结构,也就是特定的空间结构才能发挥的[1]。所以研究蛋白质的空间结构是非常非常重要的,因为研究蛋白质的空间结构不仅能够让我们认识到蛋白质在生命活动中所起到的作用和发挥的功能,也能让我们认识到,生命体在发生病变时说在结构方面所发生的变化。这在医学领域和分子生物学领域都有着非常重要的意义。也因此,生物方面的研究是离不开对蛋白质的研究的,而对蛋白质的研究就必须要对蛋白质结构进行研究。因此,我们就要对蛋白质的序列结构建立一个蛋白质的序列结构库。现今为止蛋白质的序列数据库,它当中的数据量是非常非常大的,但是已经知道的蛋白质的结构是比较少的。我们要做的就是将这个数据库的数据扩大。要想对蛋白质的结构进行测定,那么首先就要对他的技术进行一定的改革和发展。现在我们人类在对蛋白质结构测定技术方面有了一定的进步,但是通过实验方法来得到或者说确定蛋白质的结构,整个过程还是非常的繁杂的。比较普遍的是通过实验方式来得到蛋白质的空间结构。通过实验来得到蛋白质的空间结构是比我们现在已知的一些蛋白质的特殊的排列方式要少非常多的。与此同时,伴随着人类科技的进步,也伴随着对生物方面研究的深入DNA的测序技术也有了很大的进步,人类的基因的特殊排列方式和其他多种生物的特殊排列方式已经或者将会被完全测定。这也就是说,随着技术和时间的推移,我们可以利用已经得到的DNA的特殊序列来获得更多的蛋白质的特殊序列或者空间结构。通过这种技术的更新,我们利用这种技术测得的DNA特殊序列相比于已经知道的DNA特殊序列差距很大。而在测定蛋白质特殊序列的过程中,我们希望的最佳效果是产生蛋白质特殊结构的数量和产生蛋白质特殊序列的速度是相同的,或者说是近似的。要想让这两者的速度相近或相似,就不能通过现在我们的测定方式和测定技术而是要发现或者说开拓出一种全新的理论方式和途径,这就是现今我们在蛋白质的结构空间结构以及序列计算当中所遇到的新挑战。要应对这一挑战,我们就要首先从理论方面建立起有效的理论。众所周知,生物信息研究的一个基础就是某种分子的结构是决定这种分子在生命活动中的功能以及他自身的性质的。当一个分子的空间结构被破坏或者受到损伤时,它是能够恢复到他自然的状态的。根据当前人们在生物研究方面的进展,达到的一个共识就是,蛋白质到宏观结构是由DNA的微观序列所决定的。影响蛋白质结构的另外一个因素是蛋白质自身所在的不同环境,但起决定性作用的却是在DNA当中的氨基酸序列。蛋白质的结构预测其实就是将蛋白质的全部原子放到了一个三维坐标当中,然后再找到一种氨基酸的特殊序列来与之相对应。蛋白质的种类和大小是非常繁多的[2]。要从一个超过几千甚至上万个氨基酸个数当中找到是非常困难的。在实际的社会当中蛋白质的种类和数量是有限的,而且他们中间有很多的联系,我们可以利用这种联系来进行蛋白质的预测。