丙氨酸突变扫描实验就是将残基诱发突变成为丙氨酸,然后计算对比亲和能变化,如果变化差值高于某个数值时,该残基就被定义为热点残基。
我们都知道微观结构决定了物质的宏观性质。研究物质结构与性质是一个大课题,因为它贯穿着很多不同的学科例如:分子生物学、结构化学、凝聚物理、材料科学等等。在原子层次上测定固态的物质微观结构是当前晶体结构分析的主要手段。晶体结构分析的主要研究内容是运用晶态物质的衍射效应来测定物质的微观结构。晶体结构分析帮助很多学科解释各种各样的难题,因此其他学科的每次发展都能促进晶体结构分析领域研究的进步。晶体结构分析有着相对独立的体系,它的每次发展也能促进别的学科发展,晶体结构分析与其它学科是相辅相成的[7]。蛋白质相互作用在生命过程中起着重要作用,它就相当于人类的神经中枢一样重要[8]。
前文已经提到丙氨酸突变扫描是目前研究蛋白质相互作用界面中热点残基的主要方法,丙氨酸突变扫描实验就是将残基诱发突变成为丙氨酸,然后计算对比亲和能变化,如果变化差值高于某个数值时,该残基就被定义为热点残基。这种方法有利有弊,虽然识别精度高,但是蛋白质结合界面中氨基酸残基数量非常大,热点残基的数量相较于残基来说就显得微不足道了,因此通过丙氨酸扫描实验找出热点残基是很艰难的。因此我们需要找出一种更好的方法来预测残基。现阶段研究们发现的最好的方法就是通过数据挖掘和机器学习的方法来预测残基,然后结合实验进行验证。这种方法明显的缩短实验需求的时间并降低了实验成本。
Bogan和Thorn通过收集使用丙氨酸突变扫描实验的数据建立了丙氨酸扫描热力学数据库(ASDdb)[5];结合面数据库(BID)收集了从文献中已经过实验验证的热点残基,ASDdb数据库对于本课题有着重要的指导作用。此外,Bogan和Thorn实验研究发现,热点被大量不太重要的残留物包围,最有可能用于从热点堵塞散装溶剂。高能相互作用的必要条件是发现溶剂的堵塞。经过实验研究探测出来的热点信息仅仅适用于非常少的复合物,显而易见,这并不能概括所有的蛋白质复合物,所以我们需要使用计算方法来鉴别蛋白质相互作用位点的热点[9,10]。在持续不停的创新、开放的实验中,Kortemme和Baker提出了一种可以用于检测蛋白质-蛋白质作用界面上的热点的物理模型,这些蛋白质复合物界面涉及包装相互作用,氢键和溶剂化的能量。计算热点,他们根据其模型计算出的残留物,与ASEdb中的实验热点相一致[11]。同样,Gao等使用非共价相互作用来估计界面残基对结合的能量贡献。他们报道了预测从丙氨酸扫描诱变实验中获得的热点的成功率为88%[12]。Serrano及其同事开发的另一种基于能量的模型用于预测突变对蛋白质复合物是否有着能量变化影响[13]。通过反复的实验与计算,发现计算的突变能量变化与实验结果基本一致。所以在热点预测这方面研究可以采纳他们的办法。
在基本了解热点残基的一些简单性质后,目前,科学家们已经总结出两类计算方法预测热点残基。丙氨酸突变扫描是基于能量的方法,如上文所叙述,这种方法实验周期长、耗费人力物力多。而另一种基于能量的方法通过分子运动学估计蛋白质复合物中结合自由能变化[14]。同样,这种基于能量的方法有着耗费巨大的缺点,所以基于能量的热点预测方法并不推荐广泛运用。相比较而言,基于特征的方法就相对容易多了,主要利用数据和机器学习的方法从蛋白质结构、序列或两种结合起来,来鉴别热点和非热点残基。大多数基于机器研究(ML)的热点预测方法学习训练数据和热点之间的复杂关系;然而,将这些关系转化为简单直观的规则是非常困难的[15]。在这里,我们提出一种新的有效方法来确定结构蛋白质-蛋白质界面的计算热点。该方法基于涉及溶剂可及性和残留物对电势的几个简单规则。该模型的计算效果使其有利于大规模的热点预测。因此,通过仅使用两个功能(ASA在复杂和配对潜力),我们在训练集和测试集中达到了显着的准确性。特别地,在识别热点方面,发现使用基于知识的电位是非常关键的。通过使用独立的培训和测试数据,我们进一步对我们的经验方法与各种基于ML的方法进行了详尽的比较。包含溶剂可及性和配对电位的经验模型分别以ASEdb和BID的性能值分别为70%和70%,优于基于方法和基于ML的方法。