[Curr Comput Aided Drug Des] Molecular docking: a powerful approach for structure-based drug discovery¶
基于结构的药物设计中分子对接是最常用的方法。分子对接方法可用于在原子水平上模拟小分子与蛋白质之间的相互作用,这使我们能够表征小分子在靶蛋白结合位点中的行为,并阐明基本的生化过程。对接过程包括两个基本步骤:预测配体构象及其在结合位点内的位置和方向(通常称为姿态 pose),以及评估结合亲和力。
在对接过程之前了解结合位点的位置可以显著提高对接效率。在很多情况下,在将配体对接入结合位点之前,确实已经知道了结合位点的位置。此外,人们可以通过将靶蛋白与具有相似功能的蛋白质家族或与已与其他配体共结晶的蛋白质进行比较来获取关于位点的信息。在缺乏关于结合位点知识的情况下,可以利用空腔检测程序或在线服务器(例如 GRID、POCKET、SurfNet、PASS 和 MMC)来识别蛋白质内假定的活性位点。没有任何关于结合位点假设的对接被称为盲对接。
关于配体-受体结合机制的早期解释是 Fischer 提出的“锁钥学说”,即配体像钥匙插进锁里一样与受体结合。最早报道的对接方法就是基于该理论,配体和受体均被视为刚体。随后 Koshland 提出的“诱导契合”理论使锁钥学说更进一步,指出随着配体与蛋白质的相互作用,蛋白质的活性位点会被持续重塑。该理论表明在对接过程中应将配体和受体视为柔性的。因此,与刚性处理相比,它可以更准确地描述结合事件。
对接理论¶
从本质上讲,分子对接的目的是利用计算方法预测配体-受体复合物的结构。对接可以通过两个相互关联的步骤实现:首先在蛋白质的活性位点对配体构象进行采样;然后通过打分函数对这些构象进行排序。理想情况下,采样算法应该能够重现实验结合模式,并且打分函数也应该在所有生成的构象中将其排在最高位。我们将从这两个角度简要概述基本的对接理论。
采样算法 (Sampling algorithms)¶
- 匹配算法 (Matching algorithms, MA): 基于分子形状的方法,根据形状特征和化学信息将配体映射到蛋白质的活性位点中。蛋白质和配体用药效团表示。计算蛋白质和配体内药效团的每个距离以进行匹配;新的配体构象由药效团和相应配体原子之间的距离矩阵控制。在匹配过程中可以考虑氢键供体和受体等化学性质。匹配算法的优势在于速度快;因此可用于从大型化合物库中富集活性化合物。DOCK、FLOG、LibDock 和 SANDOCK 程序中都提供了用于配体对接的匹配算法。
- 增量构建 (Incremental construction, IC): 将配体以片段增量的方式放入活性位点。将配体在其可旋转键处断开,分为几个片段,然后选择其中一个片段首先对接入活性位点。这个“锚点”通常是最大的片段,或者是可能与蛋白质具有显著功能作用或相互作用的片段。剩余的片段可以增量添加。通过生成不同的方向以适应活性位点,实现了配体的柔性。该方法已被用于 DOCK 4.0、FlexX、Hammerhead、SLIDE 和 eHiTS。
- 基于片段的从头设计方法 (De novo design): MCSS 和 LUDI 都是用于配体从头设计的方法,或用于修改已知配体以增强它们对靶蛋白结合的方法。MCSS 创建 1,000 到 5,000 个官能团副本,随机放置在目标结合位点,并在蛋白质力场中进行同时能量最小化和/或淬火分子动力学模拟。副本仅与蛋白质相互作用,忽略副本之间的任何相互作用。因此可以根据相互作用能确定一组能量上有利的结合位点和官能团方向。通过链接这些完美匹配的官能团,可以设计出新的分子。LUDI 侧重于配体和蛋白质之间可能形成的氢键和疏水接触。它的核心概念是“相互作用位点”,即空间中适合形成氢键或填充疏水性口袋的离散位置。通过匹配距离标准来评估片段,最后连接这些片段形成单一分子。
- 随机方法 (Stochastic methods): 随机方法通过随机修改配体构象或配体群体来搜索构象空间。蒙特卡洛(MC)和遗传算法(GA)是典型的随机算法。
- 蒙特卡洛 (MC): 通过键旋转、刚体平移或旋转生成配体的姿态。随后利用基于能量的选择标准对得到的构象进行测试。如果符合标准则保留,并进一步修改生成下一个构象。该方法的优势在于变化幅度可以相当大,使得配体能跨越势能面上的能垒,这是基于分子动力学的方法难以轻易做到的。应用范例包括早期版本的 AutoDock、ICM、QXP 和 Affinity。
- 遗传算法 (GA): 另一类著名的随机方法,思想源自达尔文的进化论。配体的自由度被编码为二进制串,称为“基因”。这些基因组成“染色体”,实际上代表配体的姿态。突变对基因进行随机改变;交叉在两条染色体之间交换基因。幸存(即超过阈值)的新结构将用于下一代。GA 被用于 AutoDock、GOLD、DIVALI 和 DARWIN 等软件。
- 分子动力学 (MD): 在对接中,通过单独移动每个原子,MD 模拟比其他算法更有效地表现了配体和蛋白质的柔性。然而其缺点是步伐极小,难以跨越高能构象垒,导致采样不充分。另一方面,MD 常在局部优化方面具有很高效率。当前的策略往往是使用随机搜索来识别配体构象,随后再进行精细的 MD 模拟。
| 算法 (Algorithms) | 特征 (Characteristic) | 参考文献 (Reference) |
|---|---|---|
| 匹配算法 (Matching algorithms) | 基于几何的方法,因其高速度适合用于 VS 和数据库富集 | 无 |
| 增量构建 (Incremental construction) | 基于片段,以增量方式进行对接 | 无 |
| MCSS | 基于片段的从头设计方法 | 无 |
| LUDI | 基于片段的从头设计方法 | 无 |
| 蒙特卡洛 (Monte Carlo) | 随机搜索 | 无 |
| 遗传算法 (Genetic algorithms) | 随机搜索 | 无 |
| 分子动力学 (Molecular dynamics) | 用于对接后的进一步细化 | 无 |
打分函数 (Scoring functions)¶
打分函数的目的是在合理的计算时间内,将正确的姿态与错误的姿态区分开来,或者将结合剂与非活性化合物区分开来。然而,打分函数实质上是在估算(而非精确计算)亲和力,且在此过程中采用了多种假设和简化。
- 经典基于力场的打分函数: 通过计算非键(静电和范德华)相互作用的总和来评估结合能。由于点电荷计算在模拟蛋白质真实环境时存在问题,因此通常使用依赖于距离的介电函数来调节静电相互作用的贡献。范德华项由 Lennard-Jones 势函数描述。基于力场的打分函数存在计算速度慢的问题,因此常引入截断距离(cut-off distance)来处理非键相互作用,但这会降低长程效应的准确性。扩展版本的打分函数会考虑氢键、溶剂化和熵的贡献,例如 DOCK、GOLD 和 AutoDock。
- 经验打分函数: 将结合能分解为几个能量成分(如氢键、离子相互作用、疏水效应和结合熵)。每个成分乘以一个系数,相加得到最终分数。系数是通过对已知结合亲和力的配体-蛋白质复合物测试集进行回归分析得到的。虽然容易评估,但不清楚它们是否能很好地适应训练集之外的复合物。示例包括 LUDI、PLP 和 ChemScore。
- 基于知识的打分函数: 通过对配体-蛋白质复合物晶体结构进行统计分析,获取原子间接触频率和/或距离。假设:越有利的相互作用,发生频率越高。这些频率分布进一步转换为成对的原子类型势。该函数的吸引力在于计算简单,可用于筛选大型化合物数据库,且能模拟经验方法难以处理的罕见相互作用(如阳离子-\(\pi\) 作用)。但它们同样受到训练集偏差的限制。示例包括 PMF、DrugScore、SMOG 和 Bleep。
- 共识打分 (Consensus scoring): 结合几种不同的分数来评估对接构象。它通常能大幅提高虚拟筛选中的富集率。但是,其对结合能的预测仍可能不准确,当不同打分函数中的项高度相关时,其有用性就会降低。如 CScore。
- 基于物理的打分: 为解决溶剂化效应处理受限导致亲和力预测不准的问题,可采用基于物理的打分,如 MM-PB/SA 和 MM-GB/SA,用于重打分或先导化合物优化。一些研究利用这些方法取得了有希望的结果,但也存在对某些系统脱溶剂化估计不足或绝对结合能估算有误的争议。
对接方法学 (Docking methodologies)¶
刚性配体和刚性受体对接¶
当配体和受体均被视为刚体时,仅考虑平移和旋转自由度,搜索空间非常有限。配体的柔性可通过预先计算一组构象或允许一定程度的原子重叠来解决。早期的 DOCK、FLOG 和一些蛋白质-蛋白质对接程序(如 FTDOCK)采用了这种刚性方法。DOCK 是第一个用于将分子对接入受体位点的自动化程序。FLOG 在距离几何的基础上生成配体构象,最多可使用 25 个显式配体构象进行对接。
柔性配体和刚性受体对接¶
对于遵循“诱导契合”范式的系统,必须考虑两者的柔性。然而,受体也具备柔性时计算成本极高。因此,通常采用折中方案:在对接过程中将配体视为柔性,受体保持刚性。几乎所有对接程序(如 AutoDock、FlexX)都采用了这种方法。AutoDock 3.0 结合了蒙特卡洛模拟退火、遗传算法等来模拟配体柔性。最新的 AutoDock Vina 通过重新对接训练集,在速度上实现了约两个数量级的指数级提升,同时显著提高了结合模式预测的精度。FlexX 使用增量构建算法来采样构象。
柔性配体和柔性受体对接¶
蛋白质的内在流动性已被证明与配体结合行为密切相关。将受体柔性纳入其中是对接领域的一大挑战。目前有多种方法用于实现受体柔性(表 3): * “软对接” (Soft-docking): 降低打分函数中的范德华排斥能量项,以允许受体和配体原子之间发生一定程度的重叠。如 GOLD 中的 LJ 8-4 势和 AutoDock 3.0 中的平滑势。计算效率高,但柔性表现不充分。 * 利用旋转异构体库 (Rotamer libraries): 包含一组通常从统计分析中确定的侧链构象。优点在于采样速度相对较快。如 ICM 程序。AutoDock 4 可以选择受体的部分侧链与配体同步采样。 * 蛋白质构象系综 (Ensemble of protein conformations): 将配体分别对接到一组刚性蛋白质构象而非单一构象中。这与构象选择理论相吻合。例如 FlexE。 * 混合方法 (Hybrid method): 结合多种策略。如非常受欢迎的 Glide 程序,通过层次过滤器搜索姿态,使用软势和旋转异构体探索结合受体柔性。 * 部分酶的活性位点由在配体结合时会发生剧烈构象变化的 环路 (loop) 构成(如丙糖磷酸异构酶的 11 个残基的环路,位移达 \(7\AA\))。在这些情况下,传统的侧链柔性方法往往失败,而全柔性方法又过于浪费计算资源。
| 类型 | 说明与公式 |
|---|---|
| AutoDock 扩展力场打分 | 对于两个原子 i, j,成对原子能量通过范德华、氢键、库仑能和脱溶剂化项的总和来评估。\(W\) 是用于校准经验自由能的权重因子。公式结构近似表示为非键相互作用和溶剂化效应的加权求和(包含范德华力 \(W_{vdw}\)、氢键 \(W_{hbond}\)、静电作用 \(W_{elec}\) 和溶剂化 \(W_{sol}\) 等)。 |
| FlexX 经验打分 | \(\Delta G\) 为结合自由能的估计值;\(\Delta G_0\) 为回归常数;\(\Delta G_{rot}, \Delta G_{hb}, \Delta G_{io}, \Delta G_{aro}\) 等是各项能量的回归系数;\(f(\Delta R, \Delta\alpha)\) 是惩罚偏离理想几何形状的缩放函数;\(N_{rot}\) 是在复合物中被固定的可自由旋转键的数量。 |
| PMF 基于知识的打分 | \(k_B\) 是玻尔兹曼常数;\(T\) 是绝对温度;\(r\) 是原子对距离;\(f_{Vol\_corr}^j(r)\) 是配体体积校正因子;通过使用径向分布函数等来推导平均力势 (Potential of Mean Force)。 |
用于柔性受体对接的局部移动蒙特卡洛采样 (LMMC)¶
局部移动(也称为“窗口移动”)的原理是:改变一个扭转角(称为驱动扭转角),并随后调整后续的六个扭转角,以使链的其余部分保持在其原始位置,同时保持所有的键长和键角不变。这方面的开创性工作由 Go 和 Scheraga 完成。
我们开发了一种改进的 LMMC 环路采样方法。该方法基于侧链扭转角的简单移动和环路骨架的局部移动来生成构象。我们开发了基于网格的力场以降低能量评估成本,并使用模拟退火来识别低能量的环路构象。对一组已知晶体结构的蛋白质环路的评估表明,该方法能够重现实验结果,并且所有测试用例的均方根偏差(RMSD)均在 \(1.8\AA\) 以内。我们将在未来的研究中开发基于 LMMC 的分子对接方法,该方法不仅对侧链进行采样,还对蛋白质结合位点中的骨架环路和柔性配体进行采样。
表 3:包含受体柔性的一些基本方法¶
| 方法 (Method) | 描述 (Description) | 优点 (Advantage) | 缺点 (Disadvantage) | 软件程序 (Program) |
|---|---|---|---|---|
| 软势 (Soft potential) | 改变范德华力以允许受体和配体原子之间的重叠 | 计算效率高。易于实施并结合其他方法使用。 | 柔性不足。以隐含、粗略和非定量的方式描述柔性。 | GOLD、AutoDock |
| 旋转异构体库 (Rotamer library) | 搜索侧链库以获得可能的构象 | 计算效率相对较高。避免了能量最小化的势垒。 | 强烈依赖所使用的数据库。缺乏骨架柔性。 | ICM |
| 受体侧链柔性 (Receptor side chain flexibility) | 使用遗传算法(GA)同时对侧链和配体构象进行采样 | 计算效率相对较高。模拟了配体对结合位点残基造成的影响。 | 仅涉及选定的侧链。缺乏骨架柔性。 | AutoDock 4 |
| 蛋白质构象系综 (Ensemble of protein conformations) | 将配体对接到代表不同构象状态的一系列受体结构中 | 包含了全面而显式的柔性。 | 计算成本高昂。受限于采样中使用的蛋白质构象。 | DOCK、FlexE |