跳转至

文献阅读

[Arxiv] A Scalable and Quantum-Accurate Foundation Model for Biomolecular Force Field via Linearly Tensorized Quadrangle Attention

分子模拟

  • 经典力场 (Classical Force Fields)/分子动力学 (Molecular Dynamics, MD):极快,但无法处理化学反应,且对精细构象描述不足。

    • 原理:基于牛顿力学。给每个原子一个初始位置和速度,通过求解运动方程(F=ma),追踪粒子随时间演化的轨迹。

    • 特点:具有时间连续性,能观察到分子摆动、蛋白质折叠等动态过程。

  • 量子力学 (QM)/蒙特卡罗模拟 (Monte Carlo, MC):极其精确,但计算成本呈指数级增长,无法处理大型生物分子或长时间模拟。

    • 原理:基于统计力学和概率论。通过随机改变粒子的构型(如移动、旋转),并根据能量高低决定是否接受这个改变。

    • 特点:不关心随时间演化的路径,主要用于寻找系统的平衡态性质(如相变、吸附)。

  • 现有 AI 力场 (如 MACE, NequIP):虽然达到了 QM 精度,但依赖复杂的“球谐函数”和高阶张量运算,导致在处理中大型系统(如超过 1000 个原子)时运行缓慢。

LiTEN 架构

张量化四体注意力机制 (TQA)

传统的 AI 模型在计算原子间的角度(三体)和扭转角(四体)时非常吃力。LiTEN 放弃了沉重的球谐函数,转而使用笛卡尔坐标下的向量点积和叉积。 这意味着当分子规模扩大时,计算量仅呈线性增加。

物理等变性 (Equivariance)

无论如何旋转或移动一个分子,模型预测的能量保持不变,预测的受力方向也会随分子旋转同步旋转。

训练策略

为了让模型具有更强的通用性,研究者采用了两阶段层级训练策略

  1. 预训练:在 nablaDFT 数据集(包含 1600 万种药物分子的构象)上进行大规模训练,让模型学习广泛的化学空间。

  2. 微调:在精度更高的 SPICE 数据集(200 万个生物有机分子,涵盖金属和卤素)上进行微调,提升其处理复杂生物系统和溶剂环境的能力。

LiTEN 证明了通过巧妙的向量运算替代复杂的球谐函数,可以在不损失物理精度的情况下实现极高的模拟效率。

[Drug Discovery Today] Artificial intelligence in peptide-based drug design

背景

蛋白质-蛋白质相互作用(PPIs)是许多生物过程的关键,也是药物研发的重要靶点。但由于PPI界面通常较大且平坦,传统的小分子药物难以有效靶向(即所谓“不可成药”靶点)。多肽介于小分子和抗体之间,兼具抗体的高特异性/高亲和力与小分子的部分组织渗透性,被认为是调节PPIs的理想候选者 。传统计算方法(如分子对接、MD模拟)受限于多肽的高柔性(Flexibility)和巨大的计算成本,难以高效设计出全新的多肽结合剂(Binder)。

现有数据库

现有的蛋白质-多肽相互作用(PpIs)数据库(如PepBDB, Propedia, PepX)大多来源于PDB,存在数据冗余、多肽长度较短(多为短肽片段)以及缺乏高质量复合物结构的问题。PPI位点预测方面,传统方法(如PepBind)依赖静态假设,局限性大;深度学习方法(如CAMP, PepNN, MaSIF)通过整合序列和结构信息,利用卷积神经网络(CNN)、图注意力层(Graph Attention)甚至几何深度学习(Geometric DL)来捕捉局部和全局特征,显著提高预测准确性 。

从序列预测蛋白质-多肽复合物3D结构的AI工具

  • AlphaFold (AF) 系列: AF2 利用多序列比对(MSA)捕捉共进化信号,能有效预测多肽结构,但对短肽(5-30残基)的预测仍有挑战 。

  • AF3 与 RoseTTAFold All-Atom (RFAA): 新一代模型(如AF3, RFAA)支持全原子建模,能预测包含配体、修饰的复合物结构。AF3在少量样本测试中显示出比AF-Multimer更高的质量,但在非标准修饰及大环多肽上的应用仍需验证 。

  • 局限性: 多肽在未结合状态下往往是无序的(Disordered),结合后才折叠成特定构象,这种动态特性是目前结构预测模型面临的主要难点 。

靶向性多肽的生成式设计方法

基于“幻觉”的方法 (Hallucination-based methods)

利用现有的高精度结构预测网络(如AlphaFold)作为“评分器”,通过反向传播或迭代优化(如MCMC),将随机序列优化为能够折叠成特定结构并结合靶点的序列 。

  • ColabDesign: 基于折叠模型的de novo设计流程 。

  • EvoBind: 结合了Foldseek(生成种子结构)、ESM-IF1(逆折叠)和AlphaFold(评估),在设计异源二聚体界面方面优于ProteinMPNN 。

  • EvoPlay: 引入强化学习(RL)和蒙特卡洛树搜索(MCTS),平衡了探索与利用,避免陷入局部最优 。

序列-结构协同设计方法 (Sequence-structure co-design)

克服了分步设计(先定骨架再填序列)的局限,利用扩散模型(Diffusion Models)或流匹配(Flow-matching)同时生成多肽的骨架结构和氨基酸序列 。

  • DiffPepBuilder: 使用SE(3)等变扩散架构,并引入SSBuilder模块专门设计二硫键以增强多肽稳定性 。

  • PepGLAD: 几何潜在扩散模型,利用变分自编码器(VAE)处理不同大小的残基,显著提高了结合构象的恢复率 。

*PepFlow:** 基于流匹配的多模态生成模型,在侧链包装和骨架设计的多样性上表现出色 。

基于序列的方法 (Sequence-based methods)

不依赖于靶点的3D结构,而是利用蛋白质语言模型(PLMs)(如ESM2)从海量序列数据中学习到的模式来生成结合多肽。这对于靶向无序蛋白(IDPs)或结构未知的靶点特别有效 。

  • PepMLM: 利用掩码语言模型(MLM)策略,在靶蛋白序列后“修复”出结合多肽,命中率优于RFdiffusion 。

  • moPPIt: 针对特定基序(Motif)的设计,通过Transformer模型结合遗传算法,能够针对动态或无序靶点生成高亲和力多肽 。

  • Cut&CLIP: 结合对比学习,专门设计用于介导蛋白质降解的多肽(如用于PROTACs) 。

评估 AI设计多肽质量的指标

  • 自洽性 (Self-consistency): 生成序列折叠回的结构与设计结构的一致性。

  • 多样性 (Diversity): 设计覆盖的构象空间广度 。

  • 结合亲和力估算: 使用Rosetta能量打分、AF的置信度分数(pLDDT)以及界面评分(ipTM, actifpTM) 。

优化

  • 成药性优化: 目前多肽药物面临细胞膜渗透性差、半衰期短、口服生物利用度低等问题 。未来模型需要通过引入非天然氨基酸(NCAAs)环肽(Cyclic peptides)设计来解决这些问题 。

  • 多目标优化: 未来的AI模型不能仅关注结合亲和力,还需同时优化特异性(减少脱靶效应)、稳定性和药代动力学性质(PK) 。

  • 实验验证闭环: 尽管AI预测结果令人振奋,但目前还没有完全由AI设计的多肽药物获批。建立计算预测与湿实验验证(Wet-lab validation)的紧密闭环是未来的关键 。

[Chemical Science] Robust protein–ligand interaction modeling through integrating physical laws and geometric knowledge for absolute binding free energy calculation

背景

在药物设计中,准确预测药物与靶标蛋白的结合亲和力(即ABFE)至关重要。目前的主流方法:

  • 传统物理方法(如FEP/TI): 准确性高,具有严格的物理意义,但计算成本极其昂贵,难以用于大规模筛选 。

  • 深度学习(DL)方法: 计算速度快,但在数据稀缺的情况下(Data Scarcity),泛化能力差,且通常是“黑盒”模型,缺乏物理可解释性,容易产生偏差 。

LumiNet 模型

兼顾绝对结合自由能(ABFE)计算的准确性、计算效率以及物理可解释性。

LumiNet 采用了一种“分而治之”(Divide and Conquer)的策略,将原来的直接预测ABFE任务转化为:利用结构数据计算“有效”原子距离,再将其代入物理驱动的评分函数中 。

结构模块 (Structure Module) - 基于混合密度网络

提取蛋白质和配体的多尺度几何信息,并拟合原子对之间的距离分布 。

  • 配体编码: 采用了子图Transformer(Subgraph Transformer),将配体分解为子结构,提取比传统图神经网络(GNN)更高阶的拓扑信息 。

  • 蛋白编码: 使用Graph Transformer提取蛋白口袋特征 。

  • 距离拟合: 使用混合密度网络(MDN)来学习蛋白质-配体相互作用的复杂距离分布,捕捉结构特征。

物理评分模块 (Physics-based Scoring Module)

将学习到的几何结构映射为经典力场中的关键参数(如有效距离 ),进而计算具体的物理能量项 。

  • 交互微调: 引入了双向等变图卷积层(BIEGCL)作为交互模块,对预测的原子间距离进行微调 。

  • 能量计算: 模型不直接输出一个黑盒分数,而是显式地计算四种非键相互作用能量:范德华力 (Van der Waals) 、氢键 (Hydrogen bond) 、疏水相互作用 (Hydrophobic) 、金属相互作用 (Metal interactions)

  • 熵效应: 引入了 项来考虑配体旋转带来的熵损失 。

半监督学习策略

利用少量有标签数据进行训练,同时利用模型对无标签数据的预测作为“伪标签”(Pseudo-labels)进行迭代训练 。

这种策略使得LumiNet能够快速适应新的药物靶标系统,即使只有极少量(如6个)实验数据点,也能达到与高成本FEP+方法相媲美的精度 。

[JCIM] ChargeNet:E(3) Equivariant Graph Attention Network for Atomic Charge Prediction

背景

原子电荷是描述分子静电势和分子间静电相互作用的基本属性,对于药物设计、分子动力学模拟和虚拟筛选至关重要 。

高精度的QM方法(如RESP拟合)计算复杂度随原子数量呈平方或指数级增长,不适用于大规模筛选 。半经验方法(如AM1-BCC)虽然较快,但依赖经验参数修正,准确性受限 。

第一代基于随机森林等传统机器学习的模型依赖人工设计的描述符 ;第二代基于图神经网络(GNN)的模型虽然有所进步,但往往无法有效处理分子的3D旋转和平移对称性(即缺乏E(3)等变性),且通常仅基于共价键传递信息,忽略了对于电荷分布至关重要的长程静电相互作用 。

ChargeNet

研究团队提出了 ChargeNet,这是一种E(3) 等变图注意力网络(Equivariant Graph Attention Network)。其核心架构设计旨在精确模拟原子间的长程静电相互作用并保持几何对称性。

  • 全连接分子图 (Fully Connected Graph): 不同于传统GNN仅基于共价键连接原子,ChargeNet 构建了全连接图,即分子中的每个原子都与其他所有原子相连 。这种设计使得模型能够直接捕捉非键合原子间的长程相互作用,这对于准确预测受全局静电环境影响的原子电荷至关重要 。

  • E(3) 等变性 (E(3) Equivariance): 模型集成了等变图神经网络(EGNN)的原理。这意味着当输入的分子结构发生旋转或平移时,模型的输出会保持相应的变换一致性,从而增强了模型对构象变化的鲁棒性和泛化能力 。模型通过迭代更新节点特征、边特征和坐标来实现这一点 。

  • 多尺度全局注意力机制 (Global Graph Attention): 引入了多头注意力机制(Multi-head Attention),使模型能够自适应地关注不同尺度的相互作用,有效融合局部化学环境和全局结构信息 。

训练

使用了包含约130,000个有机小分子的数据集,涵盖了三种类型的原子电荷:DDEC4 ()、DDEC78 () 和 RESP 电荷 。

  • 特征输入: 模型输入包括2D原子特征(如原子类型、杂化方式、形式电荷等)和3D几何信息(笛卡尔坐标)。

4. 实验结果与性能评估

研究表明,ChargeNet 在准确性和泛化能力上均显著优于现有的最先进模型(SOTA)。

  • 基准测试表现: 在DDEC4、DDEC78和RESP三种电荷类型的预测中,ChargeNet 相比于基线模型(如 DeepAtomicCharge 和 SuperAtomicCharge)平均提升了超过 40% 的准确度 。

  • 例如,在DDEC4电荷预测中,ChargeNet 的均方根误差 (RMSE) 仅为 0.00457e,而 SuperAtomicCharge 为 0.00942e 。

  • 外部验证集表现: 在由ChEMBL数据库构建的外部RESP测试集上,ChargeNet 实现了 54.6% 的性能提升,RMSE 为 0.0608e,远低于竞争模型的 0.1339e 和 0.1691e 。

  • 全连接图的优势: 消融实验证明,使用全连接邻接矩阵相比基于共价键的矩阵,在所有数据集上将预测误差降低了20%到30% 。

上图展示了模型在不同元素上的预测精度,可以看出 ChargeNet 对于药物设计中常见的关键原子(如氢、碳、氮、氧)均具有极高的预测相关性 。

5. 应用案例:虚拟筛选

为了验证其实际应用价值,研究人员将 ChargeNet 应用于针对 Caspase-8 靶点的虚拟筛选任务中。Caspase-8 的活性位点包含复杂的氢键网络,对配体电荷分布高度敏感 。

  • 实验设置: 对比了使用 ChargeNet 预测的 DDEC4/RESP 电荷与默认的 OPLS3e 力场电荷在分子对接中的表现。
  • 结果: 使用 ChargeNet 预测的 DDEC4 电荷进行筛选,其富集因子和 ROC 曲线下面积 (AUC = 0.878) 均显著优于 OPLS3e (AUC = 0.798) 。这表明该模型预测的高质量电荷能有效提升虚拟筛选中活性化合物的识别率。