论文DiffBP: generative diffusion of 3D molecules for target protein binding
研究背景
在药物发现中,生成能与特定蛋白质结合的分子至关重要但极具挑战。以往的工作大多采用自回归方式逐个生成原子的元素类型和三维坐标,但在真实分子系统中,原子间的相互作用是全局性的,基于能量考虑,概率建模应基于联合分布而非顺序条件分布,因此自回归方法可能违背物理规则,导致生成的分子性质不佳。
研究方法
- DiffBP 模型
- 这是一种生成扩散模型,以非自回归的方式在全原子水平上利用目标蛋白作为上下文约束来生成分子的三维结构。
- 给定一个指定的三维蛋白质结合位点,该模型使用等变网络对整个分子的元素类型和三维坐标进行去噪。
- 具体包括对连续位置的扩散(通过向原子坐标添加噪声并在去噪过程中恢复)、离散类型的扩散(采用吸收扩散模型处理原子元素类型)、等变图去噪器(利用 EGNN 学习转移分布)等操作。
- 模型在优化过程中有多个损失函数,包括连续位置去噪损失、离散类型去噪损失、避免结合交叉的损失和其他属性重建损失等。在生成去噪过程中,还涉及原子位置和元素类型的生成方法,以及预生成模型来处理分子质心和原子数量的问题。
基于机器学习的分子设计面临的挑战
- 数据需求
- 开发有效的机器学习方法需要大量数据,尽管现在这样的数据逐渐可用,但仍然是一个障碍。
- 任务复杂性
- 复杂的蛋白质结合位点:蛋白质结合位点作为条件背景很复杂,它不仅涉及目标蛋白质的三维几何结构,还包括氨基酸类型等其他信息,这些都必须考虑才能生成高亲和力的分子。
- 广泛的分布支持集:分子化学和坐标的期望分布有大量的支持集。与构象生成任务不同,作为二维图形约束的化学式是未知的,需要精心设计的模型来捕捉元素类型、连续三维坐标以及其他化学性质或几何形状之间错综复杂的耦合。
- 分子的几何对称性:在物理三维空间中,分子存在包括欧几里得群的平移和旋转在内的几何对称性,这意味着如果对结合位点进行对称操作,生成的分子应该进行相应的旋转或平移。
这张表格(Table 2)比较了由不同方法(3DSBDD、Pocket2Mol、GraphBP 和 DiffBP)生成的分子的其他类药特性。具体特性如下:
-
药物亲脂性效率(QED)
- 3DSBDD:0.3811
- Pocket2Mol:0.5106(最高)
- GraphBP:0.3830
- DiffBP:0.4431
-
合成可及性(SA)
- 3DSBDD:0.5185
- Pocket2Mol:0.5430(最高)
- GraphBP:0.4828
- DiffBP:0.5377
-
相似度(Sim)
- 3DSBDD:0.3485
- Pocket2Mol:0.3485
- GraphBP:0.2707(最低)
- DiffBP:0.3290
-
配体 - 蛋白特异性关键(LPSK)
- 3DSBDD:0.6678
- Pocket2Mol:0.8134(最高)
- GraphBP:0.5961
- DiffBP:0.7042
加粗的数值是在各项特性中排名前两位的指标。总体来看,Pocket2Mol 在 QED、SA 和 LPSK 这三个特性上表现突出,GraphBP 在 Sim 特性上表现较好,而 DiffBP 在各项特性上的表现较为均衡。
这张表格(Table 1)比较了不同方法生成的分子在亲和力分数指标上的表现。表格中涉及的方法包括 3DSBDD、Pocket2Mol、GraphBP 和 DiffBP,评估指标包括分子大小比例(Ratio)、平均结合间隙百分比(MPBG)和配体效率(LE),并且按照小分子(Small)、中分子(Medium)、大分子(Large)和总体(Overall)进行了分类。
小分子(Small)
- 3DSBDD:分子比例为 41.45%,MPBG 为 27.92%,LE 为 4.90%。
- Pocket2Mol:分子比例为 36.62%,MPBG 为 25.18%,LE 为 4.10%。
- GraphBP:分子比例为 27.72%,MPBG 为 35.16%,LE 为 5.19%。
- DiffBP:分子比例为 5.22%,MPBG 为 17.61%,LE 为 10.25%。
中分子(Medium)
- 3DSBDD:分子比例为 54.06%,MPBG 为 19.78%,LE 为 14.84%。
- Pocket2Mol:分子比例为 59.02%,MPBG 为 5.38%,LE 为 32.53%。
- GraphBP:分子比例为 32.03%,MPBG 为 18.68%,LE 为 15.30%。
- DiffBP:分子比例为 75.19%,MPBG 为 2.36%,LE 为 40.20%。
大分子(Large)
- 3DSBDD:分子比例为 4.48%,MPBG 为 -7.53%,LE 为 48.56%。
- Pocket2Mol:分子比例为 4.36%,MPBG 为 -11.21%,LE 为 75.42%。
- GraphBP:分子比例为 37.97%,MPBG 为 -10.13%,LE 为 60.21%。
- DiffBP:分子比例为 19.59%,MPBG 为 -4.11%,LE 为 52.64%。
总体(Overall)
- 3DSBDD:MPBG 为 21.92%,LE 为 12.22%。
- Pocket2Mol:MPBG 为 23.98%,LE 为 29.54%。
- GraphBP:MPBG 为 1.88%,LE 为 41.07%。
- DiffBP:MPBG 为未提供,LE 为未提供。
总结
- 在小分子方面,3DSBDD 和 Pocket2Mol 生成的小分子比例较高,而 DiffBP 生成的小分子比例最低,但 DiffBP 的小分子在配体效率方面表现较好。
- 在中分子方面,DiffBP 生成的中分子比例最高,且在 MPBG 和 LE 指标上表现出色。
- 在大分子方面,GraphBP 和 Pocket2Mol 生成的大分子比例较高,但 DiffBP 的大分子在 MPBG 和 LE 指标上相对更优。
- 总体来看,DiffBP 在中分子和大分子的配体效率上表现突出,Pocket2Mol 在小分子和大分子的配体效率上也有较好表现,而 GraphBP 在总体的配体效率上较高。
这张图片展示了两组核密度估计(KDE,Kernel Density Estimation)图,分别比较了生成样本(Generation)和活性分子(Actives)对两种不同靶点(AKT1 和 CDK)的结合亲和力(binding affinity)分布。
图(a):AKT1 靶点
- 蓝色柱状图(Actives)
- 平均结合亲和力(Affinity (Act))为 5.707,标准差为 0.571。
- 结合亲和力主要集中在 5 - 7 之间,形成一个高峰。
- 橙色柱状图(Generation)
- 平均结合亲和力(Affinity (Gen))为 5.705,标准差为 0.724。
- 结合亲和力分布较为分散,从 3 到 9 都有分布,但在 5 - 7 之间有一个相对较高的峰。
图(b):CDK 靶点
- 蓝色柱状图(Actives)
- 平均结合亲和力(Affinity (Act))为 4.358,标准差为 0.461。
- 结合亲和力主要集中在 4 - 6 之间,形成一个高峰。
- 橙色柱状图(Generation)
- 平均结合亲和力(Affinity (Gen))为 5.171,标准差为 0.818。
- 结合亲和力分布较为分散,从 3 到 9 都有分布,但在 5 - 7 之间有一个相对较高的峰。
总体分析
- 对于 AKT1 靶点,活性分子和生成样本的平均结合亲和力非常接近,但生成样本的分布更为分散。
- 对于 CDK 靶点,生成样本的平均结合亲和力高于活性分子,且生成样本的分布也更为分散。
这些图表可能用于评估某种分子生成方法在生成针对特定靶点的分子时的效果,通过比较生成样本和已知活性分子的结合亲和力分布,可以判断生成方法的有效性和准确性。
张图片展示了两个 t - SNE(t - 分布邻域嵌入)图,分别用于比较针对 AKT1(图 a)和 CDK2(图 b)的生成分子、随机选择的分子和活性分子。以下是详细的分析:
1. 总体布局
- 图中使用了 t - SNE 算法将高维数据降维到二维平面上进行可视化。
- 每个图中包含三种类型的分子,分别用不同颜色表示:
- 红色(Active)代表活性分子。
- 蓝色(Generated)代表生成的分子。
- 绿色(Geom_drug)代表几何药物分子。
2. 图 a:针对 AKT1 的分子
- 活性分子(Active):红色的点分布较为分散,但在图的中部和右部有相对集中的区域。
- 生成分子(Generated):蓝色的点在图的中部和左部有较多分布,与活性分子有一定的重叠。
- 几何药物分子(Geom_drug):绿色的点分布较为分散,主要集中在图的左部和中部。
3. 图 b:针对 CDK2 的分子
- 活性分子(Active):红色的点在图的中部和右部有较多分布。
- 生成分子(Generated):蓝色的点在图的中部和左部有较多分布,与活性分子有一定的重叠。
- 几何药物分子(Geom_drug):绿色的点分布较为分散,主要集中在图的左部和中部。
4. 分析与结论
- t - SNE 图常用于可视化高维数据的分布情况,在这张图片中,它展示了不同类型分子在化学空间中的分布。
- 从图中可以看出,生成分子(Generated)和活性分子(Active)在两个靶点(AKT1 和 CDK2)的化学空间中都有一定程度的重叠,这表明生成分子在结构上与活性分子有相似之处。
- 几何药物分子(Geom_drug)的分布相对较为分散,与生成分子和活性分子的重叠较少,这可能意味着几何药物分子在化学结构上与其他两类分子有较大差异。
展示了由 DiffBP 针对 ADRB1 和 DRD3 目标可控设计的分子的可视化结果。随着比率(ratio)的增加,活性分子(active molecules)和重新设计的分子(re - designed molecules)之间的差异变得更加显著。
图中分为两大部分,分别对应 ADRB1 和 DRD3 两个目标。每个部分又分为若干行,每行展示了活性分子和重新设计的分子的对比。每行中都有四个分子结构的可视化图像,并且在每个分子图像旁边列出了相关的性质参数,包括 QED(定量药物相似性估计,Quantitative Estimate of Drug - likeness)、SA(合成可及性,Synthetic Accessibility)、ΔG_bind(结合自由能变化,Change in Binding Free Energy)和 Ginnia Aff.(Ginnia 亲和力,具体含义未在文中详细说明,但可能是与结合相关的亲和力指标)。
从图中可以观察到:
- 随着比率的增加,重新设计的分子在结构和性质上与活性分子的差异逐渐增大。
- 每个分子结构图像展示了分子的三维空间结构,不同颜色的球体代表不同的原子(例如,蓝色、红色、黄色和灰色可能分别代表氮、氧、硫和碳等常见原子,但具体颜色对应的原子类型需要结合图例进一步确认)。
- 性质参数的变化反映了分子在重新设计过程中的化学性质改变,例如 QED 和 SA 值的变化表明分子的药物相似性和合成可及性在重新设计后可能有所不同。
- 这张图展示了在对 ADRB1 和 DRD3 进行分子重新设计时,随着掩蔽率的变化,配体效率的变化情况。总体来看,随着掩蔽率的增加,两种目标的配体效率都有不同程度的变化,ADRB1 的配体效率增长趋势更为明显。
- (a) 2vt4 目标:ADRB1:展示了 ADRB1 的蛋白质结构、参考配体和 DiffBP 生成配体的结合情况、不同相互作用类型的频率柱状图,以及参考和 DiffBP 生成配体相互作用类型概率分布(JSD 值为 0.3092)。
- (b) 3pbl 目标:DRD2:展示了 DRD2 的蛋白质结构、参考配体和 DiffBP 生成配体的结合情况、不同相互作用类型的频率柱状图,以及参考和 DiffBP 生成配体相互作用类型概率分布(JSD 值为 0.1410)。