AIDD - 探索语言模型在药物分子生成方面的应用
AIDD - 探索语言模型在药物分子生成方面的应用
今天给大家讲一篇2024年10月在nature communications上发表的一篇关于分子生成的文章。现有的分子生成方法中往往只关注药物的特定属性,导致其适用性受限。因此作者提出了TamGen方法,用于针对特定靶点的分子生成和优化。TamGen方法的优势在于能够提高生成化合物的质量和可合成性,并在实际药物发现流程中得到了验证,成功筛选出对结核分枝杆菌ClpP蛋白酶具有抑制活性的化合物。在未来,该方法可以辅助药化专家用于更高效地设计和筛选潜在的候选药物分子,从而加速药物发现过程。
01
引言
传统的药物开发通常依赖于对现有化合物库的筛选和优化,而生成式人工智能方法则能够从头生成全新的具有特定药理属性的分子结构,不再受限于现有的化合物模板,从而可能带来更高效、更精准的药物设计。通过生成式AI,药化专家能够针对特定的靶标设计出全新的化合物,或者对现有的药物分子进行结构改造和优化,以提高其疗效和安全性。此外,进一步结合了高通量虚拟筛选方法有助于在短时间内从数以亿计的潜在分子中快速识别出最有潜力的候选药物。由于在现有的化合物库中往往缺乏针对某些特定靶蛋白的有效化合物,因此药化专家们利用生成模型在探索广泛化学空间能力上的优势设计这些与难以攻克的靶点相结合的潜在候选药物,从而加速药物发现的进程。然而目前在设计易于合成、生物活性较优且安全的化合物方面存在挑战,但随着算法的不断进步和高质量数据资源的积累,生成式AI在药物设计领域的正逐步扮演越来越重要的角色。
02
TamGen的设计流程
作者提出一种新的一种类似GPT的化学语言模型TamGen用于生成类药化合物,它包含三个模块,图1a展示了其中的化合物解码器,它通过自回归的方式进行训练,旨在预测每个化合物SMILES序列的下一个标记,从而能够在有无靶标信息的情况下顺序生成化合物。图1b描述了一个基于VAE的上下文编码器来编码化合物信息,该方法可以利用已有的化合物来进一步指导生成更多满足期望属性的化合物。而图1c描述了蛋白编码器,它通过自注意力机制捕获目标蛋白的结合口袋信息,并将其输出通过交叉注意力模块传递给化合物解码器,以实现基于特定靶标的分子生成及优化工作。
图1 TamGen模型架构
03
实验结果
3.1 分子生成质量评估
为了评估TamGen模型的生成分子的质量,作者将其与五种基于靶标的分子生成的基准方法进行了比较。其中评估数据集为CrossDocked2020,包含大约10万个药物-靶标对的训练集和100个蛋白结合口袋的测试集。在测试过程中,还利用上述五个模型分别为CrossDocked2020测试集中的每个靶标生成了100个化合物。然后,通过多个指标来全方面地衡量TamGen生成分子的质量,如图2可知,TamGen在大多数指标上表现优异,并展示了整体最佳的性能。特别是在可合成性、对接分数方面,TamGen表现最佳。此外, TamGen还倾向于生成具有较少融合环的化合物,这与FDA批准的药物的特点相似,而其他直接在3D空间中生成的方法往往会产生具有多个融合环的化合物,这会增加细胞毒性的可能性。在效率方面,TamGen也优于其他方法,平均只需9秒就能生成100个化合物,而其他方法则需要数十分钟或数小时。由此可见,TamGen可以快速且有效地设计满足不同下游任务的化合物。
图2 生成分子的质量评估
3.2 结核病ClpP蛋白酶的新型抑制剂设计
ClpP酶在维持细菌内环境的稳定中发挥关键作用,是一个有潜力的抗生素靶点。目前除了已知的针对人类蛋白酶体的Bortezomib药物外,还未发现其他针对细菌ClpP的抗生素。因此作者利用TamGen设计ClpP酶的小分子抑制剂,以寻找新的抗生素候选药物。首先,基于ClpP酶的蛋白质结构,TamGen生成了2612种结构不同的化合物。然后通过分子对接和Ligandformer 模型筛选,排除了对接分数低于Bortezomib和无活性的化合物,最终确定了4个种子化合物(图3a)。在微调阶段,TamGen基于目标蛋白和7个种子化合物生成了8,635种新的化合物。通过相同的筛选过程,选择了296种化合物进行生物测试。为了加快验证过程并提高测试阶段的效率,作者先从一个446k的商业化合物库中确定了159个与TamGen生成的化合物最大公共子结构(MCS)相似度超过0.55的类似物。其中5种类似化合物在ClpP1P2肽酶活性测定中表现出明显的抑制作用,且它们的半抑制浓度值均低于20μM(图3c)。这种方法减少了筛选过程的成本,并提高了生成活性分子且易于合成的比例。
图3 模型对不同靶标的泛化性评估
3.3 消融实验分析
为了探究预训练策略对于TamGen模型生成合理化学化合物的重要性,作者进行了消融实验,首先使用CrossDocked2020数据集进行训练和测试,发现没有经过预训练的TamGen模型在对接分数上表现较差,且生成的化合物结构过于简单,不适合作为候选药物(图4a和图4b)。然后,作者评估了TamGen在微调过程中捕获口袋-配体对信息的能力。通过随机打乱训练数据集中的口袋-配体对来重新训练TamGen,结果显示,使用正确配对数据的TamGen在对接分数上明显优于随机配对的TamGen-r方法,这表明准确的口袋-配体相互作用信息对于模型性能至关重要。
图4 基于预训练策略的消融实验
04
结论
作者设计了一种基于靶标的分子生成方法TamGen,该模型架构的解码器类似于GPT中的解码器,用以自回归的方式生成化合物。此外,还引入基于变分自编码器(VAE)的模块用以指导模型针对特定蛋白设计具有较高亲和力的化合物。通过设计-优化-测试的迭代流程,TamGen能够生成具有更多样化、类药的化合物。该方法在多项基准测试中表现出色,并成功发现了针对结核分枝杆菌ClpP蛋白酶的高抑制活性化合物。在未来,TamGen将通过结合蒙特卡洛树搜索或强化学习技术来进一步提升化合物生成的质量,从而减少实验成本,加速药物开发的流程。
参考文献
[1] Wu K, Xia Y, Deng P, et al. TamGen: drug design with target-aware molecule generation through a chemical language model[J]. Nature Communications, 2024, 15(1): 9360.