AIDD-人工智能药物设计-深度学习驱动的酶动力学参数预测模型CataPro助力高效酶挖掘与改造
Nat. Commun. | 深度学习驱动的酶动力学参数预测模型CataPro助力高效酶挖掘与改造
在生物催化领域,酶作为高效、特异性强的生物催化剂,在工业生产中发挥着至关重要的作用,广泛应用于制药、化工、食品饮料加工以及生物燃料合成等行业。酶挖掘的目的是从自然界中(比如微生物、植物、动物来源)中筛选和鉴定具有特定催化功能的新酶,以满足不同工业应用的需求。然而,自然界中的野生酶往往难以满足工业生产对其催化效率等性能的要求,因此需要对其进行优化和改造以进一步提高其工业适用性。传统的酶挖掘和酶改造方法主要依赖湿实验,这一过程耗时长且成本高昂,并且受实验条件的限制,筛选范围有限。而基于理性设计的酶改造依赖于对酶的结构、功能和作用机制的深入理解,这在许多情况下难以全面获取,进一步增加了酶改造的难度。近年来,随着计算技术的迅猛发展,基于深度学习的酶挖掘和改造方法逐渐兴起,为这一领域带来了新的希望。
近期,上海智峪生科郑良振博士、山东大学李伟峰教授和山东师范大学杨燕美教授团队在《Nature Communications》杂志上在线发表了题为“Robust enzyme discovery and engineering with deep learning using CataPro”的工作,**介绍了一个名为CataPro的深度学习模型用于预测酶动力学参数。该模型基于预训练模型和分子指纹,提高了对酶的周转数(kcat)、米氏常数(Km)以及催化效率(kcat/Km)的预测精度。与以往的酶动力学参数预测模型相比,CataPro的预测准确性以及泛化能力都有明显提升。通过广泛的测试,证明了CataPro在酶挖掘和酶改造中的应用潜力。**在该研究中,作者将收集到的酶动力学参数数据按照序列相似性进行聚类,构建了kcat、Km和kcat/Km的无偏十折交叉验证数据集。在先前报道的相关文献中,通常随机划分训练集、验证集和测试集,这导致模型在验证集和测试集上的表现可能会因为“记忆”训练集中的信息而显得过于乐观,从而无法真实反映模型对新酶或新反应的预测能力。作者通过预训练模型和分子指纹表征酶-底物信息,并在无偏的十折交叉验证数据集上对模型进行训练(图1),结果表明CataPro相比于先前报道的模型具有更强的泛化能力。
图 1 CataPro模型总览
在该研究中,作者系统测试并分析了采用不同的酶和底物表示在酶动力学参数预测任务中的效果(图2)。对于酶表示,作者测试了ESM2、ProtT5_XL_UniRef50以及SaProt等蛋白质语言模型的embedding;对于底物,作者测试了MolT5、Mole-BERT分子语言模型的embedding以及Morgan、MACC Keys和RDKit指纹等。CataPro采用ProtT5_XL_UniRef50、MolT5 embedding以及MACC Keys指纹的酶-底物表征方式取得最优性能。此外,作者展示了采用有偏和无偏数据集对模型训练所带来的结果差异,并强调了在酶动力学参数预测任务中采用无偏数据集对模型训练的重要性。
图2 CataPro与baseline模型在kcat和Km预测中的比较
在该研究中,作者不仅在理论层面上对CataPro进行了广泛的测试和验证,还将其应用于实际的酶发现和改造项目,即针对4-乙烯基愈创木酚(4-VG)转化为香兰素的酶挖掘项目,以评估其在真实酶挖掘和改造场景中的应用潜力。香兰素是一种重要的香料化合物,广泛应用于食品、饮料、化妆品和制药行业。传统的香兰素生产方法主要依赖于化学合成,但这种方法存在高能耗和环境污染等问题。相比之下,生物催化方法具有环境友好、条件温和等优点。4-VG是一种可再生的生物质衍生物,通过生物催化转化为香兰素是一种可持续的生产途径。然而,找到能够高效催化这一反应的酶是实现这一目标的关键。作者利用CataPro模型结合传统方法,从大量候选酶中筛选出一种名为Sphingobium sp. CSO(SsCSO)的酶。这一过程首先从UniProt数据库中检索与初始酶CSO2具有较高序列相似性的酶序列,然后通过CataPro模型对这些酶的kcat和Km值进行预测,最后通过湿实验检测筛选出的候选酶在催化4-VG转化为香兰素的催化效率。最终,他们发现SsCSO的活性显著高于初始酶CSO2,这一发现为香兰素的生物合成提供了一种更高效的酶催化剂。在发现SsCSO之后,作者进一步利用CataPro模型对其进行了序列优化,以期获得更高活性的突变体。他们首先通过AlphaFold2预测了SsCSO的三维结构,并利用分子对接技术模拟了酶-底物复合物的结构。根据这些信息,作者选择了与底物结合口袋附近的氨基酸残基作为潜在的突变位点,并通过CataPro模型预测了这些位点的突变对酶活性的影响。结合预测结果和进化保守性分析(PSSM),作者筛选出了几个具有潜在高活性的突变体,并通过实验检测了它们的活性。经过两轮突变改造后,作者发现了一个活性为野生SsCSO酶3.34倍的高活性突变体。这一结果展示了CataPro在辅助酶发现和改造中的巨大潜力和价值。
图3 CataPro结合传统计算方法应用于类胡萝卜素裂解加氧酶的挖掘和改造流程**【*未来展望*】**
尽管CataPro在酶动力学参数预测和酶突变体活性预测方面取得了显著成果,但模型仍存在一些局限性。例如,在kcat预测中,尽管CataPro优于现有模型,但预测准确性仍有提升空间。这可能是由于现有的kcat数据未能充分覆盖广泛的酶促反应类型,或者现有的酶 - 底物反应建模方法在准确量化酶催化过程和机制方面仍面临挑战。酶的催化机制具有多样性,涉及广泛的物理化学机制,将这些物理化学机制编码到模型中可能有助于进一步提升机器学习模型的性能。上海智峪生科郑良振博士、山东大学李伟峰教授和山东师范大学杨燕美教授为本论文共同通讯作者,山东大学物理学院博士生王泽琛为本论文第一作者。
参考资料
Wang, Z., Xie, D., Wu, D. et al. Robust enzyme discovery and engineering with deep learning using CataPro. Nat Commun 16, 2736 (2025).
https://doi.org/10.1038/s41467-025-58038-4