当前位置: 首页 > article >正文

AIDD-人工智能药物设计-利用自动化机器学习(AutoML)方法促进计算机模拟的ADMET特性预测

JCIM|利用自动化机器学习(AutoML)方法促进计算机模拟的ADMET特性预测

Image

01

引言

本篇文献讨论了利用自动化机器学习(AutoML)方法进行ADMET(吸收、分布、代谢、排泄、毒性)特性预测的研究。由于药物研发的高昂成本与高失败率,通过计算机模拟预测ADMET特性可以显著减少实验成本与研发时间。本文提出的AutoML方法利用 Hyperoptsklearn(HSL)工具开发了用于预测11种ADMET特性的模型,展示了其在外部数据集上的优越表现。

02

*研究背景与意义*

ADMET特性是药物研发中影响候选药物成功与否的重要因素之一。传统的ADMET测试方法如Caco2渗透性实验、血脑屏障(BBB)渗透性测定、CYP酶抑制实验等,均存在耗时长、成本高的问题。而近年来,计算机辅助的ADMET建模工具由于高通量和低成本的特点,受到了越来越多的关注。

**自动化机器学习(AutoML)**的出现为ADMET建模提供了新的机遇。通过自动选择模型算法与优化超参数,AutoML显著提高了建模的效率与预测的准确性。现有的AutoML方法中,Hyperoptsklearn是一个基于Scikitlearn的工具,能自动搜索最佳算法与超参数组合,适用于监督学习任务中的分类与回归。

目前大多数ADMET预测模型都是通过人工选择算法并调参来完成的,这种方式耗时费力且难以扩展。而AutoML的引入极大地简化了这一过程,不仅能够自动选择最佳模型,还能针对不同的ADMET属性生成定制化的预测工具。研究人员希望通过这种方法,能够在多个ADMET属性预测任务中取得更好的表现。

Image

图1: ADMET预测流程示意图

03

*研究方法与技术亮点*

3.1 数据集构建与预处理

从ChEMBL、Metrabase数据库与相关文献中收集化合物的结构与生物活性数据。数据集包含了Caco2渗透性、Pgp底物识别、BBB渗透性、CYP酶抑制(包括CYP1A2、CYP2C9、CYP2D6、CYP3A4等)、HLM(人类肝微粒体)与RLM(大鼠肝微粒体)稳定性,以及hERG抑制等共11种ADMET特性。

对收集的数据集进行标准化处理,包括化合物的SMILES字符串格式化、去重、去噪声、以及利用RDKit工具包计算分子描述符。

对数据进行标准化(Standardization)与归一化(Normalization),确保不同来源的数据能够统一用于模型训练与验证。

Image

图2: 数据集汇总

3.2 AutoML建模与优化

本研究采用了Hyperoptsklearn(HSL)框架进行AutoML建模。HSL是一个开源工具,能够自动选择算法并进行超参数优化,适用于分类与回归任务。

在模型优化过程中,HSL采用了贝叶斯优化(Bayesian Optimization)方法,能够高效地搜索高维参数空间,从而提高模型的预测性能。

HSL框架支持多种机器学习算法,包括:

分类算法:随机森林(Random Forest)、支持向量机(SVM)、逻辑回归(Logistic Regression)、极端梯度提升(XGBoost)等。

回归算法:线性回归(Linear Regression)、随机森林回归、支持向量回归(SVR)、XGBoost回归等。

在模型训练过程中,研究者设计了三种不同的搜索空间组合,分别对应于不同的超参数调优策略:

  • 搜索空间1:最大函数评估次数为200,单次超时时间为120秒。
  • 搜索空间2:最大函数评估次数为150,单次超时时间为120秒。
  • 搜索空间3:最大函数评估次数为150,单次超时时间为90秒。

3.3 模型验证与性能评估

研究者采用**五折交叉验证(5fold CrossValidation)**来评估模型的性能,并使用多种指标进行比较,包括:

  • 准确率(Accuracy)
  • 敏感性(Sensitivity)
  • 特异性(Specificity)
  • Matthews相关系数(MCC)
  • ROC曲线下面积(AUC)

在多个外部数据集(包括Therapeutics Data Commons平台的标准数据集)上进行验证,确保模型的泛化能力。

与现有的ADMET建模工具(如ADMETlab 3.0、SwissADME)进行对比,分析AutoML方法的优越性与不足之处。

04

*研究结果与讨论*

4.1 模型性能对比

在所有ADMET特性预测中,HSL生成的模型在内部测试集上的AUC值均大于0.8,表现出优异的预测性能。

对于Pgp底物、BBB渗透性、CYP1A2抑制等特性,HSL模型的表现明显优于现有工具。

在外部数据集的验证中,HSL模型也表现出较高的稳定性与准确性。

4.2 AutoML方法的优势

  • 自动化算法选择与调参显著提高了模型的生成效率
  • HSL能够在不同ADMET属性预测任务中表现出色,展示了其通用性与扩展性

4.3 挑战与改进方向

  • 增加更多的训练数据与特征表示。
  • 优化超参数搜索算法以提高计算效率。
  • 结合深度学习方法进一步提高预测精度。

05

*总结与展望*

本研究提出的基于Hyperoptsklearn的自动化机器学习方法,为ADMET特性预测提供了一个高效而准确的工具。未来的研究可以在更大规模的数据集与更多类型的ADMET特性上应用这一方法,并与深度学习方法结合,以进一步提高预测性能与泛化能力。

Reference:

Han, H., Shaker, B., Lee, J. H., Choi, S., Yoon, S., Singh, M., … & Choi, S. (2025). Employing Automated Machine Learning (AutoML) Methods to Facilitate the In Silico ADMET Properties Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.4c02122


http://www.kler.cn/a/614904.html

相关文章:

  • 破界·共生:生成式人工智能(GAI)认证重构普通人的AI进化图谱
  • 【KEIL5.3.7以上版本ARM compiler5 version】
  • 【大模型基础_毛玉仁】5.3 附加参数法:T-Patcher
  • OkHttps工具类的简单使用
  • 测试BioMaster: AI生信分析的demo测试
  • 【HarmonyOS 5】初学者如何高效的学习鸿蒙?
  • Apache Tomcat 深度解析:企业级Java Web容器的架构与实践
  • 深入了解ChatGPT之类的大语言模型笔记
  • 使用爬虫按图搜索1688商品(拍立淘)
  • 开源的CMS建站系统可以随便用吗?有什么需要注意的?
  • Linux进程管理之进程的概念、进程列表和详细的查看、进程各状态的含义
  • MOSN(Modular Open Smart Network)-06-MOSN 多协议机制解析
  • conda装的R不能在Rstudio里装R包
  • shell脚本--MySQL简单调用
  • UI产品经理基础(四):用价值链视角来分析项目需求
  • JVM考古现场(十三):混沌重启——从量子永生到宇宙热寂的终极编译
  • 批量合并 PDF 文档,支持合并成单个文档,也支持按文件夹合并 PDF 文档
  • Spring AI Alibaba 实战:集成 OpenManus 实现智能体应用开发
  • 软件测试之接口测试
  • 【最后203篇系列】025 FastAPI+Celery