当前位置: 首页 > article >正文

AIDD - 人工智能药物设计 - 用于早期识别细胞毒性化合物的ML工具

JCIM|Cyto-Safe:用于早期识别细胞毒性化合物的ML工具

图片

01

*毒性预测在药物发现中的重要性*

在药物发现和开发的早期阶段,识别具有细胞毒性的化合物至关重要。细胞毒性是导致药物研发失败的关键因素之一,特别是在临床前阶段,许多候选化合物因为毒性问题被迫终止开发。这不仅造成了大量时间和资金的浪费,还增加了药物研发的整体风险。

传统毒性评估的局限

体外实验:尽管细胞活性筛查实验(如MTT法、CellTiter-Glo法)广泛应用,但耗时长、成本高,且依赖实验室资源。

动物实验:伦理限制与物种差异导致结果无法完全外推至人体。

低通量:无法快速筛选大量化合物,难以满足药物发现早期筛选需求。

因此,计算机辅助毒性预测逐渐成为一种重要工具。尤其是基于机器学习的定量结构-活性关系(QSAR)模型,通过分析大量已知数据,识别分子结构与毒性之间的关系,可以快速、准确地预测新的化合物毒性。

Cyto-Safe 正是在这一背景下提出,旨在通过机器学习工具加速药物早期筛选,降低研发风险。

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-sdwdbbKV-1735113555810)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图1:流程示意图

02

*Cyto-Safe工具的开发与核心技术*

Cyto-Safe 是一个基于机器学习的毒性预测工具,专为药物早期发现设计。其开发流程主要包括以下几个步骤:

2.1 数据集的构建与预处理

数据来源

数据主要来自 NCATS数据库,涵盖了两个细胞系(3T3小鼠成纤维细胞和HEK 293人胚肾细胞)的毒性数据。最初包含90,000多个化合物,经过筛选、清洗和去重,最终得到:

  • 3T3细胞系:66,620个化合物。
  • HEK 293细胞系:64,094个化合物。

数据平衡处理

由于毒性与非毒性样本数量不均衡,Cyto-Safe采用了 NearMiss v3欠采样法,在保持数据多样性的前提下,平衡正负样本的比例。这一处理方式有效提升了模型在少样本情况下的预测性能。

2.2 分子结构表示与特征提取

采用 ECFP4分子指纹(半径2)表示化合物结构,该方法将分子结构转化为计算机可识别的特征向量,有助于模型捕捉分子片段与毒性之间的关系。

2.3 模型构建与训练

算法选择:Cyto-Safe使用了 LightGBM(轻量梯度提升机),一种高效的机器学习算法,适合大规模数据集的快速训练和预测。

超参数优化:通过贝叶斯优化方法,自动调优模型的超参数,进一步提升模型的性能。

训练与验证:数据集分为训练集测试集,比例为80:20;通过Y-随机化验证,确保模型性能的可靠性,排除过拟合风险。

2.4 模型性能评估

评估指标包括:

平衡准确率(BACC):考虑样本不平衡的影响,反映整体预测效果。

Matthew相关系数(MCC):衡量模型对正负样本的区分能力。

F1分数:综合考虑模型的精准率和召回率。

结果表明,在1:5欠采样比例下,模型表现最佳,MCC高达 0.86,灵敏度达 83%,实现了对细胞毒性化合物的高准确率识别。

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-R7jAt53y-1735113555810)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图2: Cyto-Safe网络应用的一般使用流程、结果及可解释性人工智能(XAI)概述

03

*Cyto-Safe的核心功能与亮点*

Cyto-Safe 的设计突出了用户友好性与高可解释性,主要功能包括:

3.1 用户界面与数据输入

• 支持多种输入格式:包括SMILES字符串、CSV文件和SDF文件。

• 支持批量预测:最多可同时分析10个化合物,生成详细的预测报告。

3.2 解释性分析(Explainable AI)

Cyto-Safe结合了**可解释人工智能(XAI)**技术,直观展示分子结构与毒性预测之间的关系:

通过热力图高亮显示影响毒性的分子片段:

红色区域:增加毒性的分子结构。

绿色区域:降低毒性的分子结构。

示例验证:

Doxorubicin(多柔比星):被正确预测为高毒性。

Ibuprofen(布洛芬):被正确识别为低毒性。

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-CJZJfgNA-1735113555810)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图3: 对多柔比星(Doxorubicin)在3T3模型(A)和HEK-293模型(B)上的预测结果,对布洛芬(Ibuprofen)在3T3模型(C)和HEK-293模型(D)上的预测结果

3.3 结果输出与报告生成

预测结果包括:

毒性分类(毒性/非毒性)。

置信度评分(例如:90%的概率为毒性化合物)。

支持结果导出,便于用户进行后续分析。

04

*应用场景与实际价值*

Cyto-Safe 在药物发现流程中具有广泛的应用潜力,主要体现在以下几个方面:

  • 虚拟筛选:在药物早期开发阶段,快速筛选潜在毒性化合物,减少实验资源浪费。
  • 分子优化:通过解释性分析,识别导致毒性的分子片段,指导化学家进行分子结构优化。
  • 减少动物实验:提供基于计算的方法,替代部分体外和体内实验,符合伦理需求。
  • 高通量分析:适合大规模化合物库的毒性评估,加速药物筛选进程。

05

*Cyto-Safe与现有工具的对比*

与现有的毒性预测工具相比,Cyto-Safe 具有明显的优势:

  1. 可解释性强:通过可视化工具,揭示分子结构与毒性之间的关系。
  2. 操作简便:无需编程背景,适合不同层次的用户。
  3. 预测准确性高:在高不平衡数据集上仍表现出色。

06

*研究局限性与未来展望*

尽管 Cyto-Safe 在细胞毒性预测中表现优异,但仍存在以下局限性:

• 数据集局限于 3T3HEK 293 两个细胞系,未覆盖其他类型的细胞。

• 预测结果依赖于输入分子的表示方式,未来可考虑整合深度学习技术,如图神经网络(GNN)。

未来展望:

  • 扩展数据集,提高模型的泛化能力。
  • 实现更多毒性端点预测,如肝毒性、心脏毒性等。
  • 与药物设计工具集成,提供全流程计算辅助设计方案。

07

*总结*

Cyto-Safe 是一款基于机器学习的毒性预测工具,结合了高准确性、可解释性和易用性,能够显著加速药物发现中的细胞毒性评估。该工具不仅降低了研发成本,还为药物分子设计提供了重要的指导方向。

工具链接:Cyto-Safe Web App

Reference:

Feitosa, Francisco L., et al. “Cyto-Safe: A Machine Learning Tool for Early Identification of Cytotoxic Compounds in Drug Discovery.” Journal of Chemical Information and Modeling, 2024, https://doi.org/10.1021/acs.jcim.4c01811.


http://www.kler.cn/a/451706.html

相关文章:

  • Spring源码_05_IOC容器启动细节
  • 极狐GitLab 17.7正式发布,可从 GitLab 丝滑迁移至极狐GitLab【二】
  • MySQL for update skip locked 与 for update nowait
  • 【MinIO系列】MinIO Client (mc) 完全指南
  • 基于推理的目标检测 DetGPT
  • Zerotier + VSCode远程连接实验室的服务器、Xshell连接远程服务器
  • React Props 完整使用指南
  • ffmpeg之显示一个yuv照片
  • 我的2024创作纪念日---新的一年,要有新的开始!
  • JOGL 从入门到精通:开启 Java 3D 图形编程之旅
  • 知迟图谱推理新进展
  • electron-vite【实战系列教程】
  • 划分网段(网络)
  • 数据分析-50-客户价值分析-用Python实现RFM模型
  • 对象、函数、原型之间的关系
  • 安装origin2025试用版(学生)
  • XlDynamicFilterCriteria 枚举 (Excel)
  • R语言数据分析案例46-不同区域教育情况回归分析和探索
  • Electron -- 预加载脚本preload.js(三)
  • 物联网系统中MQTT的概念建模方法
  • 打造高效租赁小程序让交易更便捷
  • 几个常见的Jmeter压测问题
  • lxml提取某个外层标签里的所有文本
  • Linux的mmap
  • 什么是领域驱动设计
  • [Unity] ShaderGraph动态修改Keyword Enum,实现不同效果一键切换