当前位置：首页 > article >正文

AIDD - 人工智能药物设计 - 用于早期识别细胞毒性化合物的ML工具

article 2025/4/2 8:59:49

JCIM｜Cyto-Safe：用于早期识别细胞毒性化合物的ML工具

*毒性预测在药物发现中的重要性*

在药物发现和开发的早期阶段，识别具有细胞毒性的化合物至关重要。细胞毒性是导致药物研发失败的关键因素之一，特别是在临床前阶段，许多候选化合物因为毒性问题被迫终止开发。这不仅造成了大量时间和资金的浪费，还增加了药物研发的整体风险。

传统毒性评估的局限：

• 体外实验：尽管细胞活性筛查实验（如MTT法、CellTiter-Glo法）广泛应用，但耗时长、成本高，且依赖实验室资源。

• 动物实验：伦理限制与物种差异导致结果无法完全外推至人体。

• 低通量：无法快速筛选大量化合物，难以满足药物发现早期筛选需求。

因此，计算机辅助毒性预测逐渐成为一种重要工具。尤其是基于机器学习的定量结构-活性关系（QSAR）模型，通过分析大量已知数据，识别分子结构与毒性之间的关系，可以快速、准确地预测新的化合物毒性。

Cyto-Safe 正是在这一背景下提出，旨在通过机器学习工具加速药物早期筛选，降低研发风险。

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-sdwdbbKV-1735113555810)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图1:流程示意图

*Cyto-Safe工具的开发与核心技术*

Cyto-Safe 是一个基于机器学习的毒性预测工具，专为药物早期发现设计。其开发流程主要包括以下几个步骤：

2.1 数据集的构建与预处理

• 数据来源：

数据主要来自 NCATS数据库，涵盖了两个细胞系（3T3小鼠成纤维细胞和HEK 293人胚肾细胞）的毒性数据。最初包含90,000多个化合物，经过筛选、清洗和去重，最终得到：

3T3细胞系：66,620个化合物。
HEK 293细胞系：64,094个化合物。

• 数据平衡处理：

由于毒性与非毒性样本数量不均衡，Cyto-Safe采用了 NearMiss v3欠采样法，在保持数据多样性的前提下，平衡正负样本的比例。这一处理方式有效提升了模型在少样本情况下的预测性能。

2.2 分子结构表示与特征提取

采用 ECFP4分子指纹（半径2）表示化合物结构，该方法将分子结构转化为计算机可识别的特征向量，有助于模型捕捉分子片段与毒性之间的关系。

2.3 模型构建与训练

• 算法选择：Cyto-Safe使用了 LightGBM（轻量梯度提升机），一种高效的机器学习算法，适合大规模数据集的快速训练和预测。

• 超参数优化：通过贝叶斯优化方法，自动调优模型的超参数，进一步提升模型的性能。

• 训练与验证：数据集分为训练集和测试集，比例为80:20；通过Y-随机化验证，确保模型性能的可靠性，排除过拟合风险。

2.4 模型性能评估

评估指标包括：

• 平衡准确率（BACC）：考虑样本不平衡的影响，反映整体预测效果。

• Matthew相关系数（MCC）：衡量模型对正负样本的区分能力。

• F1分数：综合考虑模型的精准率和召回率。

结果表明，在1:5欠采样比例下，模型表现最佳，MCC高达 0.86，灵敏度达 83%，实现了对细胞毒性化合物的高准确率识别。

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-R7jAt53y-1735113555810)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图2: Cyto-Safe网络应用的一般使用流程、结果及可解释性人工智能（XAI）概述

*Cyto-Safe的核心功能与亮点*

Cyto-Safe 的设计突出了用户友好性与高可解释性，主要功能包括：

3.1 用户界面与数据输入

• 支持多种输入格式：包括SMILES字符串、CSV文件和SDF文件。

• 支持批量预测：最多可同时分析10个化合物，生成详细的预测报告。

3.2 解释性分析（Explainable AI）

Cyto-Safe结合了**可解释人工智能（XAI）**技术，直观展示分子结构与毒性预测之间的关系：

通过热力图高亮显示影响毒性的分子片段：

• 红色区域：增加毒性的分子结构。

• 绿色区域：降低毒性的分子结构。

示例验证：

•Doxorubicin（多柔比星）：被正确预测为高毒性。

•Ibuprofen（布洛芬）：被正确识别为低毒性。

![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-CJZJfgNA-1735113555810)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)

图3: 对多柔比星（Doxorubicin）在3T3模型（A）和HEK-293模型（B）上的预测结果，对布洛芬（Ibuprofen）在3T3模型（C）和HEK-293模型（D）上的预测结果

3.3 结果输出与报告生成

预测结果包括：

• 毒性分类（毒性/非毒性）。

• 置信度评分（例如：90%的概率为毒性化合物）。

• 支持结果导出，便于用户进行后续分析。

*应用场景与实际价值*

Cyto-Safe 在药物发现流程中具有广泛的应用潜力，主要体现在以下几个方面：

虚拟筛选：在药物早期开发阶段，快速筛选潜在毒性化合物，减少实验资源浪费。
分子优化：通过解释性分析，识别导致毒性的分子片段，指导化学家进行分子结构优化。
减少动物实验：提供基于计算的方法，替代部分体外和体内实验，符合伦理需求。
高通量分析：适合大规模化合物库的毒性评估，加速药物筛选进程。

*Cyto-Safe与现有工具的对比*

与现有的毒性预测工具相比，Cyto-Safe 具有明显的优势：

可解释性强：通过可视化工具，揭示分子结构与毒性之间的关系。
操作简便：无需编程背景，适合不同层次的用户。
预测准确性高：在高不平衡数据集上仍表现出色。

*研究局限性与未来展望*

尽管 Cyto-Safe 在细胞毒性预测中表现优异，但仍存在以下局限性：

• 数据集局限于 3T3 和 HEK 293 两个细胞系，未覆盖其他类型的细胞。

• 预测结果依赖于输入分子的表示方式，未来可考虑整合深度学习技术，如图神经网络（GNN）。

未来展望：

扩展数据集，提高模型的泛化能力。
实现更多毒性端点预测，如肝毒性、心脏毒性等。
与药物设计工具集成，提供全流程计算辅助设计方案。

*总结*

Cyto-Safe 是一款基于机器学习的毒性预测工具，结合了高准确性、可解释性和易用性，能够显著加速药物发现中的细胞毒性评估。该工具不仅降低了研发成本，还为药物分子设计提供了重要的指导方向。

工具链接：Cyto-Safe Web App

Reference：

Feitosa, Francisco L., et al. “Cyto-Safe: A Machine Learning Tool for Early Identification of Cytotoxic Compounds in Drug Discovery.” Journal of Chemical Information and Modeling, 2024, https://doi.org/10.1021/acs.jcim.4c01811.

查看全文

http://www.kler.cn/a/451706.html