AIDD - 人工智能药物设计 - 用于早期识别细胞毒性化合物的ML工具
JCIM|Cyto-Safe:用于早期识别细胞毒性化合物的ML工具
01
*毒性预测在药物发现中的重要性*
在药物发现和开发的早期阶段,识别具有细胞毒性的化合物至关重要。细胞毒性是导致药物研发失败的关键因素之一,特别是在临床前阶段,许多候选化合物因为毒性问题被迫终止开发。这不仅造成了大量时间和资金的浪费,还增加了药物研发的整体风险。
传统毒性评估的局限:
• 体外实验:尽管细胞活性筛查实验(如MTT法、CellTiter-Glo法)广泛应用,但耗时长、成本高,且依赖实验室资源。
• 动物实验:伦理限制与物种差异导致结果无法完全外推至人体。
• 低通量:无法快速筛选大量化合物,难以满足药物发现早期筛选需求。
因此,计算机辅助毒性预测逐渐成为一种重要工具。尤其是基于机器学习的定量结构-活性关系(QSAR)模型,通过分析大量已知数据,识别分子结构与毒性之间的关系,可以快速、准确地预测新的化合物毒性。
Cyto-Safe 正是在这一背景下提出,旨在通过机器学习工具加速药物早期筛选,降低研发风险。
![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-sdwdbbKV-1735113555810)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
图1:流程示意图
02
*Cyto-Safe工具的开发与核心技术*
Cyto-Safe 是一个基于机器学习的毒性预测工具,专为药物早期发现设计。其开发流程主要包括以下几个步骤:
2.1 数据集的构建与预处理
• 数据来源:
数据主要来自 NCATS数据库,涵盖了两个细胞系(3T3小鼠成纤维细胞和HEK 293人胚肾细胞)的毒性数据。最初包含90,000多个化合物,经过筛选、清洗和去重,最终得到:
- 3T3细胞系:66,620个化合物。
- HEK 293细胞系:64,094个化合物。
• 数据平衡处理:
由于毒性与非毒性样本数量不均衡,Cyto-Safe采用了 NearMiss v3欠采样法,在保持数据多样性的前提下,平衡正负样本的比例。这一处理方式有效提升了模型在少样本情况下的预测性能。
2.2 分子结构表示与特征提取
采用 ECFP4分子指纹(半径2)表示化合物结构,该方法将分子结构转化为计算机可识别的特征向量,有助于模型捕捉分子片段与毒性之间的关系。
2.3 模型构建与训练
• 算法选择:Cyto-Safe使用了 LightGBM(轻量梯度提升机),一种高效的机器学习算法,适合大规模数据集的快速训练和预测。
• 超参数优化:通过贝叶斯优化方法,自动调优模型的超参数,进一步提升模型的性能。
• 训练与验证:数据集分为训练集和测试集,比例为80:20;通过Y-随机化验证,确保模型性能的可靠性,排除过拟合风险。
2.4 模型性能评估
评估指标包括:
• 平衡准确率(BACC):考虑样本不平衡的影响,反映整体预测效果。
• Matthew相关系数(MCC):衡量模型对正负样本的区分能力。
• F1分数:综合考虑模型的精准率和召回率。
结果表明,在1:5欠采样比例下,模型表现最佳,MCC高达 0.86,灵敏度达 83%,实现了对细胞毒性化合物的高准确率识别。
![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-R7jAt53y-1735113555810)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
图2: Cyto-Safe网络应用的一般使用流程、结果及可解释性人工智能(XAI)概述
03
*Cyto-Safe的核心功能与亮点*
Cyto-Safe 的设计突出了用户友好性与高可解释性,主要功能包括:
3.1 用户界面与数据输入
• 支持多种输入格式:包括SMILES字符串、CSV文件和SDF文件。
• 支持批量预测:最多可同时分析10个化合物,生成详细的预测报告。
3.2 解释性分析(Explainable AI)
Cyto-Safe结合了**可解释人工智能(XAI)**技术,直观展示分子结构与毒性预测之间的关系:
通过热力图高亮显示影响毒性的分子片段:
• 红色区域:增加毒性的分子结构。
• 绿色区域:降低毒性的分子结构。
示例验证:
•Doxorubicin(多柔比星):被正确预测为高毒性。
•Ibuprofen(布洛芬):被正确识别为低毒性。
![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=data%3Aimage%2Fsvg%2Bxml%2C%253C%253Fxml%20version%3D’1.0’%20encoding%3D’UTF-8’%253F%253E%253Csvg%20width%3D’1px’%20height%3D’1px’%20viewBox%3D’0%200%201%201’%20version%3D’1.1’%20xmlns%3D’http%3A%2F%2Fwww.w3.org%2F2000%2Fsvg’%20xmlns%3Axlink%3D’http%3A%2F%2Fwww.w3.org%2F1999%2Fxlink’%253E%253Ctitle%253E%253C%2Ftitle%253E%253Cg%20stroke%3D’none’%20stroke-width%3D’1’%20fill%3D’none’%20fill-rule%3D’evenodd’%20fill-opacity%3D’0’%253E%253Cg%20transform%3D’translate(-249.000000%2C%20-126.000000&pos_id=img-CJZJfgNA-1735113555810)’ fill=‘%23FFFFFF’%3E%3Crect x=‘249’ y=‘126’ width=‘1’ height=‘1’%3E%3C/rect%3E%3C/g%3E%3C/g%3E%3C/svg%3E)
图3: 对多柔比星(Doxorubicin)在3T3模型(A)和HEK-293模型(B)上的预测结果,对布洛芬(Ibuprofen)在3T3模型(C)和HEK-293模型(D)上的预测结果
3.3 结果输出与报告生成
预测结果包括:
• 毒性分类(毒性/非毒性)。
• 置信度评分(例如:90%的概率为毒性化合物)。
• 支持结果导出,便于用户进行后续分析。
04
*应用场景与实际价值*
Cyto-Safe 在药物发现流程中具有广泛的应用潜力,主要体现在以下几个方面:
- 虚拟筛选:在药物早期开发阶段,快速筛选潜在毒性化合物,减少实验资源浪费。
- 分子优化:通过解释性分析,识别导致毒性的分子片段,指导化学家进行分子结构优化。
- 减少动物实验:提供基于计算的方法,替代部分体外和体内实验,符合伦理需求。
- 高通量分析:适合大规模化合物库的毒性评估,加速药物筛选进程。
05
*Cyto-Safe与现有工具的对比*
与现有的毒性预测工具相比,Cyto-Safe 具有明显的优势:
- 可解释性强:通过可视化工具,揭示分子结构与毒性之间的关系。
- 操作简便:无需编程背景,适合不同层次的用户。
- 预测准确性高:在高不平衡数据集上仍表现出色。
06
*研究局限性与未来展望*
尽管 Cyto-Safe 在细胞毒性预测中表现优异,但仍存在以下局限性:
• 数据集局限于 3T3 和 HEK 293 两个细胞系,未覆盖其他类型的细胞。
• 预测结果依赖于输入分子的表示方式,未来可考虑整合深度学习技术,如图神经网络(GNN)。
未来展望:
- 扩展数据集,提高模型的泛化能力。
- 实现更多毒性端点预测,如肝毒性、心脏毒性等。
- 与药物设计工具集成,提供全流程计算辅助设计方案。
07
*总结*
Cyto-Safe 是一款基于机器学习的毒性预测工具,结合了高准确性、可解释性和易用性,能够显著加速药物发现中的细胞毒性评估。该工具不仅降低了研发成本,还为药物分子设计提供了重要的指导方向。
工具链接:Cyto-Safe Web App
Reference:
Feitosa, Francisco L., et al. “Cyto-Safe: A Machine Learning Tool for Early Identification of Cytotoxic Compounds in Drug Discovery.” Journal of Chemical Information and Modeling, 2024, https://doi.org/10.1021/acs.jcim.4c01811.