当前位置: 首页 > article >正文

GenMol:基于SAFE分子表示法的分子生成模型(一)

药物发现(Drug Discovery)领域的一项关键工作,是发现具有特定生化性质的分子。所谓特定生化性质,一般包括无毒性、可合成性、亲和力等等。在药物发现的过程中,往往需要保留某种分子片段或者某种化学结构,用以保留特定的分子性质,因此,药物发现工作很多是在分子片段的基础上进行的。

随着AI算法在各个领域的应用,基于分子片段进行的药物发现近年来也融合了多种AI算法,用以加速、优化耗时费力的药物发现工作。在将AI算法应用于药物发现时,一种思路是采用图的数据结构来表示分子结构,并将图的算法应用于分子结构的搜索、生成等任务中。

另一种思路是将分子结构转换成为字符串,然后使用AI语言模型进行字符串、也就是分子结构的生成、补齐、优化等。将分子结构转换成为字符串,可以采用较为经典的SMILES分子表示法、以及较新的SAFE分子表示法[1]等分子表示方法。

值得关注的是,基于较新的SAFE分子表示法的SAFE-GPT[1]、f-RAG[3]、以及近期发布的GenMol[4]分子生成模型,在药物发现中的分子结构生成方面,已经在性能上超过了很多基于图的算法模型,以及很多基于经典的SMILES分子表示法的算法模型。

接下来,【算AI】小编将围绕经典的SMILES分子表示法的不足、较新的SAFE分子表示法、以及基于SAFE分子表示法的SAFE-GPT、f-RAG和GenMol分子生成模型,逐一简要介绍一下。

经典的SMILES分子表示法之不足

SMILES分子表示法问世于1988年,是应用较广的一种分子表示方法。采用经典的SMILES分子表示法,在从事连接分子片段、扩展及调整分子结构、针对分子进行搜索、匹配分子的亚结构(Substructure)等任务时都不太方便。此外,在结合SMILES分子表示法和AI算法进行分子结构生成时,所生成分子片段的有效性和完整性较难得到保障。出现这些问题的部分原因包括:

  • 分子结构中距离较近的原子有可能在SMILES字符串中相距较远;
  • 采用SMILES分子表示法进行分子结构生成时,想保持分子结构中的骨架(Scaffold)和亚结构不太容易。

SAFE分子表示法

SAFE分子表示法[1]由加拿大Valence Labs于2023年发布。SAFE分子表示法将分子结构表示为分子片段的无序集合,分子片段之间以“.”符号相连接。下图中展示了一个分子结构及其对应的SAFE分子表示[2]。

SAFE分子表示法的优点包括:

  • 将分子表示为一系列相互连接的片段,可以更自然地支持基于分子片段的分子生成任务;
  • 采用SAFE分子表示法时,分子片段之间的排列顺序是任意的,便于实现数据增强(Data Augmentation);
  • SAFE字符串同时也是有效的SMILES字符串,也可以通过SMILES解析程序进行解析。

SAFE分子表示法的官方github地址是:

https://github.com/datamol-io/safe/。

SAFE分子表示法的官方文档地址是:

https://safe-docs.datamol.io/。

SAFE-GPT

为了验证SAFE分子表示法的有效性,SAFE分子表示法的作者们应用大量的SAFE字符串数据,训练出了一个类似于GPT-2的模型——SAFE-GPT[1]。SAFE-GPT可以完成多种药物发现方面的任务,如下图所示[2]。

SAFE-GPT可以完成的药物发现方面的任务包括:

  • De Novo分子生成:即从零开始生成有效(Valid)、唯一(Unique)、多样化(Diverse)的分子结构。测试的结果显示,与基于SMILES、图等其它分子表示方法的模型相比,SAFE-GPT所生成的分子结构具有更好的有效性(Validity)和多样性(Diversity)。
  • 基于片段的分子生成:这类任务包括骨架装饰(Scaffold Decoration)、骨架变形(Scaffold Morphing)、连接设计(Linker Design)、Motif延伸(Motif Extension)、超结构生成(Superstructure Generation)等。SAFE-GPT无需对数据的采样、分子结构的表示方法、以及模型的架构及训练进行复杂的改动,就能完成这些任务,并且在所生成分子的有效性、多样性、唯一性、可合成性(Synthetic Accessibility)等方面达到了不错的效果。
  • 目标导向的分子生成:SAFE-GPT经过进一步的微调,可以使生成的分子结构具有特定的性质,例如特定的分子量(Molecular Weight)、ClogP(Calculated LogP)、QED(Quantitative Estimate of Drug-likeness)、拓扑极性表面积(Topological Polar Surface Area,简称TPSA)等。

有关SAFE-GPT的训练数据集,可参考:

https://huggingface.co/datasets/datamol-io/safe-gpt。

有关SAFE-GPT的模型,可参考:

https://huggingface.co/datamol-io/safe-gpt。

继续阅读本文的第(二)部分


http://www.kler.cn/a/548261.html

相关文章:

  • 【D2】神经网络初步学习
  • Rander压力测试监测,更改服务端资源node
  • 【Maven】多module项目优雅的实现pom依赖管理
  • 盲水印、暗水印(Blind Watermark)算法简明教程:算法原理、流程以及基于C/C++ 的代码实现
  • [原创](Modern C++)现代C++的关键性概念: 文件系统标准库<filesystem>真心好用.
  • Windows 字体导入到 Docker 指定容器
  • tenda路由器WriteFacMac存在远程命令执行漏洞(CVE-2024-10697)
  • 《刚刚问世》系列初窥篇-Java+Playwright自动化测试-20- 操作鼠标拖拽 - 上篇(详细教程)
  • 盛铂科技SLMF215低相位噪声频率综合器:高精度、便携性与国产化的完美结合
  • 中上211硕对嵌入式AI感兴趣,如何有效规划学习路径?
  • ubuntu /dev/ttyUSB1重命名为/dev/ttyUSB0。
  • IntelliJ IDEA 接入 AI 编程助手(Copilot、DeepSeek、GPT-4o Mini)
  • CentOS上安装WordPress
  • JMeter工具介绍、元件和组件的介绍
  • 基于大数据的奥运会获奖数据分析系统设计与实现
  • 前端知识速记--css篇:CSS3中的常见动画及实现方式
  • 《AI大模型开发笔记》deepseek提示词技巧
  • 深入指南:在IDEA中启用和使用DeepSeek
  • vue3大模型流式数据滚动效果hooks
  • Linux udp poll函数