当前位置：首页 > article >正文

GenMol：基于SAFE分子表示法的分子生成模型（一）

article 2025/2/23 4:34:15

药物发现（Drug Discovery）领域的一项关键工作，是发现具有特定生化性质的分子。所谓特定生化性质，一般包括无毒性、可合成性、亲和力等等。在药物发现的过程中，往往需要保留某种分子片段或者某种化学结构，用以保留特定的分子性质，因此，药物发现工作很多是在分子片段的基础上进行的。

随着AI算法在各个领域的应用，基于分子片段进行的药物发现近年来也融合了多种AI算法，用以加速、优化耗时费力的药物发现工作。在将AI算法应用于药物发现时，一种思路是采用图的数据结构来表示分子结构，并将图的算法应用于分子结构的搜索、生成等任务中。

另一种思路是将分子结构转换成为字符串，然后使用AI语言模型进行字符串、也就是分子结构的生成、补齐、优化等。将分子结构转换成为字符串，可以采用较为经典的SMILES分子表示法、以及较新的SAFE分子表示法[1]等分子表示方法。

值得关注的是，基于较新的SAFE分子表示法的SAFE-GPT[1]、f-RAG[3]、以及近期发布的GenMol[4]分子生成模型，在药物发现中的分子结构生成方面，已经在性能上超过了很多基于图的算法模型，以及很多基于经典的SMILES分子表示法的算法模型。

接下来，【算AI】小编将围绕经典的SMILES分子表示法的不足、较新的SAFE分子表示法、以及基于SAFE分子表示法的SAFE-GPT、f-RAG和GenMol分子生成模型，逐一简要介绍一下。

经典的SMILES分子表示法之不足

SMILES分子表示法问世于1988年，是应用较广的一种分子表示方法。采用经典的SMILES分子表示法，在从事连接分子片段、扩展及调整分子结构、针对分子进行搜索、匹配分子的亚结构（Substructure）等任务时都不太方便。此外，在结合SMILES分子表示法和AI算法进行分子结构生成时，所生成分子片段的有效性和完整性较难得到保障。出现这些问题的部分原因包括：

分子结构中距离较近的原子有可能在SMILES字符串中相距较远；
采用SMILES分子表示法进行分子结构生成时，想保持分子结构中的骨架（Scaffold）和亚结构不太容易。

SAFE分子表示法

SAFE分子表示法[1]由加拿大Valence Labs于2023年发布。SAFE分子表示法将分子结构表示为分子片段的无序集合，分子片段之间以“.”符号相连接。下图中展示了一个分子结构及其对应的SAFE分子表示[2]。

SAFE分子表示法的优点包括：

将分子表示为一系列相互连接的片段，可以更自然地支持基于分子片段的分子生成任务；
采用SAFE分子表示法时，分子片段之间的排列顺序是任意的，便于实现数据增强（Data Augmentation）；
SAFE字符串同时也是有效的SMILES字符串，也可以通过SMILES解析程序进行解析。

SAFE分子表示法的官方github地址是：

https://github.com/datamol-io/safe/。

SAFE分子表示法的官方文档地址是：

https://safe-docs.datamol.io/。

SAFE-GPT

为了验证SAFE分子表示法的有效性，SAFE分子表示法的作者们应用大量的SAFE字符串数据，训练出了一个类似于GPT-2的模型——SAFE-GPT[1]。SAFE-GPT可以完成多种药物发现方面的任务，如下图所示[2]。

SAFE-GPT可以完成的药物发现方面的任务包括：

De Novo分子生成：即从零开始生成有效（Valid）、唯一（Unique）、多样化（Diverse）的分子结构。测试的结果显示，与基于SMILES、图等其它分子表示方法的模型相比，SAFE-GPT所生成的分子结构具有更好的有效性（Validity）和多样性（Diversity）。
基于片段的分子生成：这类任务包括骨架装饰（Scaffold Decoration）、骨架变形（Scaffold Morphing）、连接设计（Linker Design）、Motif延伸（Motif Extension）、超结构生成（Superstructure Generation）等。SAFE-GPT无需对数据的采样、分子结构的表示方法、以及模型的架构及训练进行复杂的改动，就能完成这些任务，并且在所生成分子的有效性、多样性、唯一性、可合成性（Synthetic Accessibility）等方面达到了不错的效果。
目标导向的分子生成：SAFE-GPT经过进一步的微调，可以使生成的分子结构具有特定的性质，例如特定的分子量（Molecular Weight）、ClogP（Calculated LogP）、QED（Quantitative Estimate of Drug-likeness）、拓扑极性表面积（Topological Polar Surface Area，简称TPSA）等。

有关SAFE-GPT的训练数据集，可参考：

https://huggingface.co/datasets/datamol-io/safe-gpt。

有关SAFE-GPT的模型，可参考：

https://huggingface.co/datamol-io/safe-gpt。

继续阅读本文的第（二）部分

查看全文

http://www.kler.cn/a/548261.html