GenMol:基于SAFE分子表示法的分子生成模型(一)
药物发现(Drug Discovery)领域的一项关键工作,是发现具有特定生化性质的分子。所谓特定生化性质,一般包括无毒性、可合成性、亲和力等等。在药物发现的过程中,往往需要保留某种分子片段或者某种化学结构,用以保留特定的分子性质,因此,药物发现工作很多是在分子片段的基础上进行的。
随着AI算法在各个领域的应用,基于分子片段进行的药物发现近年来也融合了多种AI算法,用以加速、优化耗时费力的药物发现工作。在将AI算法应用于药物发现时,一种思路是采用图的数据结构来表示分子结构,并将图的算法应用于分子结构的搜索、生成等任务中。
另一种思路是将分子结构转换成为字符串,然后使用AI语言模型进行字符串、也就是分子结构的生成、补齐、优化等。将分子结构转换成为字符串,可以采用较为经典的SMILES分子表示法、以及较新的SAFE分子表示法[1]等分子表示方法。
值得关注的是,基于较新的SAFE分子表示法的SAFE-GPT[1]、f-RAG[3]、以及近期发布的GenMol[4]分子生成模型,在药物发现中的分子结构生成方面,已经在性能上超过了很多基于图的算法模型,以及很多基于经典的SMILES分子表示法的算法模型。
接下来,【算AI】小编将围绕经典的SMILES分子表示法的不足、较新的SAFE分子表示法、以及基于SAFE分子表示法的SAFE-GPT、f-RAG和GenMol分子生成模型,逐一简要介绍一下。
经典的SMILES分子表示法之不足
SMILES分子表示法问世于1988年,是应用较广的一种分子表示方法。采用经典的SMILES分子表示法,在从事连接分子片段、扩展及调整分子结构、针对分子进行搜索、匹配分子的亚结构(Substructure)等任务时都不太方便。此外,在结合SMILES分子表示法和AI算法进行分子结构生成时,所生成分子片段的有效性和完整性较难得到保障。出现这些问题的部分原因包括:
- 分子结构中距离较近的原子有可能在SMILES字符串中相距较远;
- 采用SMILES分子表示法进行分子结构生成时,想保持分子结构中的骨架(Scaffold)和亚结构不太容易。
SAFE分子表示法
SAFE分子表示法[1]由加拿大Valence Labs于2023年发布。SAFE分子表示法将分子结构表示为分子片段的无序集合,分子片段之间以“.”符号相连接。下图中展示了一个分子结构及其对应的SAFE分子表示[2]。
SAFE分子表示法的优点包括:
- 将分子表示为一系列相互连接的片段,可以更自然地支持基于分子片段的分子生成任务;
- 采用SAFE分子表示法时,分子片段之间的排列顺序是任意的,便于实现数据增强(Data Augmentation);
- SAFE字符串同时也是有效的SMILES字符串,也可以通过SMILES解析程序进行解析。
SAFE分子表示法的官方github地址是:
https://github.com/datamol-io/safe/。
SAFE分子表示法的官方文档地址是:
https://safe-docs.datamol.io/。
SAFE-GPT
为了验证SAFE分子表示法的有效性,SAFE分子表示法的作者们应用大量的SAFE字符串数据,训练出了一个类似于GPT-2的模型——SAFE-GPT[1]。SAFE-GPT可以完成多种药物发现方面的任务,如下图所示[2]。
SAFE-GPT可以完成的药物发现方面的任务包括:
- De Novo分子生成:即从零开始生成有效(Valid)、唯一(Unique)、多样化(Diverse)的分子结构。测试的结果显示,与基于SMILES、图等其它分子表示方法的模型相比,SAFE-GPT所生成的分子结构具有更好的有效性(Validity)和多样性(Diversity)。
- 基于片段的分子生成:这类任务包括骨架装饰(Scaffold Decoration)、骨架变形(Scaffold Morphing)、连接设计(Linker Design)、Motif延伸(Motif Extension)、超结构生成(Superstructure Generation)等。SAFE-GPT无需对数据的采样、分子结构的表示方法、以及模型的架构及训练进行复杂的改动,就能完成这些任务,并且在所生成分子的有效性、多样性、唯一性、可合成性(Synthetic Accessibility)等方面达到了不错的效果。
- 目标导向的分子生成:SAFE-GPT经过进一步的微调,可以使生成的分子结构具有特定的性质,例如特定的分子量(Molecular Weight)、ClogP(Calculated LogP)、QED(Quantitative Estimate of Drug-likeness)、拓扑极性表面积(Topological Polar Surface Area,简称TPSA)等。
有关SAFE-GPT的训练数据集,可参考:
https://huggingface.co/datasets/datamol-io/safe-gpt。
有关SAFE-GPT的模型,可参考:
https://huggingface.co/datamol-io/safe-gpt。
继续阅读本文的第(二)部分