MvMRL:一种用于分子性质预测的多视图分子表示学习方法
有效的分子表示学习对于人工智能驱动的药物设计至关重要,因为它会影响分子性质预测以及其他与分子建模相关任务的准确性和效率。然而,以往的分子表示学习研究往往存在诸多局限,例如过度依赖单一分子表示,无法充分捕获分子结构中的局部和全局信息,以及不能有效地整合来自不同分子表示的多尺度特征。这些局限限制了对分子结构和性质的完整、准确表示,最终影响了分子性质预测的准确性。
- Multi-view learning framework:“多视角学习框架”,意味着从多个不同角度(比如这里的分子不同表示形式角度)去对研究对象(分子)进行特征学习和分析的一种整体架构思路,区别于单一视角看问题,能更全面挖掘信息。
- Multi-scale CNN-SE:“多尺度卷积神经网络 - 挤压与激励”,是一种结合了多尺度卷积操作以及挤压与激励机制的网络结构,多尺度卷积可以捕捉不同范围的特征,SE 模块能对特征通道进行权重调整,增强重要特征的影响力,在图像处理、自然语言处理等领域应用广泛,这里用于学习分子的 SMILES 特征。
- Squeeze-and-excitation (SE) block:“挤压与激励模块”,是一种在神经网络中用于对特征进行重新加权,让网络更关注重要特征的结构模块,它先通过 “挤压” 操作对特征做全局信息统计,再通过 “激励” 操作基于统计信息生成权重去调整原始特征,从而达到自适应关注关键特征的效果。
- Local receptive field:“局部感受野”,在卷积神经网络语境下,指卷积核在输入数据(比如图像的像素区域、文本的字符序列等)上每次覆盖的局部范围,卷积操作基于这个局部范围来提取特征,它决定了网络能直接捕捉到的局部特征情况,但也限制了对长距离、全局特征的获取能力。
a部分
- Input(输入)
- 输入为 SMILES(Simplified Molecular Input Line Entry System,简化分子线性输入规范)字符串,例如 “O (C (=O) c1ccccc1) c2ccccc2”。
- Multi - view Feature Learning(多视角特征学习)
- 分子指纹(Molecular Fingerprint):
- 包含多种分子指纹,如 RDKit、MACCS、PubChem、Pharmacophore,分别具有不同的比特长度(如 RDKit 1024 bits,MACCS 167 bits 等)。
- 分子图(Molecular Graph):
- 通过 RDKit 构建分子图。
- 多尺度 CNN - SE 块(Multiscale CNN - SE Block):
- 具有不同卷积核大小(Kernel = 2, 4, 8)的卷积神经网络 - 挤压与激励(CNN - SE)块,用于处理 SMILES 序列。
- 分子指纹(Molecular Fingerprint):
- Multi - view Feature Fusion(多视角特征融合)
- 多层感知机(MLP):
- 用于处理分子指纹特征。
- 双交叉注意力组件(Dual Cross - attention Component):
- 用于融合不同视角的特征,包含三个视图(View 1、View 2、View 3)的特征融合。
- 多层感知机(MLP):
- Prediction(预测)
- 通过前馈神经网络(FFN)预测分子的溶解性(Solubility Lipophilicity)
B部分
- 嵌入(Embedding)
- 使用卷积神经网络(CNN)层进行嵌入操作,包括 Conv1d(一维卷积)、ReLU(修正线性单元)、Conv1d、Sigmod(Sigmoid 函数)操作。
- 通过图读出(Graph Readout)操作得到最终的嵌入表示。
C 部分
- 分子图(Molecule Graph)
- 使用多尺度 GNN 编码器(Multiscale GNN Encoder)处理分子图。
- 包含多个多尺度块(Multiscale Block)和过渡层(Transition Layer)。
D 部分
- 多尺度块(Multiscale Block)
- 详细展示了多尺度块的结构,包括图卷积网络(GCN)操作。
E 部分
- 双交叉注意力块(Cross - attention Block)
- 详细展示了双交叉注意力块的结构。
- 使用连接(Concatenate)、全局平均池化(Global Average Pooling)和哈达玛积(Hadamard Product)操作来融合特征。
. SMILES 序列的嵌入
- 字符编码:为了让卷积神经网络(CNNs)能够学习 SMILES 序列的特征,首先构建字典,将 SMILES 序列中的每个字符编码为一个标记(token)。例如,对于丙二醇(Propylene glycol)的 SMILES 序列 “CC (O) CO”,基于字典 {“(’:1, ‘)”: 32, “C”:43, “O”:49},可以将其编码为向量 Vec = [43, 43, 1, 49, 32, 43, 49]。
- 生成嵌入向量:序列中的每个标记通过 SMILES 嵌入层进行编码,生成嵌入向量。
- 生成嵌入矩阵:所有嵌入向量合并成一个嵌入矩阵,作为多尺度 CNN - SE SMILES 学习组件的输入。
为了评估我们的 MvMRL 方法的预测能力,我们在 11 个基准数据集上进行实验,其中包括 8 个分类数据集和 3 个回归数据集。在这些基准数据集中,有 8 个来自 MoleculeNet [32] 的数据集,其中包括用于分类任务的 BBBP、BACE、ClinTox、Tox21 和 Sider 数据集,以及用于回归任务的 FreeSolv、ESOL 和 Lipo 数据集。此外,还有来自 CHEMBL [21] 的三个小规模数据集,包括 DHFR、IGF1R 和 AHR,用于评估模型在小样本数据上的分类性能。表 1 总结了实验中使用的数据集的统计信息。每个数据集的详细信息如下:
- BBBP 包含标记为血脑屏障可渗透或不可渗透的化合物。
- BACE 包含一组人类 β - 分泌酶 1 抑制剂的定性结合结果,它提供了分子与其相应生物活性信息之间的相关性。
- ClinTox 包含美国食品药品监督管理局(FDA)批准的药物以及因毒性原因临床试验失败的药物。
- Tox21 包含大量与药物毒性相关的 12 种不同靶点的实验化合物。
- Sider 包含标记有副作用的药物,这些药物被分为 27 个系统器官类别。
- FreeSolv 包含具有对数溶解度值的化合物。
- ESOL 包含具有水溶性值的化合物。
- Lipo 包含具有辛醇 / 水分配系数值的化合物。
- DHFR、IGF1R 和 AHR 是三个与生物相关的小型数据集,分子数量在 124 到 165 之间,数据均匀分布且数据标签平衡。