scPair:隐式特征选择提高single-cell paired多模态分析
配对多模态单细胞分析可在同一细胞中分析多模态特征,用于识别染色质和 mRNA 模态互补的细胞状态以及将调控元件与靶基因联系起来。然而,与单模态分析相比,输入特征的高维度和较浅的测序深度给数据分析带来了挑战。在这里,作者介绍了 scPair,这是一个多模态框架,并采用隐式特征选择。scPair 使用配对数据进行训练,双编码器-解码器结构可以跨模态对齐细胞状态并预测从一种模态到另一种模态的特征。作者证明 scPair 在准确性和执行时间方面优于现有方法,并促进了轨迹推断等下游任务。进一步实验表明 scPair 还可以用更大的单模态图谱来增强较小的多模态数据集,以提高统计能力。
来自:scPair: Boosting single cell multimodal analysis by leveraging implicit feature selection and single cell atlases, Nature Communications, 2024
目录
- 背景概述
- scPair概述
背景概述
单细胞分析已经开发出来用于捕获基因组调控的各个方面,包括基因表达、染色质可及性和甲基化等。目前捕获单一数据类型的单模态分析已广泛应用于各种组织和物种,以对细胞类型进行分类,以及识别在发育轨迹上特定步骤中激活的基因组特征,进一步推断基因相互作用、开放染色质区域或甲基化位点调控网络。总之,单细胞数据分析的一个常见步骤是细胞状态推断:推断单细胞数据模态的低维表示,随后用于二维数据可视化、聚类以识别离散细胞类型,利用embedding做轨迹推断。
最近,已经开发出可以分析来自同一细胞的两种或多种模态的多模态分析。包括不同的测量技术,例如,Paired-seq、SHARE-seq、SNARE-seq 和 10X-Multiome 可同时分析 RNA 和染色质区域,Patch-seq 可联合测量单个神经元的细胞成像、膜片钳电生理学和 RNA 测序。配对多模态分析可用于建立数据模态之间的联合模式,例如识别与基因表达模式相关的染色质区域,这反过来又表明了活性调控元件的位置。更广泛地说,配对多模态分析有助于生成来自不同模态的细胞状态空间之间的映射,这有助于建立细胞状态的整体视图。例如,仅使用 scRNA-seq 研究来识别细胞状态具有挑战性,部分原因是选择细胞簇的数量是一个隐式或显式定义的参数。最近用于哺乳动物神经元的 Patch-seq 表明,一些转录上接近的细胞簇,在电生理反应模式上具有差异,这表明使用次要数据模态可以帮助确定两个细胞簇是否应被视为不同。
有几种计算方法可用于映射由不同单细胞数据模态定义的细胞状态。然而,这些方法有两个关键的局限性。首先,这些方法都采用特征选择作为初始预处理步骤,该步骤针对每个数据模态独立执行,并且通常仅基于特征方差。因此,它们没有考虑所选特征是否与其他数据模态的任何特征广泛相关。为一种数据模态选择与另一种模态的特征不相关的特征越多,细胞状态映射性能就越差。其次,一些流行的计算多模态方法依赖于多模态数据集来定义具有匹配特征的映射。与相同细胞群的单模态数据集相比,多模态数据集通常表现出较浅的有效测序深度和较低的吞吐量,这导致在不同数据模态之间映射细胞状态的统计能力降低。
这里作者介绍了 scPair,一个用于单细胞多模态数据分析的深度学习框架。scPair 执行自动隐式特征选择,以推断每个数据模态的特征子集,从而产生数据模态之间细胞状态的最佳映射。scPair 训练程序还通过使用以更高有效深度排序的单模态数据来学习每个数据模态中的稳健协方差结构,解决了配对多模态数据集测序深度低的挑战。作者证明 scPair 的这两个特性使其能够在多模态数据分析任务(例如细胞状态映射和特征预测)上胜过现有方法。
scPair概述
scPair 是一个监督学习框架,它利用单细胞多模态数据集实现:
- (1) 通过降维推断每种数据模态中的细胞状态,
- (2) 推断跨模态细胞状态之间的映射,
- (3) 给定一模态的数据,预测另一种模态的特征和细胞状态。
scPair 由一对前馈网络 (FFN) 组成,它们分别接受一种模态的特征作为输入,并预测另一种数据模态的特征作为输出 (图 1a)。每个 FFN 的最后一层对我们所说的细胞状态空间进行编码,表示对另一种数据模态特征最具预测性的输入特征的非线性组合。
- 图1a:scPair 使用双前馈神经网络来预测每种模态与另一种模态之间的差异。每个网络的最后一个隐藏层编码特定于模态的细胞状态空间,双向网络学习特定于模态的状态空间之间的映射。
- 图1b:使用 UMAP 来可视化 scPair 学习到的特定于模态的细胞状态空间。线连接同一细胞的特定于模态的状态。
- 图1c:scPair 训练的双向图的可视化。给定一个多模态单细胞样本,scPair 的评估部分基于它预测真实ATAC 细胞状态的能力,仅给定 RNA 谱来预测细胞的 ATAC 状态。线将每个细胞的预测 ATAC 细胞状态与其ground truth ATAC 细胞状态连接起来。
- 图1d:与图1c相同,但可视化ground truth RNA 细胞状态和从 ATAC 预测的 RNA 状态。
scPair 的细胞状态空间与其他方法的潜在空间的区别在于:它是通过隐式选择输入特征子集(从整个集合中)来计算的,这些子集可以最大限度地预测其他数据模态。相比之下,其他方法依赖于初始特征选择步骤,该步骤会在分析之前删除高达 90% 的 RNA 输入特征或 75% 的 ATAC 输入特征,并且通常针对每个数据模态独立执行。这既增加了删除对其他数据模态有用的特征的机会,也增加了包含与映射到其他数据模态无关的特征的机会。
对于 scPair,我们将所有特征输入 scPair 框架,并允许 scPair 在训练期间自动识别可用于映射到其他数据模态的特征。例如,在图 1a 中的 RNA FFN 中,RNA 细胞状态层是低维表示,这些表示可以预测许多 ATAC 特征(因此更有可能映射到 ATAC 细胞状态空间)。这产生了 scPair 的属性,我们称之为隐式特征选择:当 scPair 被训练为仅基于 RNA 特征预测所有 ATAC 特征时,特征选择由 scPair 隐式执行。两个细胞状态层通过双向前馈网络直接连接,用作细胞状态映射函数(图 1)。
在 scPair 的训练过程中,首先通过训练两个 FFN 来预测一种数据模态的特征与另一种数据模态的特征,从而分别优化 FFN 对的参数。然后,更新连接编码 FFN 的细胞状态层的双向映射网络的参数,以最大限度地提高根据另一种模态定义的细胞状态预测一种模态的细胞状态的准确性(图1)。