论文阅读:SIMBA: single-cell embedding along with features
Chen, H., Ryu, J., Vinyard, M.E. et al. SIMBA: single-cell embedding along with features. Nat Methods 21, 1003–1013 (2024).
论文地址:https://doi.org/10.1038/s41592-023-01899-8
代码地址:https://github.com/pinellolab/simba.
摘要
大多数当前的单细胞分析流程仅限于细胞嵌入,并且严重依赖于聚类,同时缺乏明确建模不同特征类型之间相互作用的能力。此外,这些方法针对特定任务进行了定制,因为不同的单细胞问题的形式化方法各不相同。为了解决这些缺点,我们在此提出了SIMBA,一种图嵌入方法,将单细胞及其定义特征(如基因、染色质可接近区域和DNA序列)共同嵌入到一个共同的潜在空间中。通过利用细胞与特征的共同嵌入,SIMBA能够研究细胞异质性、无聚类标记物发现、基因调控推断、批次效应去除以及组学数据整合。我们展示了SIMBA提供了一个单一的框架,使得可以统一形式化不同的单细胞问题,从而简化新分析的开发和对新的单细胞模式的扩展。SIMBA被实现为一个完整的Python库(https://simba-bio.readthedocs.io)。
引言
最近,单细胞组学技术的进步使得对细胞测量的单独和联合分析成为可能。单细胞多组学技术的出现使得多层细胞测量成为可能,包括基因组学、表观基因组学、转录组学和蛋白质组学。这类实验显著增强了我们对细胞状态及其在发育和疾病中的分子机制的理解。尽管这些技术具有潜力,但在充分利用其能力方面仍存在计算挑战。许多单细胞计算方法已被开发用于分析单一模态(例如,单细胞RNA测序(scRNA-seq)或单细胞转座酶可接近染色质测序(scATAC-seq))。这些方法的共同点是包含一些常规步骤的工作流程,如特征选择、降维、聚类和差异特征检测。这些“聚类中心”分析方法依赖于准确定义的聚类解决方案来发现有意义的标记特征。然而,在用户定义的聚类分辨率(聚类数量)和选择的聚类算法范围内,聚类解决方案可能变化很大,从而导致生物注释的不一致和不准确。尽管最近已经开始尝试开发无聚类方法来发现信息基因,但这些方法专门用于从scRNA-seq数据中提取基因特征或识别实验条件之间的扰动,因此仅限于单一模态和单一任务分析。
也有一些计算方法被提出用于多批次和跨模态分析,例如多模态分析(在同一细胞中测量不同的细胞参数)、批次校正(在不同批次中测量相同的细胞参数)和多组学数据集的整合(在不同细胞中测量不同的细胞参数)。然而,由于任务形式化的不同,这些任务需要开发新的方法。此外,大多数现有方法无法直接利用多个细胞特征之间的关系。此外,这些用于识别标记特征的方法依赖于聚类,因此局限于聚类解决方案。此外,当前最先进的批次校正和多组学整合方法并不是直接在集成空间中识别标记特征,而是需要先在每个批次或模态的未校正或未整合的原始空间中检测标记特征,然后再将它们组合,这可能导致批次或模态之间的解释不一致。
为克服这些限制,我们提出了SIMBA(单细胞嵌入及特征),这是一种多功能的单细胞嵌入方法,将细胞及其特征(如基因、峰和DNA序列)共同嵌入到一个共同的潜在空间中,从而以统一的方式执行多种任务。不同于现有需要对细胞进行特征化的方法,SIMBA直接将细胞-特征或特征-特征关系编码到一个大型多关系(或异构,即多种节点和边类型)图中。对于每个任务,SIMBA构建一个图,其中不同的实体(即细胞和特征)表示为节点,实体之间的关系编码为边。图构建完成后,SIMBA应用一种源于社交网络技术的多关系图嵌入算法,并使用基于Softmax的变换将节点或实体嵌入到一个共同的低维空间,在此空间中可以基于距离分析细胞和特征。因此,包含细胞和所有特征的SIMBA嵌入空间可以被视为一个信息丰富的实体数据库。根据任务的不同,可以通过考虑单个细胞或特征的邻近实体在“SIMBA数据库”上定义生物学查询。例如,查询一个细胞的邻近特征可以用于识别标记特征(例如,标记基因或峰)或研究特征之间的相互作用(例如,峰-基因),而查询特征的邻近细胞可以用于注释细胞。这与最近提出的单细胞嵌入方法根本不同。
SIMBA能够在一个统一框架中解决各种单细胞任务,包括:(1) 降维;(2) 无聚类标记检测;(3) 多模态分析;以及(4) 批次校正和组学整合。通过简单修改从单细胞数据构建的输入图,SIMBA可适应这些不同任务。SIMBA在多个scRNA-seq、scATAC-seq和双组学数据集上进行了广泛测试,表现优于或与当前为每项任务专门开发的最先进方法相当。
重要的是,我们开发了一个可扩展且全面的Python软件包,使图构建、PyTorch用于图嵌入的训练和训练后分析之间实现无缝交互。SIMBA是一个独立的框架,但也兼容流行的单细胞分析工具,如Scanpy。详细的文档和教程可在https://simba-bio.readthedocs.io获得。
结论
SIMBA整体概述
SIMBA是一种支持单模态或多模态分析的单细胞嵌入方法。它利用了最新的图嵌入技术,将细胞和基因组特征嵌入到一个共享的潜在空间中。与现有主要专注于学习细胞状态的方法不同,SIMBA将细胞和特征都视为同一图中的节点,从而通过统一的流程解决各种单细胞任务。值得注意的是,SIMBA引入了几项关键程序,包括Softmax转换、用于控制过拟合的权重衰减和实体类型约束,以生成细胞和特征的可比嵌入(共嵌入),从而应对单细胞数据中的独特挑战。
首先,SIMBA将不同类型的实体(如细胞、基因、开放染色质区域(峰或片段)、转录因子(TF)基序和k-mer(特定长度的短序列))编码到单个图中(图1及方法),每个节点代表一个个体实体,边表示实体之间的关系。在SIMBA中,边的添加有两种方式:(1)实验测量的边,或(2)计算推断的边。对于实验测量的边,每个细胞-特征边对应于单细胞测量。例如,如果一个基因在某个细胞中表达,就在该基因与细胞之间创建一条边。该边的权重由基因表达水平决定。类似地,如果一个染色质区域在该细胞中是开放的,则在该细胞和染色质区域之间添加一条边。还允许在不同特征之间添加边,以捕获和建模潜在的调控机制。例如,染色质区域和TF基序(或k-mer)之间的边表示TF可能结合到包含特定DNA序列的调控区域。无法直接测量的边则通过对同类或不同类特征进行总结来进行计算推断(方法部分)。不同批次或模态的细胞之间的每条边表示细胞在功能或结构上的相似性。图1总结了本研究中分析所表示的潜在关系和语义,即:(细胞-基因),细胞表达特定基因;(细胞-峰),细胞中存在可访问的染色质区域;(峰-TF基序),峰序列包含给定TF的假定结合位点;(峰-k-mer),峰序列包含特定k-mer序列;(细胞-细胞),不同批次或模态的细胞在功能或结构上相似。
在构建输入图后,SIMBA使用无监督图嵌入方法计算图节点的低维表示,利用可扩展至数百万个细胞的PyTorch-BigGraph框架。结果的细胞和特征的联合嵌入不仅重构了细胞的异质性,还能在不依赖聚类的情况下发现每个细胞的决定性特征,区分细胞类型特异性的(信息性)特征与非细胞类型特异性的(非信息性)特征。SIMBA嵌入中的接近度反映了边的概率,即图中边存在的可能性,对特征的重要性或特征间的相互作用具有信息性(方法部分)。细胞类型特异性特征(如标志基因和顺式调控元件)可以通过两种方式在不进行聚类的情况下发现。如果已知细胞标签,可以通过生物查询识别细胞邻近的特征作为标志特征(方法部分)。如果标签未知,则可以通过使用Gini指数等度量指标计算特征与所有细胞之间边概率的不平衡来识别标志特征(方法部分)。
重要的是,图的构建本质上具有灵活性,使SIMBA能够应用于多种单细胞任务。在接下来的章节中,我们展示了SIMBA在多个流行单细胞任务中的应用,包括scRNA-seq、scATAC-seq、多模态分析、批次校正和多组学集成(图1)。
单细胞RNA测序分析与SIMBA----(单组学的实验)
scRNA-seq(单细胞RNA测序)是用于单细胞分析中最广泛使用的方法。图2a展示了SIMBA图构建的示意图及在scRNA-seq分析中生成的细胞和基因的低维嵌入矩阵。SIMBA将标准化后的基因表达矩阵离散化为多个级别(默认是五级)。然后,通过基于基因表达水平的加权边,将细胞和基因连接,构建输入图。接着,SIMBA通过图嵌入过程生成这些节点的嵌入(见图2a和方法部分)。根据任务需要,我们可以灵活地使用UMAP可视化整个SIMBA嵌入(包括细胞和所有基因的嵌入,见补充图1c)或部分SIMBA嵌入(如图2b中的细胞嵌入,图2c中的细胞和可变基因嵌入,或任何感兴趣实体的嵌入)。
我们将SIMBA应用于10x Genomics的一个常用外周血单个核细胞(PBMCs)数据集(补充表2)。细胞的SIMBA嵌入清晰区分出八种细胞类型,包括B细胞、巨核细胞、CD14单核细胞、FCGR3A单核细胞、树突状细胞、NK细胞、CD4 T细胞和CD8 T细胞(图2b)。细胞和基因的SIMBA嵌入准确地恢复了细胞异质性,并将相关基因嵌入到对应的细胞类型附近(图2c)。之前用于标注细胞的标记基因在UMAP图上得到了突出显示,显示出SIMBA不仅准确地将主要细胞群体特异性的基因嵌入正确位置(例如,IL7R嵌入到CD4 T细胞,MS4A1嵌入到B细胞),还对稀有细胞群体特异性基因具有鲁棒性(如PPBP嵌入到巨核细胞),而非信息性家居基因如GAPDH和B2M嵌入到所有细胞群体的中间位置(图2c和补充图1c)。
这些高亮基因可以通过“条形图”进一步确认,该图可视化了SIMBA根据恢复的边缘置信度估算的将某一特征分配给某一细胞的概率(图2d、补充图1d和方法部分)。概率不均衡表明基因与细胞亚群(通常对应已知的细胞类型)相关,而概率分布均匀则表示该基因不特异于某一细胞类型。对于标记基因(如单核细胞和树突状细胞的CST3,B细胞的MS4A1,以及NK和CD8 T细胞的NGK7),我们观察到将每个基因分配给其相应细胞类型的概率明显偏高。而对于家居基因GAPDH,我们观察到更均匀的分布,且分配该基因至顶级细胞的概率较低。
SIMBA还提供了一些定量指标(称为“SIMBA指标”),包括最大值、基尼指数、标准差(s.d.)和熵,用于在不需要预定义细胞类型等先验知识的情况下评估不同特征的细胞类型特异性(见方法和补充图1b、3a)。通过检查基因指标图中最大值与基尼指数(数值越高表示细胞类型特异性越高),我们发现标记基因(如CST3、NKG7、MS4A1)位于右上角,而家居基因(如GAPDH)位于左下角(图2e)。选择的标记基因的细胞类型特异性通过在UMAP图上可视化其表达模式、SIMBA条形图(图2f和补充图1d、2)以及定量验证(补充注释2和补充图5a)得到进一步确认。SIMBA指标不仅按细胞类型特异性对特征进行排序,还过滤掉非信息性特征,以简化细胞和信息性特征嵌入的可视化,避免SIMBA空间被非信息性特征占据。
我们展示了SIMBA不需要可变基因选择,这在标准的scRNA-seq流程中(如Seurat或Scanpy)是一个必要步骤。在有无可变基因选择的情况下进行测试时,SIMBA生成了质量相似的嵌入(图2b和补充图4e)。但我们确实观察到可变基因选择提高了训练过程的效率。我们还将SIMBA与依赖聚类的方法和无聚类方法在标记基因检测方面进行了比较(补充注释3和补充图4、6)。此外,还将SIMBA软件的计算复杂度与Scanpy和Seurat进行了基准测试(补充注释4)。
单细胞 ATAC-seq 分析与 SIMBA----(单组学的实验)
单细胞 ATAC-seq 广泛用于分析开放染色质区域并识别功能性顺式调控元件,如增强子和顺式调控元素,包括转录因子(TF)基序或 k-mer。与只能使用 peaks(峰)或 bins(区间)或 DNA 序列的现有方法不同,SIMBA 可以利用单一或多种类型的特征来学习细胞状态,得益于其在图结构构建中的灵活性。此外,由于 SIMBA 根据特征的简单二进制存在来对细胞-特征或特征-特征关系进行编码,它不需要大多数 scATAC-seq 分析中要求的额外标准化步骤,如词频-逆文档频率(TF-IDF)(图 3a)。在嵌入过程中,SIMBA 生成包含细胞以及 peaks 和 DNA 序列的嵌入(方法部分)。最终,部分 SIMBA 嵌入(如图 3b 中的细胞嵌入)或完整的 SIMBA 嵌入(如图 3c 中的细胞及所有特征的嵌入)都可以进行可视化。
我们将 SIMBA 应用于一个包含 2,034 个已通过荧光激活细胞分选(FACS)标记的细胞类型的人类造血细胞的 scATAC-seq 数据集(补充表 2)。如图 3b 所示,仅针对细胞的嵌入,SIMBA 准确区分了不同细胞类型,使其在图上清晰可见。对于细胞及各种类型特征的联合嵌入(图 3c),SIMBA 能够基于生物学关系,将基于位置(peaks/bins)和序列内容(TF 基序和 k-mer)的不同特征一起嵌入。值得注意的是,这些嵌入在每种细胞类型中的特征均在 SIMBA 指标图的右上角展示了较高的细胞类型特异性分数(图 3d 及补充图 3b)。
我们使用 SIMBA 进行的分析揭示了人类造血分化中的几个关键发现。
首先,SIMBA 确定了造血的关键主调节因子。如图 3c 所示,我们观察到之前报道的 TF 基序在 UMAP 图中嵌入其各自的细胞类型附近。例如,GATA1 和 GATA3 基序位于巨核-红系祖细胞(MEP)细胞附近,PAX5 和 EBF1 基序在共同淋巴祖细胞(CLP)细胞附近,CEBPB 和 CEBPD 基序在单核细胞群(mono)附近。
其次,SIMBA 揭示了一组无偏 DNA 序列,即 k-mer,它们代表了参与造血过程的重要 TF 结合基序。我们观察到这些 k-mer 嵌入在其匹配的 TF 结合基序和相关的细胞亚群附近(图 3c、e,补充图 7b 和补充说明 5),表明 SIMBA 具有从头基序发现的能力。例如,DNA 序列 GATAAG 嵌入在 MEP 中,与造血中主调节因子 GATA1 的结合基序匹配。我们还计算了 TF/k-mer 活性分数(高方差 TF 基序/k-mer),并在 SIMBA 细胞嵌入图上进行了可视化(图 3f 和补充图 7a、b)。例如,嵌入在 MEP 细胞中的 GATA1 TF 基序和 k-mer GATAAG 在 MEP 细胞中也表现出高活性。
第三,SIMBA 识别出可能介导细胞类型特异性基因调控的不同染色质开放区域(补充图 7c)。例如,KLF1 基因基因组位点 chr19:12997999-12998154(P1)和 chr19:12998329-12998592(P2)附近的两个 peaks 嵌入在 MEP 细胞中,几乎仅在 MEP 细胞中观察到(图 3e)。有趣的是,P1 位于 KLF1 上游,包含匹配 GATA1 结合基序的 k-mer GATAAG,而已知 TF GATA1 调控 KLF1 基因,并在红系细胞和巨核细胞发育中起关键作用。因此,将这些与 MEP 细胞相关的调控元素嵌入到 MEP 细胞的邻域中,SIMBA 展示了一种研究细胞分化表观遗传景观的新方法。
尽管 SIMBA 在启用细胞和特征共同嵌入方面与当前的 scATAC-seq 分析方法有所不同,但我们仍然通过其区分细胞类型的能力,定性和定量地将 SIMBA 细胞嵌入与最先进的 scATAC-seq 分析方法进行了比较。我们的分析显示,SIMBA 总体上优于当前的 scATAC-seq 分析方法,进一步证明了 SIMBA 的广泛实用性(补充图 10 和补充说明 5)。我们还展示了在将序列作为附加特征加入后,SIMBA 生成的细胞嵌入几乎没有受到影响(补充图 9 和 27 及补充说明 5)。
使用 SIMBA 进行单细胞多模态分析
最近开发的单细胞双组学技术能够在相同细胞中联合分析转录组和染色质可接近性,为探索基因调控原理提供了手段。SIMBA 能够从单细胞多组学数据中学习细胞异质性和基因调控回路。图 4a 展示了图构建和 SIMBA 嵌入过程。基因表达矩阵和染色质可接近性(峰)、TF 模体和 k-mer 匹配矩阵分别被离散化和二值化,通过在包括细胞、基因、峰、TF 模体和 k-mer 在内的五种实体(节点)类型之间创建边来构建图。图嵌入过程生成细胞和特征的 SIMBA 嵌入。为避免非信息性峰在空间中占主导地位,我们利用 SIMBA 嵌入的灵活性,只可视化部分嵌入,以提高细胞和细胞类型特异性特征的可见性。
为了展示 SIMBA 嵌入的多功能性,我们分析了来自 SHARE-seq 数据集中小鼠皮肤中的毛囊分化细胞群体。首先,我们计算了 SIMBA 指标(最大值和 Gini 指数分数)以评估不同类型特征(如基因、TF 模体和峰)的细胞类型特异性。如图 4b 所示,我们成功恢复了与毛囊相关的基因,如 Lef1 和 Hoxc13。同样,这些基因的基因组位点附近的 TF 模体和峰也在指标图的右上象限中得分。
接下来,我们可视化并分析了 SIMBA 嵌入:(1) 细胞;(2) 基于 SIMBA 指标的细胞和排名靠前的基因;(3) 基于 SIMBA 指标的细胞、排名靠前的基因和 TF 模体及其邻近的峰(图 4c)。细胞的 SIMBA 嵌入揭示了从增殖转移细胞(TACs)向内根鞘(IRS)、髓质和毛皮质及角质层的三种命运决策。细胞和信息性特征的 SIMBA 嵌入揭示了毛囊分化轨迹中的重要基因和调控因子。例如,标志基因 Krt71、Krt31 和 Foxq1 分别嵌入了对应的细胞类型:IRS、角质层/毛皮质和髓质。调控因子 Lef1 和 Hoxc13 分别嵌入了角质层/毛皮质分化的早期和晚期阶段。这些基因和模体附近的峰也嵌入到了它们附近的区域。TF 模体的距离可能表明 TF 表达和其结合活性之间的延迟。例如,先导因子可以结合到不可接近的区域,帮助为其他因子打开这些区域。图 4c 中,Hoxc13 基因出现在其模体之前,这与先前研究显示 Hoxc13 能够结合不可接近模体的结果一致。标志基因和 TF 模体还得到了 UMAP 和 SIMBA 条形码图的支持,高概率对应于正确的细胞类型标签。我们还在 SHARE-seq 数据集中进行了 scRNA-seq 和 scATAC-seq 单一模式分析,结果与多模态分析的一致性证明了 SIMBA 嵌入过程对于输入图中编码的特征类型和数量的鲁棒性。
此外,我们展示了细胞和特征的 SIMBA 共同嵌入空间有潜力识别主调控因子并推断其目标调控基因。SIMBA 成功识别了先前描述的主调控因子,如 Lef1、Gata6、Nfatc1 和 Hoxc13,它们与小鼠皮肤中的谱系承诺有关。此外,SIMBA 还识别了一个之前未报道的主调控因子 Relb 及其在 TAC-2 细胞中的新亚群。为了推断给定主调控因子的目标基因,我们假设在共享的 SIMBA 嵌入空间中:(1) 目标基因接近 TF 模体和 TF 基因;(2) 目标基因位点附近的可接近区域(峰)必须接近 TF 模体和目标 TF 基因。基于这些顺式调控动态的假设,SIMBA 推断了主调控因子的目标基因,如 Lef1 和 Hoxc13。值得注意的是,SIMBA 恢复了原始研究报告中的目标基因,包括受 Lef1 调控的基因 Lef1、Jag1、Hoxc13 和 Gtf2ird1,以及受 Hoxc13 调控的基因 Cybrd1、Hoxc13 和 St14。
除了 SHARE-seq,我们还将 SIMBA 应用于另外两个双组学数据集,包括由 SNARE-seq 描述的小鼠大脑皮层数据集和来自 10x Genomics 的多组学 PBMCs 数据集。通过验证细胞和特征的嵌入以及细胞类型标签、原始研究中的标志基因和差异可接近的染色质区域,我们进一步证明了 SIMBA 在多模态分析中的适用性。
单细胞批次校正使用SIMBA
随着单细胞数据的收集在多个机构中扩展,对能够处理技术协变量的分析方法需求不断增加。批次校正是消除技术变异并保留生物信号的重要步骤。然而,现有方法依赖于聚类,当合并每个批次未经校正空间中的基因时,标记物的检测往往不一致。相比之下,SIMBA能够在无需聚类的情况下生成细胞和基因的嵌入,实现批次效应移除和标记基因检测于一体的空间中。
SIMBA通过将多个scRNA-seq数据集编码到单一图中来完成批次校正(图5a)。跨批次的细胞节点通过实验测量的边与共享基因节点相连,如同scRNA-seq图的构建。批次校正通过使用基于截断随机化奇异值分解(SVD)的程序,在数据集中类似细胞节点间绘制的计算推断边进一步增强。从所得的图中,SIMBA生成批次校正后的细胞和基因嵌入,允许通过在共享潜在空间中对细胞进行生物查询来检测单个细胞水平的标记基因(方法)。我们在UMAP中可视化了SIMBA的细胞嵌入(图5b)和细胞及基因的整体嵌入(图5c)。
我们将SIMBA应用于两个多批次scRNA-seq数据集:由两批次组成的小鼠图谱数据集,以及最近基准研究中使用的包含五批次的人类胰腺数据集28(补充表2)。小鼠图谱数据集包括来自不同测序平台的共享细胞类型的两个scRNA-seq数据集。人类胰腺数据集包含来自五个来源的五个样本,使用四种测序技术,其中并非所有细胞类型都在每个样本中共享。对于这两个数据集,SIMBA成功校正了批次效应,使批次在注释的细胞类型簇内均匀混合,同时在嵌入结果中保持这些簇的分离,表明生物信号得到保留并消除了混杂的技术协变量(图5b和补充图19b)。需要注意的是,小鼠图谱数据集来自九个器官系统,因此细胞类型标签中存在一定的异质性。相比之下,人类胰腺数据集来源于单一器官,SIMBA足够分离细胞类型,使其聚集为转录上不同、同质的细胞簇(图5b)。
SIMBA不仅在图嵌入期间消除批次效应,同时还识别细胞类型特异性标记基因(图5c)。可以通过在批次校正的SIMBA空间中对细胞类型内的邻近基因进行生物查询来识别标记基因(方法)。在细胞标签未知的情况下,可以通过计算SIMBA指标来识别标记基因。SIMBA将已知的细胞类型特异性标记基因正确嵌入到靠近正确细胞类型标签的位置,而非标记基因则不会靠近特定标签的细胞(补充图17和18)。生成的标记基因重现了每个数据集的基于聚类的差异表达(DE)分析结果29–34(例如,小鼠图谱数据集中的内皮细胞标记基因Cdh5、Tie1和Myct1,巨噬细胞标记基因C1qc和Fcgr1,以及中性粒细胞标记基因S100a8和Trem3;人类胰腺数据集中的α细胞标记基因KIF12和导管细胞标记基因KRT19),并在查询的细胞类型中具有特异性表达(补充图17和18)。
尽管SIMBA是一种多功能图嵌入方法,我们在此任务中将其细胞嵌入与专门为批次校正设计的方法进行了评估。我们考虑了基于最近基准研究28中表现出顶级性能的三种广泛采用的批次校正方法:Seurat3 (参考文献12)、LIGER11和Harmony10。我们的结果表明,SIMBA在批次校正性能上达到了可比的表现,无论是在质量上还是数量上,同时还通过提供基因的额外嵌入,实现了同时进行标记基因检测的功能(补充注释7和补充图19)。
单细胞多组学整合使用SIMBA
如今,单细胞实验能够测量广泛的细胞模式,需要能够利用这些特性并整合多组学数据的方法来全面研究细胞状态。当前的多组学整合方法采用的工作流程类似于批次校正。不像现有的方法,SIMBA可以直接在整合后的SIMBA空间中探索多类型特征,并在无需聚类的情况下检测出不同的标记特征,实现多组学整合和无聚类的标记特征检测,特别是在应用于scRNA-seq和scATAC-seq数据集时。
SIMBA为scRNA-seq和scATAC-seq数据分别构建独立的图,通过基于共享基因表达模块的计算推断边将它们连接起来,并将细胞、基因和峰的图嵌入到低维空间中,以代表多个模式的整合空间(图6a和方法)。这使得通过在SIMBA空间中对细胞进行生物查询,能够在单细胞水平检测多类型特征的标记。可以使用UMAP对这些多组学实体的嵌入进行部分或整体可视化。
为了促进数据整合性能的评估,我们通过手动将双组学数据集拆分为两个单一模式数据集(即scRNA-seq和scATAC-seq),创建了带有真实标签的数据集,其中我们知道两种模式之间的细胞匹配。随后,我们将SIMBA应用于两个案例研究中的整合分析,其中scRNA-seq和scATAC-seq数据集分别来自SHARE-seq小鼠皮肤数据集和10x Genomics多组学人类PBMCs数据集(补充表2)。
我们首先对SIMBA的细胞嵌入进行可视化,发现SIMBA能够在均匀混合两种模式的同时保留细胞异质性(图6b和补充图21b)。然后,我们对细胞、基因和基于SIMBA指标的高排名峰进行可视化,发现SIMBA不仅学习了细胞异质性,还同时在单细胞分辨率下识别了标记基因和峰(图6c和补充图21)。在共同嵌入空间中,我们观察到细胞的邻近基因(在UMAP图中突出显示)分别在其对应的细胞类型中具有独特的表达(补充图21a–e和22a–c, e)。例如,在SHARE-seq小鼠皮肤数据集中,Foxq1位于髓质中,而Shh位于TAC-2中;在10x PBMCs数据集中,血液单核细胞的标记基因PAPSS2和KCNMA1彼此接近嵌入。同样,我们观察到细胞的邻近峰表现出明确的细胞类型特异性可及性模式,并且对给定细胞类型的簇大小具有鲁棒性(补充图21f和22d)。
SIMBA生成的细胞和特征的联合嵌入与其他多组学整合方法有根本区别。然而,我们仍然将SIMBA的细胞嵌入与两种广泛采用的单细胞多组学整合方法Seurat3和LIGER进行了比较,基于它们整合单细胞模式同时保留细胞异质性的能力(补充注释8)。我们观察到,在小鼠皮肤SHARE-seq数据集和10x PBMCs多组学数据集中,SIMBA取得了整体最佳表现。
讨论
单细胞多组学检测的快速发展已经超越了相应计算框架的进步,这些框架对于从如此丰富的数据中获得综合见解是必要的。这种差距突显了需要突破以往局限性的方法,并且能够轻松扩展到未来的细胞测量。SIMBA满足了这种需求,是一种探索细胞异质性和调控机制的全面且可扩展的方法。SIMBA将细胞和测量的特征建模为图中的节点,并采用可扩展的图嵌入方法,将细胞和特征节点嵌入到共享的潜在空间中。我们证明,单细胞数据的直接图表示不仅捕捉了细胞与实验中量化特征(如基因表达或染色质可接近性)之间的关系,还捕捉了特征之间的层次关系。SIMBA的共同嵌入空间使得可以同时学习细胞异质性和细胞类型特异的多模态特征,补充了当前的基因调控网络分析。SIMBA还避免了依赖细胞聚类进行特征发现,这可能导致人为发现或假阴性结果。
SIMBA已在单细胞模式和任务中进行了广泛的基准测试,其性能指标优于或与当前为相应任务开发的最先进方法相当。这些结果表明,SIMBA的基于图的框架具有广泛的适用性,无需组合多种分析工具。
神经网络嵌入在生物数据分析中具有巨大的潜力。嵌入模型的先前应用包括基因的功能注释、TF结合偏好的建模以及最近的单细胞RNA测序分析。
尽管具有有前景的功能,SIMBA仍面临潜在的局限性和改进空间。整合样本级数据(如时间点和扰动)可能是一个挑战,因为它需要额外的复杂层来准确表示这些维度。空间数据可以增强SIMBA分析复杂数据集的能力,如空间转录组,通过将空间邻近性引入图中。此外,该框架还可以扩展为分析三维染色质构象,通过编码DNA片段相互作用来表示基因-调控区域的链接。尽管适应各种实验设计是可行的,解释输出嵌入可能因输入图和训练过程而异,需要特定领域的专业知识。
总的来说,SIMBA是多功能的,可以适应各种领域的特征,只要它们能够被编码为一个连通图。我们相信,SIMBA将简化为新单细胞任务和测量开发方法的负担,同时为新非聚类中心的分析方法奠定基础。
细胞-特征-特征-细胞之间构图,实际上相当于构建了一个异构图。那如何构造这个图需要重点的来看一下,后续会对模型部分详细的阅读一下。。。
边的添加有两种方式:(1)实验测量的边,或(2)计算推断的边(方法部分)。