M3-拟时序分许-3. 数据预处理、对齐和降维
# 预处理数据,设置维度数为60
cds <- preprocess_cds(cds, num_dim = 60)
# 对齐数据
cds <- align_cds(cds, alignment_group = "orig.ident")
# 降维操作
cds <- reduce_dimension(cds)
# 绘制UMAP图,颜色按seurat_clusters分组
plot_cells(cds, group_label_size = 6, cell_size = 0.5, color_cells_by = "seurat_clusters")
plot_cells(cds, group_label_size = 6, cell_size = 0.5, color_cells_by = "orig.ident")
这段代码是使用 Monocle 3 包处理单细胞数据的标准分析流程,包括预处理、数据对齐、降维和可视化。以下是逐步解读:
1. 数据预处理
cds <- preprocess_cds(cds, num_dim = 60)
- 功能:对单细胞数据集
cds
进行预处理,为后续降维和聚类做好准备。 - 参数:
cds
:CellDataSet 对象,存储单细胞 RNA 测序数据。num_dim = 60
:指定降维前用于捕获数据主要变化的信息的主成分数量(PCA 维度)。
- 作用:执行 PCA 降维,保留 60 个主成分,减少数据维度的噪声并提高计算效率。
2. 数据对齐
cds <- align_cds(cds, alignment_group = "orig.ident")
- 功能:对数据进行对齐,消除批次效应或其他已知的分组差异。
- 参数:
alignment_group = "orig.ident"
:根据orig.ident
(批次标识符)进行数据对齐。
- 作用:通过对齐消除由不同批次(
orig.ident
)导致的技术性差异,确保后续分析反映生物学差异而非批次效应。
3. 数据降维
cds <- reduce_dimension(cds)
- 功能:将高维数据降到低维(如 UMAP 或 t-SNE)以便可视化。
- 默认方法:Monocle 3 使用 UMAP 作为默认的降维方法。
- 作用:从高维空间映射到 2D 空间,为后续的聚类、轨迹推断和可视化提供基础。
4. 绘制 UMAP 图
plot_cells(cds, group_label_size = 6, cell_size = 0.5, color_cells_by = "seurat_clusters")
- 功能:绘制 UMAP 图,根据指定的分组信息为每个细胞着色。
- 参数:
group_label_size = 6
:指定分组标签的字体大小。cell_size = 0.5
:每个细胞点的大小。color_cells_by = "seurat_clusters"
:按seurat_clusters
着色细胞(通常是聚类分组)。
- 作用:展示细胞的分布情况,颜色代表不同的 Seurat 聚类。
5. 绘制 UMAP 图(按批次着色)
plot_cells(cds, group_label_size = 6, cell_size = 0.5, color_cells_by = "orig.ident")
- 功能:同样绘制 UMAP 图,但按
orig.ident
着色细胞。 - 作用:检查批次分布情况,验证对齐后是否有效地消除了批次效应。
总结
这段代码展示了单细胞数据分析的关键步骤:
- 预处理:降低噪声,提高分析效率;
- 对齐:消除批次效应;
- 降维:将高维数据投影到 2D 空间;
- 可视化:检查细胞聚类和批次分布。
两张 UMAP 图分别按 细胞聚类(seurat_clusters) 和 批次(orig.ident) 着色,用于探索数据的生物学意义和技术特征。