单细胞分析(22)——高效使用 Cell Ranger:安装、参数解析及 Linux 后台运行指南
高效使用 Cell Ranger:安装、参数解析及 Linux 后台运行指南
背景介绍
Cell Ranger 是 10x Genomics 开发的一套用于单细胞转录组测序数据处理的软件。它可以对 10x Genomics 平台生成的 FASTQ
文件进行对齐、UMI 计数和基因表达量计算,是单细胞 RNA-seq 数据分析的第一步。由于 Cell Ranger 对输入数据格式有严格要求,并且计算资源需求较高,因此在使用时需要注意安装环境、文件命名规范以及后台运行的方式。
本指南将介绍 Cell Ranger 的安装方法、数据处理流程、文件命名规则、运行参数介绍以及如何在 Linux 端高效运行 Cell Ranger。
1. 安装 Cell Ranger
1.1 下载与解压安装
# 下载 Cell Ranger 7.2.0 版本
wget -O cellranger-7.2.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.2.0.tar.gz"
# 解压并移动到合适的目录
tar -xzvf cellranger-7.2.0.tar.gz
mv cellranger-7.2.0 /opt/cellranger-7.2.0
# 添加路径(建议写入 ~/.bashrc 以便每次启动生效)
echo 'export PATH=/opt/cellranger-7.2.0:$PATH' >> ~/.bashrc
source ~/.bashrc
1.2 下载参考基因库
可以选择不同版本的参考基因库:
- 2024-A 版本
- 2020-A 版本
下载并解压:
wget -O refdata-gex-GRCh38-2020-A.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz"
tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz -C /home/user/reference/
2. 运行 Cell Ranger count
2.1 cellranger count
主要参数介绍
cellranger count --id=run_count_sample1 \
--fastqs=/home/user/yard/run_cellranger_count/sample1 \
--sample=sample1 \
--transcriptome=/home/user/yard/run_cellranger_count/refdata-gex-GRCh38-2020-A
参数说明:
--id
:为该运行设置一个唯一的名称,所有输出文件将存储在--id
目录下。--fastqs
:指定存放FASTQ
文件的路径。--sample
:指定样本名称,必须匹配FASTQ
文件的前缀。--transcriptome
:指定参考基因组路径。--nosecondary
(可选):跳过降维分析,减少计算时间和存储需求。--localcores=N
(可选):指定使用的 CPU 核心数,默认使用所有可用核心。--localmem=N
(可选):指定使用的最大内存(GB)。
如果不需要使用 Cell Ranger 的降维结果,可以添加 --nosecondary
:
title="每次在下面进行修改,然后粘贴到终端运行"
cellranger count --id=run_count_sample2 \
--fastqs=/home/user/yard/test \
--sample=sample2 \
--transcriptome=/home/user/reference/refdata-gex-GRCh38-2020-A \
--nosecondary
2.2 后台运行方式对比
在 Linux 端,后台运行 cellranger
可采用多种方式,以下是常见方法的对比:
方法 1:使用 nohup
适用于简单的后台运行,任务不会因退出终端而中断。
nohup cellranger count --id=run_count_sample3 \
--fastqs=/home/user/yard/run_cellranger_count/sample3 \
--sample=sample3 \
--transcriptome=/home/user/yard/run_cellranger_count/refdata-gex-GRCh38-2020-A \
--nosecondary &> run_sample3.log &
方法 2:使用 screen
适用于长时间运行的任务,可随时恢复。
screen -S cellranger_run
cellranger count --id=run_count_sample4 \
--fastqs=/home/user/yard/sample4 \
--sample=sample4 \
--transcriptome=/home/user/yard/run_cellranger_count/refdata-gex-GRCh38-2020-A
退出 screen
但保持进程运行:
Ctrl + A, 然后 D
重新进入 screen
:
screen -r cellranger_run
方法 3:使用 tmux
比 screen
更强大,支持多个窗口管理。
tmux new -s cellranger_run
cellranger count --id=run_count_sample5 \
--fastqs=/home/user/yard/sample5 \
--sample=sample5 \
--transcriptome=/home/user/yard/reference/refdata-gex-GRCh38-2020-A
退出 tmux
但保持进程运行:
Ctrl + B, 然后 D
重新进入 tmux
会话:
tmux attach -t cellranger_run
3. FASTQ 文件命名规则与注意事项
Cell Ranger 需要特定格式的 FASTQ
文件名,以确保正确识别数据:
[Sample Name]_S[Sample Number]_L[Lane Number]_R[Read Type]_001.fastq.gz
示例:
sample1_S1_L001_R1_001.fastq.gz
sample1_S1_L001_R2_001.fastq.gz
3.1 注意事项
- 文件名必须符合 10x Genomics 规定,否则
cellranger
无法识别。 - 避免空格和特殊字符,所有文件名应严格按照
S1_L001_R1_001.fastq.gz
这种格式命名。 - 确保所有 FASTQ 文件在同一目录下,并正确指定
--fastqs
参数。
3.2 检查命名是否符合格式
ls /path/to/fastq_files | grep -E ".*_S[0-9]+_L[0-9]{3}_R[12]_001.fastq.gz"
4. 目录结构建议
建议使用标准化的目录结构管理数据:
├── data/
│ ├── raw_fastq/
│ ├── processed/
├── reference/
│ ├── GRCh38-2020-A/
├── scripts/
├── results/
这样可以更方便管理数据,避免混乱。