当前位置: 首页 > article >正文

单细胞分析(22)——高效使用 Cell Ranger:安装、参数解析及 Linux 后台运行指南

高效使用 Cell Ranger:安装、参数解析及 Linux 后台运行指南

在这里插入图片描述

背景介绍

Cell Ranger 是 10x Genomics 开发的一套用于单细胞转录组测序数据处理的软件。它可以对 10x Genomics 平台生成的 FASTQ 文件进行对齐、UMI 计数和基因表达量计算,是单细胞 RNA-seq 数据分析的第一步。由于 Cell Ranger 对输入数据格式有严格要求,并且计算资源需求较高,因此在使用时需要注意安装环境、文件命名规范以及后台运行的方式。

本指南将介绍 Cell Ranger 的安装方法、数据处理流程、文件命名规则、运行参数介绍以及如何在 Linux 端高效运行 Cell Ranger。

1. 安装 Cell Ranger

1.1 下载与解压安装

# 下载 Cell Ranger 7.2.0 版本
wget -O cellranger-7.2.0.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-7.2.0.tar.gz"

# 解压并移动到合适的目录
tar -xzvf cellranger-7.2.0.tar.gz
mv cellranger-7.2.0 /opt/cellranger-7.2.0

# 添加路径(建议写入 ~/.bashrc 以便每次启动生效)
echo 'export PATH=/opt/cellranger-7.2.0:$PATH' >> ~/.bashrc
source ~/.bashrc

1.2 下载参考基因库

可以选择不同版本的参考基因库:

  • 2024-A 版本
  • 2020-A 版本

下载并解压:

wget -O refdata-gex-GRCh38-2020-A.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/refdata-gex-GRCh38-2020-A.tar.gz"
tar -xzvf refdata-gex-GRCh38-2020-A.tar.gz -C /home/user/reference/

2. 运行 Cell Ranger count

2.1 cellranger count 主要参数介绍

cellranger count --id=run_count_sample1 \
   --fastqs=/home/user/yard/run_cellranger_count/sample1 \
   --sample=sample1 \
   --transcriptome=/home/user/yard/run_cellranger_count/refdata-gex-GRCh38-2020-A

参数说明:

  • --id:为该运行设置一个唯一的名称,所有输出文件将存储在 --id 目录下。
  • --fastqs:指定存放 FASTQ 文件的路径。
  • --sample:指定样本名称,必须匹配 FASTQ 文件的前缀。
  • --transcriptome:指定参考基因组路径。
  • --nosecondary(可选):跳过降维分析,减少计算时间和存储需求。
  • --localcores=N(可选):指定使用的 CPU 核心数,默认使用所有可用核心。
  • --localmem=N(可选):指定使用的最大内存(GB)。

如果不需要使用 Cell Ranger 的降维结果,可以添加 --nosecondary

title="每次在下面进行修改,然后粘贴到终端运行"
cellranger count --id=run_count_sample2 \
   --fastqs=/home/user/yard/test \
   --sample=sample2 \
   --transcriptome=/home/user/reference/refdata-gex-GRCh38-2020-A \
   --nosecondary

2.2 后台运行方式对比

在 Linux 端,后台运行 cellranger 可采用多种方式,以下是常见方法的对比:

方法 1:使用 nohup

适用于简单的后台运行,任务不会因退出终端而中断。

nohup cellranger count --id=run_count_sample3 \
   --fastqs=/home/user/yard/run_cellranger_count/sample3 \
   --sample=sample3 \
   --transcriptome=/home/user/yard/run_cellranger_count/refdata-gex-GRCh38-2020-A \
   --nosecondary &> run_sample3.log &
方法 2:使用 screen

适用于长时间运行的任务,可随时恢复。

screen -S cellranger_run
cellranger count --id=run_count_sample4 \
   --fastqs=/home/user/yard/sample4 \
   --sample=sample4 \
   --transcriptome=/home/user/yard/run_cellranger_count/refdata-gex-GRCh38-2020-A

退出 screen 但保持进程运行:

Ctrl + A, 然后 D

重新进入 screen

screen -r cellranger_run
方法 3:使用 tmux

screen 更强大,支持多个窗口管理。

tmux new -s cellranger_run
cellranger count --id=run_count_sample5 \
   --fastqs=/home/user/yard/sample5 \
   --sample=sample5 \
   --transcriptome=/home/user/yard/reference/refdata-gex-GRCh38-2020-A

退出 tmux 但保持进程运行:

Ctrl + B, 然后 D

重新进入 tmux 会话:

tmux attach -t cellranger_run

3. FASTQ 文件命名规则与注意事项

Cell Ranger 需要特定格式的 FASTQ 文件名,以确保正确识别数据:

[Sample Name]_S[Sample Number]_L[Lane Number]_R[Read Type]_001.fastq.gz

示例:

sample1_S1_L001_R1_001.fastq.gz
sample1_S1_L001_R2_001.fastq.gz

3.1 注意事项

  • 文件名必须符合 10x Genomics 规定,否则 cellranger 无法识别。
  • 避免空格和特殊字符,所有文件名应严格按照 S1_L001_R1_001.fastq.gz 这种格式命名。
  • 确保所有 FASTQ 文件在同一目录下,并正确指定 --fastqs 参数。

3.2 检查命名是否符合格式

ls /path/to/fastq_files | grep -E ".*_S[0-9]+_L[0-9]{3}_R[12]_001.fastq.gz"

4. 目录结构建议

建议使用标准化的目录结构管理数据:

├── data/
│   ├── raw_fastq/
│   ├── processed/
├── reference/
│   ├── GRCh38-2020-A/
├── scripts/
├── results/

这样可以更方便管理数据,避免混乱。


http://www.kler.cn/a/578616.html

相关文章:

  • ClassUtil:Hutool库中反射操作的高效利器
  • 爬虫案例七Python协程爬取视频
  • c#面试题整理4
  • STM32DMA串口传输实验(标准库)
  • 本地搭建DeepSeek R1模型 + 前端
  • MySQL 表的字段数量和单行存储容量受存储引擎、数据类型、行结构等多因素限制
  • ORB-SLAM2源码学习(六):相机跟踪(局部地图跟踪和关键帧创建)
  • 【向量模型】 开源通用向量模型BGE (BAAI General Embedding)
  • Vue代理与Vuex模块化学习
  • 环形链表问题的探究与代码实现
  • 【论文精读】GaussReg: Fast 3D Registration with Gaussian Splatting
  • MyBatis SQL 映射文件的作用和结构
  • Java 大视界 -- Java 大数据在智能体育赛事运动员表现分析与训练优化中的应用(122)
  • 忘记dedecms后台超级管理员账号和密码的解决方案
  • crewai框架出现SSLError
  • 请谈谈 HTTP 中的安全策略,如何防范常见的Web攻击(如XSS、CSRF)?
  • 2025-03-09 学习记录--C/C++-PTA 练习11-4 字符定位(最后一次找到的字符)
  • 音视频入门基础:RTP专题(16)——RTP封装音频时,音频的有效载荷结构
  • 同为科技智能PDU在数据中心场景的应用与解决方案
  • 垂直领域大模型优化:从“通用”到“专精”——打造医疗、金融、法律领域的AI专家