比R版本快几十倍| Pyscenic单细胞转录因子预测
一、PySCENIC简介
SCENIC(Single-Cell Regulatory Network Inference and Clustering)是一个专门可以用于scRNA-seq数据转录因子推断的分析软件。SCENIC的核心功能是解析scRNA-seq数据中转录因子与其下游靶基因的调控关系,从而揭示每个细胞的调控状态及细胞群的生物学特性,达到辅助推断细胞的状态和功能目的。它的核心分析步骤共分为三步:
第一步:输入表达矩阵和转录因子列表,通过GENIE3(随机森林)或GRNBoost (Gradient Boosting) 方法从scRNA-seq数据推断转录因子与候选靶基因之间的共表达模块;
第二步:基于第一步的初始调控网络,根据motif和TF的关系以及motif对基因调控潜能的排序来修剪初始调控网络,最终得到的每个TF及其潜在的直接targets gene称作一个调节因子(regulon)
第三步:AUCelll(一文搞定单细胞基因集评分)评估每个regulon在每个细胞里面的活性
关于SCENIC我们做过一系列图文及视频教程,需要scRNA-seq辅导的同学可参考:这下真手把手教你做scRNA-seq数据基础分析:
SCENIC转录因子分析:
SCENIC单细胞转录因子预测|1.绪论
SCENIC单细胞转录因子预测|2.学习手册
SCENIC单细胞转录因子预测|3.软件安装与数据准备
SCENIC单细胞转录因子预测|4.精简版流程
SCENIC单细胞转录因子预测|5.step1+step2构建共表达网络与regulon
SCENIC单细胞转录因子预测|6.Step3 利用AUCell对Regulon评分
SCENIC单细胞转录因子预测|7.Step4 二元矩阵的计算与可视化
SCENIC单细胞转录因子预测|8.Step5 regulon聚类、分群、降维
SCENIC单细胞转录因子预测|9.下游探索
SCENIC转录因子调控网络图
遗憾的是R语言版本的SCENIC简直慢到爆,主要限速步骤是GENIE3计算共表达网络,几万个细胞算几周也是常有的事。因此这里我们分享一波PySCENIC的流程,虽然牺牲一波可视化结果,但是计算速度快了几十~上百倍。
本文分析集锦如下:
二、测试文件
点击跳转测试文件
三、软件安装
本教程基于Linux及服务器中的Rstudio环境(足够支持你完成硕博生涯的生信环境)演示,计算资源不足的同学可参考:
生信分析为什么要使用服务器?
足够支持你完成硕博生涯的生信环境
配置一个心仪的工作站(硬件+环境配置)
独享服务器,生信分析不求人
访问链接:https://biomamba.xiyoucloud.net/
首先大家需要先安装conda:生信软件管家——conda的安装、使用、卸载
# pyscenic环境创建流程
conda env remove --name pyscenic
conda create -n pyscenic python=3.8.1
conda activate pyscenic
# !!!!!按照下面的顺序安装,不然可能出现彼此不兼容的报错
# 参考:https://www.jianshu.com/p/dc7397fda327
pip install numpy==1.19.5
pip install pandas==1.3.5
pip install numba==0.56.4
pip install pyscenic==0.12.1
# 检查安装软件版本
python -c "import numpy; print(numpy.__version__)"
python -c "import pandas; print(pandas.__version__)"
python -c "import pyscenic; print(pyscenic.__version__)"
pyscenic -h
cd /home/cwj/project/09_pyscenic/data
# 下载motif排序文件,motif 注释文件和转录因子文件
# 以人类基因组hg19版本为参考,转录起始位点(TSS)上下游5kb区域的基因与基序(motifs)的排名数据,数据整合7个物种信息用于评估基因与基序结合可能性,确定转录因子和靶基因间调控关系
wget https://resources.aertslab.org/cistarget/databases/homo_sapiens/hg19/refseq_r45/mc9nr/gene_based/hg19-tss-centered-5kb-7species.mc9nr.genes_vs_motifs.rankings.feather
# 基序到转录因子的映射关系,通过分析转录因子结合位点基序,识别可能结合特定基序的转录因子。
wget https://resources.aertslab.org/cistarget/motif2tf/motifs-v10nr_clust-nr.hgnc-m0.001-o0.0.tbl
# 人类基因组中所有转录因子列表
wget https://resources.aertslab.org/cistarget/tf_lists/allTFs_hg38.txt
四、人源PySCENIC分析流程
本文略有删减,点击查看原文