三代PacBio HiFi SV检测工具的安装
- 这里主要介绍两个安装及运行比较麻烦的两个SVs检测工具,分别是SVision和PAV。
- 常用的针对PacBio Hifi的软件如有PBSV,CuteSV,Sniffles等,都可以直接用conda安装。
1. SVision 安装及运行
- GitHub地址
- 这里我将从From source开始安装SVision。
1. 跟随GitHub上的说明安装
git clone https://github.com/xjtu-omics/SVision.git
cd SVision
conda env create -f environment.yml
python setup.py install
2. Debugging
- 如果1.安装一切顺利,及可以跳过这里
- 如果安装不顺利,主要在于conda env create -f environment.yml这一步,可能由于pip的安装问题导致失败。
- 解决方法:
- 我们可以进入未完全搭建好的svisionenv (conda activate svisionenv), 然后手动安装pip, 这里我们可以优先安装比较难装的python包,如opencv-python-headless,tensorflow1.14.0等,最后我们要注意对应的numpy版本,这里tensorflow1.14.0需要的是numpy1.16.4。如果numpy版本不对,可以pip移除,然后直接在/path/conda//envs/sivisionenv 目录下进行删除numpy,再重新安装numpy1.16.4。
- 最后便再执行一遍python setup.py install
3. 测试
-
- 测试数据准备,根据GitHub上的说明下载CNN model数据
-
- 运行测试命令
mkdir /path/to/svision_out
SVision -o /path/to/svision_out -b /path/to/bamfile -m /home/user/svision_model/svision-cnn-model.ckpt -g /path/to/reference.fa -n HG00733 -s 5 --graph --qname
2. PAV 安装及运行
- GitHub地址
- 这里主要安装Native PAV,及snakemake运行的PAV
-
- 跟随GitHub上的NATIVE_INSTALL.md安装
git clone --recursive https://github.com/EichlerLab/pav.git
pip install
BioPython
intervaltree
matplotlib
numpy
pandas
pysam
scipy
conda install
minimap2 (default aligner)
lra (optional alternate aligner)
samtools
bedToBigBed (optional, from UCSC browser tools)
-
- 测试运行:根据EXAMPLE.md 进行下载example数据,并运行测试命令
mkdir assemblies
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/HGSVC2/working/20221202_PAV_Example/* -P assemblies/
mkdir hg38_no_alt
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/HGSVC2/technical/reference/20200513_hg38_NoALT/* -P hg38_no_alt/
- 随后我们建一个工作目录,将git clone下的pav文件夹中的assemblies.tsv和config.json(可以用find命令搜索)复制到该目录下,并将下载的数据assemblies和hg38_no_alt文件夹中的文件移动到该目录下。
- 运行命令:
conda activate 激活环境
smk=/path/to/git/clone/pav/Snakefile
snakemake -pks $smk -c 64
-
- 注意:
-
- 这里的测试数据是HG00733,如果要测试其他数据,需要下载对应参考序列和bam文件,并修改assemblies.tsv和config.json中的data_dir和reference_dir。
-
- 这里的测试命令中-c 64表示使用64核运行,根据自己的机器配置调整。