染色体结构变异(sv)包括缺失、重复、倒位、易位、插入等。
SVfinder主要是基于Python开发的,能对全基因组测序分析出SV结果。
git clone https://github.com/cauyrd/SVfinder.git
Python 包:
Scipy ( http://scipy.org/ )
Numpy ( http://www.numpy.org/ )
python SVfinder.py -i <input_mapped_reads.sam> -o <output.txt> [opts]
-n <int> :cutoff of number of discordant pais to define a cluster (default:2)
-l <int> :extention length to join overlaped reads together (default:1000)
-r <int> :read length (default:100)
-g <int> :gene annotation file (default:hg19.ucsc.gene.txt)
-h :produce this menu
输出文件包括输出摘要文件和输出 BED 文件。不一致的读取列在后缀为“_svreads”的文件夹中。
A. 摘要文件由以下列组成:
B. BED 文件由以下列组成:
SVfinder软件无需安装,下载即可使用。不过该软件是基于python2版本的,现在都是python3,直接运行会报错,需用pycharm打开SVfinder.py文件进行代码修改
将SVfinder.py里所有的print修改为下图所示的python3格式,因为python3版本需要加括号。
修改script文件夹里的classify_reads.py文件,将里面的print修改为python3格式。
python SVfinder.py
nohup python /mnt/d/bioinfo/biosoft/svfinder/SVfinder-master/SVfinder.py -i /mnt/d/bioinfo/data/clean/MD18428.bwa.sam -o MD18428.sv.output.txt &
这个软件出结果的时间比较长,不清楚是不是服务器算力问题,运行了2天左右才出结果。
head MD18428.sv.output.txt
结果文件里包括插入、删除、倒位、染色体内和染色体间易位SV结构异常。