MUMmer使用及后续绘图

MUMmer被广泛用于大片段序列的比对,如染色体共线性分析。

nucmer [options]  
delta-filter -i 80 -l 1000 -r -q out.delta > out.rq.delta
#比对率大于80%,对比长度大于1000
#-r: 仅保留每个reference在query上的最佳位置,允许多条reference在query上重叠
#-q: 仅保留每个query在reference上的最佳位置,允许多条query在reference上重叠
show-coords out.rq.delta > out.coords
grep -P  "zfCh04\s+" out.coords|awk '{print $12,$13}' |sort |uniq -c #查看reference单个染色体zfCh04和query不同染色体的匹配区域的数量
grep -P  "zfCh04\s+gcCh04" out.coords|awk '{print $12,$1,$2,$13,$4,$5}' > zfCh04_gcCh04.txt
sed -i 's/ /\t/g' zfCh04_gcCh04.txt

#R作图
使用RIdeogram包,可参考RIdeogram:染色体数据可视化的R包

install.packages('RIdeogram')
require(RIdeogram)
cc <- read.table("111.xls",sep="\t",header = TRUE,stringsAsFactors = F)
dd <- read.table("222.xls",sep="\t",header = TRUE,stringsAsFactors = F)
ideogram(karyotype = dd, synteny = cc)
#data(karyotype_dual_comparison, package="RIdeogram")
#data(synteny_dual_comparison, package="RIdeogram")
ideogram(karyotype = karyotype_dual_comparison, synteny = synteny_dual_comparison)
convertSVG("chromosome.svg", device = "png")

karyotype_dual_comparison文件格式
Chr: 染色体号
Start: 起始
End: 终止
fill: 染色体填充色
species:物种名
size: 物种名字体大小
color: 物种名字体颜色

synteny_dual_comparison文件格式
Species_1:物种1染色体号
Start_1,End_1:物种1染色体区域位置
Species_2:物种2染色体号
Start_2,End_2:物种2染色体区域位置

此外还支持三个基因组的共线性

发表评论

邮箱地址不会被公开。 必填项已用*标注