GSEA命令行

前边已经说到MSigDB数据库的entrez ID和symble ID都是人源的,其他物种要想做GSEA的话,就必须要ID转换,做成属于自己研究物种的数据库,这一步是关键。想要根据简单的Nr注释或其他注释来转换是行不通的,比如我研究的物种为硬骨鱼类,Nr注释结果分值最高的前20个一般也都是鱼类,就算注释到了人源的基因,也可能存在版本不对的问题。因此我们要知道MSigDB数据库基因ID的版本,然后下载对应的全基因组蛋白序列,然后比对卡阈值,做成自己的数据库。

GSEA的运行可以界面操作和命令行操作,界面操作教程很多就不多做赘述,它的不足之处除了操作繁琐之外,里面几个较大的库需要的内存较高,像我的4G渣渣电脑,好几个都运行失败,不得不转到服务器上运行;而且界面也不能批量运行。

java -cp gsea-3.0.jar -Xmx10000m xtools.gsea.Gsea -res ma/normalized_counts_all.gct -cls ma/samples.cls#COS1_versus_COS0 -gmx ma/ma.h.all.v6.1.symbols.gmt -collapse false -mode Max_probe -norm meandiv -nperm 1000 -permute gene_set -rnd_type no_balance -scoring_scheme weighted -rpt_label COS1vsCOS0_h -metric Ratio_of_Classes -sort real -order descending -create_gcts false -create_svgs false -include_only_symbols true -make_sets true -median false -num 100 -plot_top_x 20 -rnd_seed timestamp -save_rnd_lists false -set_max 2000 -set_min 5 -zip_report false -out multiple -gui false

-Xmx10000m:设置最大内存10000兆,之前界面操作失败就因为这个参数
-res:表达量文件
-cls:样本信息
-gmx:数据库文件
-nperm:Number of permutations
-rpt_label:输出文件的前缀
-metric:排序的方法,如果有重复,可以考虑使用T-test;无重复,可以考虑使用Ratio of calsses(差异倍数)或Diff of classes(差异绝对值)
-plot_top_x:默认20,代表富集分析排名最高的20个通路
-set_max:通路基因的最大数量,默认500,但由于某些通路基因数大于500,建议提高阈值
-set_min:通路基因的最小数量,默认15
-out:输出的文件夹
其他参数均为默认

版权声明:本文为博主原创文章,未经博主允许不得转载。

发表评论

电子邮件地址不会被公开。 必填项已用*标注