GSEA命令行

前边已经说到MSigDB数据库的entrez ID和symble ID都是人源的，其他物种要想做GSEA的话，就必须要ID转换，做成属于自己研究物种的数据库，这一步是关键。想要根据简单的Nr注释或其他注释来转换是行不通的，比如我研究的物种为硬骨鱼类，Nr注释结果分值最高的前20个一般也都是鱼类，就算注释到了人源的基因，也可能存在版本不对的问题。因此我们要知道MSigDB数据库基因ID的版本，然后下载对应的全基因组蛋白序列，然后比对卡阈值，做成自己的数据库。

GSEA的运行可以界面操作和命令行操作，界面操作教程很多就不多做赘述，它的不足之处除了操作繁琐之外，里面几个较大的库需要的内存较高，像我的4G渣渣电脑，好几个都运行失败，不得不转到服务器上运行；而且界面也不能批量运行。

java -cp gsea-3.0.jar -Xmx10000m xtools.gsea.Gsea -res ma/normalized_counts_all.gct -cls ma/samples.cls#COS1_versus_COS0 -gmx ma/ma.h.all.v6.1.symbols.gmt -collapse false -mode Max_probe -norm meandiv -nperm 1000 -permute gene_set -rnd_type no_balance -scoring_scheme weighted -rpt_label COS1vsCOS0_h -metric Ratio_of_Classes -sort real -order descending -create_gcts false -create_svgs false -include_only_symbols true -make_sets true -median false -num 100 -plot_top_x 20 -rnd_seed timestamp -save_rnd_lists false -set_max 2000 -set_min 5 -zip_report false -out multiple -gui false

-Xmx10000m:设置最大内存10000兆，之前界面操作失败就因为这个参数
-res：表达量文件
-cls：样本信息
-gmx：数据库文件
-nperm：Number of permutations
-rpt_label：输出文件的前缀
-metric：排序的方法，如果有重复，可以考虑使用T-test；无重复，可以考虑使用Ratio of calsses（差异倍数）或Diff of classes(差异绝对值）
-plot_top_x：默认20，代表富集分析排名最高的20个通路
-set_max：通路基因的最大数量，默认500，但由于某些通路基因数大于500，建议提高阈值
-set_min：通路基因的最小数量，默认15
-out：输出的文件夹
其他参数均为默认

Comments

Leave a Reply Cancel reply