data <- read.delim('mouse_gc_log2.xls', row.names = 1, sep = '\t', check.names = FALSE)#行为基因ID列为样本的表达矩阵
data[order(rowSums(data),decreasing=T)[1:3000],] #筛选表达量高的前3000个基因
data[rowSums(data)>1,] #过滤掉表达量低的基因
data1=rowMeans(data)>1 #按平均数筛选
data2=rowSums(data>0)>6 #表达量不为0的样品个数筛选
data=data[data1 & data2,] #联合一下
data$cv <- apply(data, 1, function(x){
sd(x)/mean(x)*100
})
data_df <- data[order(data$cv, decreasing = T)[1:3000], 1:15]#筛选变异系数最大的3000个基因
R根据基因的表达量筛选基因
by
Tags:
Leave a Reply