R根据基因的表达量筛选基因

data <- read.delim('mouse_gc_log2.xls', row.names = 1, sep = '\t', check.names = FALSE)#行为基因ID列为样本的表达矩阵
data[order(rowSums(data),decreasing=T)[1:3000],]  #筛选表达量高的前3000个基因
data[rowSums(data)>1,]  #过滤掉表达量低的基因

data1=rowMeans(data)>1  #按平均数筛选
data2=rowSums(data>0)>6 #表达量不为0的样品个数筛选
data=data[data1 & data2,] #联合一下
data$cv <- apply(data, 1, function(x){
  sd(x)/mean(x)*100
})
data_df <- data[order(data$cv, decreasing = T)[1:3000], 1:15]#筛选变异系数最大的3000个基因

发表评论

邮箱地址不会被公开。 必填项已用*标注