Category: Machine Learning

Gene-rank score计算

data <- read.delim(‘mouse_gc.xls’, row.names = 1, sep = ‘\t’, check.names = FALSE) col_names <- colnames(data) row_names <- rownames(data) data <- as.matrix(data) b <- apply(data, 2, function(y) rank(y) / length(y)) write.table(b, file=”gene_rank_score.xls”, sep=”\t”, quote=F, row.names=T, col.names=T) #gene-rank没有改变样本间的相关性

2021年3月22日
MetabolAnalyze实现Pareto scaling

BiocManager::install(“MetabolAnalyze”) library(“MetabolAnalyze”) data <- read.delim(‘mouse_gc_TMM_cross.xls’, row.names = 1, sep = ‘\t’, check.names = FALSE) col_names <- colnames(data) row_names <- rownames(data) data <- as.matrix(data) b = scaling(data,type = “pareto”) boxplot(b) write.table(b, file=”Pareto_scaled.xls”, sep=”\t”, quote=F, row.names=T, col.names=T)

2021年3月20日
数据相关性分析

简介：评价两组数据之间的相关性，有皮尔森（pearson）相关系数，斯皮尔曼（spearman）相关系数和肯德尔（kendall）相关系数。在这三大相关系数中，spearman和kendall属于等级相关系数亦称为“秩相关系数”，是反映等级相关程度的统计分析指标。相关系数的绝对值越大，相关性越强，相关系数越接近于1或-1，相关度越强，相关系数越接近于0，相关度越弱。 Pearson（皮尔逊）相关系数：皮尔逊相关也称为积差相关（或积矩相关）是英国统计学家皮尔逊于20世纪提出的一种计算直线相关的方法。适用于： (1)、两个变量之间是线性关系，都是连续数据。 (2)、两个变量的总体是正态分布，或接近正态的单峰分布。 (3)、两个变量的观测值是成对的，每对观测值之间相互独立。 Spearman Rank（斯皮尔曼等级）相关系数：在统计学中，斯皮尔曼等级相关系数以Charles Spearman命名，并经常用希腊字母ρ（rho）表示其值。又称秩相关系数，是利用两变量的秩次大小作线性相关分析，对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的，所以又称为“等级差数法”。斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格，只要两个变量的观测值是成对的等级评定资料，或者是由连续变量观测资料转化得到的等级资料，不论两个变量的总体分布形态、样本容量的大小如何，都可以用斯皮尔曼等级相关来进行研究。对于服从Pearson 相关系数的数据亦可计算Spearman 相关系数，但统计效能要低一些。Pearson 相关系数的计算公式可以完全套用 Spearman 相关系数计算公式，但公式中的x 和y 用相应的秩次代替即可。 Kendall Rank（肯德尔等级）相关系数：在统计学中，肯德尔相关系数是以Maurice Kendall命名的，并经常用希腊字母τ（tau）表示其值。用于反映分类变量相关性的指标，适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验；取值范围在-1-1 之间，此检验适合于正方形表格；肯德尔(Kendall)W 系数又称和谐系数，是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的，即让K 个评委（被试）评定N 件事物，或1 个评委（被试）先后K 次评定N 件事物。等级评定法每个评价者对N 件事物排出一个等级顺序，最小的等级序数为1 ，最大的为N ，若并列等级时，则平分共同应该占据的等级，如，平时所说的两个并列第一名，他们应该占据1 ，2 名，所以它们的等级应是1.5, 又如一个第一名，两个并列第二名，三个并列第三名，则它们对应的等级应该是1,2.5,2.5,5,5,5, 这里2.5 是2,3 的平均，5 是4,5,6 的平均。 R包计算相关性系数： library(ggplot2) library(ggpubr) data <- read.table(“111.xls”,sep=”\t”,header = TRUE)#列是特征（两个特征），行是物种名 ggplot(data=data, aes(x=genome, y=Tes))+geom_point(color=”red”)+stat_smooth(method=”lm”)+stat_cor(data=data, method = “pearson”)+theme_classic() #stat_cor(data=dat, method…

2021年2月21日

Category: Machine Learning

Gene-rank score计算

MetabolAnalyze实现Pareto scaling

数据相关性分析