R语言提供了大量的与数据探索相关的函数,这些数据探索函数可大致分为统计特征函数与统计作图函数。统计作图函数在之前的文章中已经系统地讲解过,因此不作过多描述,这里主要围绕统计特征函数进行讲解。
统计特征函数用于计算数据的均值、方差、标准差、分位数、相关系数、协方差等,这些统计特征能反映出数据的整体分布。R语言主要的统计特征函数有:
mean(X)用于计算数据样本的算数平均数(均值)。样本X可为向量、矩阵或多维数组。
exp(mean(log(X)))用于计算数据样本的几何平均数。样本X可为向量、矩阵或多维数组。
var(X)用于计算数据样本的方差。若X为向量,则计算向量的样本方差;若X为矩阵,则结果为X的各列向量的样本方差构成的行向量。
sd(X)用于计算数据样本的标准差。若X为向量,则计算向量的标准差;若X为矩阵,则结果为X的各列向量的标准差构成的行向量。
cor()函数用于计算数据样本的相关系数矩阵,它的使用格式为:
cor(x, y=NULL,use="everything",method=c("pearson","kendall","spearman"))
其中,use、method参数的取值如下:
下面举一实例,计算两个向量的相关系数,代码如下:
> #生成向量x
> x
> #生成向量y
> y
> #计算x、y的相关系数
> cor(x,y,method="spearman")
[1] 1
cov(X)用于计算数据样本的协方差矩阵。若X为向量,则计算向量的方差;若X为矩阵,则结果为方差矩阵。
下面举一实例,计算20*5随机矩阵的协方差矩阵,代码如下:
> #生成20*5随机矩阵
> X
> cov(X)
[,1] [,2] [,3] [,4] [,5]
[1,] 0.9371629395 -0.09227230 -0.05274759 -0.07632824 0.0004699326
[2,] -0.0922722984 0.92348806 0.35200675 -0.01266855 0.1230480549
[3,] -0.0527475929 0.35200675 0.52236069 0.12836634 0.0760034973
[4,] -0.0763282446 -0.01266855 0.12836634 0.36628956 0.0590547760
[5,] 0.0004699326 0.12304805 0.07600350 0.05905478 1.2548288280
moment(X, order)计算数据样本的指定阶中心矩,参数order为正整数。样本X可为向量、矩阵或多维数组。
下面举一实例,计算100个随机数的2阶中心矩。在此之前,需要加载e1071包。代码如下:
> library(e1071)
> #产生100个随机数
> X
> #计算二阶中心矩
> moment(X, 2)
[1] 1.126422
閱讀更多 數據分析和挖掘 的文章