R语言实战(第2版):第二章 创建数据集(02)

注:如果在头条里面的代码不清楚,可以在“”简书“”中搜索“康华同学”,同步更新!!!


2.2.3 数组

数组(array)与矩阵类似,但是维度可以大于2。数组可通过array函数创建,形式如下:

myarray 

创建一个数组

> dim1 > dim2 > dim3 > z > z 
, , C1
B1 B2 B3
A1 1 3 5
A2 2 4 6

, , C2
B1 B2 B3
A1 7 9 11
A2 8 10 12

, , C3
B1 B2 B3
A1 13 15 17
A2 14 16 18

, , C4
B1 B2 B3
A1 19 21 23
A2 20 22 24

数组是矩阵的一个自然推广.

2.2.4 数据框

由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更为一般.
数据框可通过函数data.frame()创建:

mydata 

例子: 创建一个数据框

> patientID > age > diabetes > status > patientdata > patientdata
patientID age diabetes status
1 1 25 Type1 Poor
2 2 34 Type2 Improved
3 3 28 Type1 Excellent
4 4 52 Type1 Poor

选取数据框中的元素

> patientdata[1:2] 
patientID age
1 1 25
2 2 34
3 3 28
> patientdata[c("diabetes", "status")]
diabetes status
1 Type1 Poor
2 Type2 Improved
3 Type1 Excellent
4 Type1 Poor
> patientdata$age
[1] 25 34 28 52

1. attach()、detach()和with()

(1)函数attach()可将数据框添加到R的搜索路径中.

(2)函数detach()将数据框从搜索路径中移除.值得注意的是,detach()并不会对数据框本身做任何处理。

2.2.5 因子

变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。
类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。

函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1...k](其中k是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。

diabetes 

语句status

对于字符型向量,因子的水平默认依字母顺序创建。这对于因子status是有意义的,因为“Excellent”“Improved”“Poor”的排序方式恰好与逻辑顺序相一致。如果“Poor”被编码为“Ailing”,会有问题,因为顺序将为“Ailing”“Excellent”“Improved”。

R语言实战(第2版):第二章 创建数据集(02)

图解:首先,以向量的形式输入数据➊。然后,将diabetes和status分别指定为一个普通因子和一个有序型因子。最后,将数据合并为一个数据框。函数str(object)可提供R中某个对象(本例中为数据框)的信息➋。它清楚地显示diabetes是一个因子,而status是一个有序型因子,以及此数据框在内部是如何进行编码的。注意,函数summary()会区别对待各个变量➌。它显示了连续型变量age的最小值、最大值、均值和各四分位数,并显示了类别型变量diabetes和status(各水平)的频数值。

2.2.6 列表

列表(list)是R的数据类型中最为复杂的一种。一般来说,列表就是一些对象(或成分,component)的有序集合。

mylist 

其中的对象可以是目前为止讲到的任何结构。你还可以为列表中的对象命名:

下面给出一个实际例子进行解释说明:mylist 

下面给出一个实际例子进行解释说明:


R语言实战(第2版):第二章 创建数据集(02)

本例创建了一个列表,其中有四个成分:一个字符串、一个数值型向量、一个矩阵以及一个字符型向量。可以组合任意多的对象,并将它们保存为一个列表。


R语言实战(第2版):第二章 创建数据集(02)


R语言实战(第2版):第二章 创建数据集(02)

注:如果在头条里面的代码不清楚,可以在“”简书“”中搜索“康华同学”,同步更新!!!

"


分享到:


相關文章: