R語言ETL工程系列:排序(arrange)

R語言ETL工程系列:排序(arrange)

歡迎關注天善智能,我們是專注於商業智能BI,人工智能AI,大數據分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!

對商業智能BI、大數據分析挖掘、機器學習,python,R等數據領域感興趣的同學加微信:tstoutiao,邀請你進入數據愛好者交流群,數據愛好者們都在這兒。

作者:黃天元,復旦大學博士在讀,目前研究涉及文本挖掘、社交網絡分析和機器學習等。希望與大家分享學習經驗,推廣並加深R語言在業界的應用。

郵箱:[email protected]

前言

上篇

介紹如何從表中檢索一個或多個數據列,本章介紹如何在R中對錶格數據進行排序,主要使用arrange函數。

首先我們加載必要的包:

1library(tidyverse)

此外,我們會用到R語言自帶的數據集mtcars。它本身是數據框格式的,我們會把它轉化為tibble格式,並存放在mtcars1變量中。讓我們審視一下本章要用到的數據集:

 1mtcars %>% as_tibble() -> mtcars1
2mtcars1
3## # A tibble: 32 x 11
4## mpg cyl disp hp drat wt qsec vs am gear carb
5## *
6## 1 21 6 160 110 3.9 2.62 16.5 0 1 4 4
7## 2 21 6 160 110 3.9 2.88 17.0 0 1 4 4
8## 3 22.8 4 108 93 3.85 2.32 18.6 1 1 4 1
9## 4 21.4 6 258 110 3.08 3.22 19.4 1 0 3 1
10## 5 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2
11## 6 18.1 6 225 105 2.76 3.46 20.2 1 0 3 1
12## 7 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4
13## 8 24.4 4 147. 62 3.69 3.19 20 1 0 4 2
14## 9 22.8 4 141. 95 3.92 3.15 22.9 1 0 4 2
15## 10 19.2 6 168. 123 3.92 3.44 18.3 1 0 4 4
16## # ... with 22 more rows

基於單列排序

通過審視數據,我們發現數據的排布是亂序的,沒有按照一定的順序展示出來。如果我們想要數據表根據mpg變量排序,那麼就需要用arrange函數。

 1mtcars1 %>% 
2 arrange(mpg)
3## # A tibble: 32 x 11
4## mpg cyl disp hp drat wt qsec vs am gear carb
5##
6## 1 10.4 8 472 205 2.93 5.25 18.0 0 0 3 4
7## 2 10.4 8 460 215 3 5.42 17.8 0 0 3 4
8## 3 13.3 8 350 245 3.73 3.84 15.4 0 0 3 4
9## 4 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4
10## 5 14.7 8 440 230 3.23 5.34 17.4 0 0 3 4
11## 6 15 8 301 335 3.54 3.57 14.6 0 1 5 8
12## 7 15.2 8 276. 180 3.07 3.78 18 0 0 3 3
13## 8 15.2 8 304 150 3.15 3.44 17.3 0 0 3 2
14## 9 15.5 8 318 150 2.76 3.52 16.9 0 0 3 2
15## 10 15.8 8 351 264 4.22 3.17 14.5 0 1 5 4
16## # ... with 22 more rows

這樣一來,我們發現數據mpg列已經從小到大進行了排列,而其他列也根據排列進行了調整。

相應的SQL代碼如下:

1 SELECT *
2FROM `mtcars`
3ORDER BY `mpg`

基於多列排序

有時候,我們需要根據多列進行排序。例如,我們數據如果有年月日的數據,我們需要表格先按照年排序,然後在年內再按照月份排序,月份中再根據日進行排序。

arrange函數中通過可以放入多列的名稱來對多列進行排序,列名稱之間需要以逗號相隔。比如,我們想要先對cyl進行排序,再對disp進行排序:

 1mtcars1 %>%
2 arrange(cyl,disp) %>%
3 print(n = Inf)
4## # A tibble: 32 x 11
5## mpg cyl disp hp drat wt qsec vs am gear carb
6##

7## 1 33.9 4 71.1 65 4.22 1.84 19.9 1 1 4 1
8## 2 30.4 4 75.7 52 4.93 1.62 18.5 1 1 4 2
9## 3 32.4 4 78.7 66 4.08 2.2 19.5 1 1 4 1
10## 4 27.3 4 79 66 4.08 1.94 18.9 1 1 4 1
11## 5 30.4 4 95.1 113 3.77 1.51 16.9 1 1 5 2
12## 6 22.8 4 108 93 3.85 2.32 18.6 1 1 4 1
13## 7 21.5 4 120. 97 3.7 2.46 20.0 1 0 3 1
14## 8 26 4 120. 91 4.43 2.14 16.7 0 1 5 2
15## 9 21.4 4 121 109 4.11 2.78 18.6 1 1 4 2
16## 10 22.8 4 141. 95 3.92 3.15 22.9 1 0 4 2
17## 11 24.4 4 147. 62 3.69 3.19 20 1 0 4 2
18## 12 19.7 6 145 175 3.62 2.77 15.5 0 1 5 6
19## 13 21 6 160 110 3.9 2.62 16.5 0 1 4 4
20## 14 21 6 160 110 3.9 2.88 17.0 0 1 4 4
21## 15 19.2 6 168. 123 3.92 3.44 18.3 1 0 4 4
22## 16 17.8 6 168. 123 3.92 3.44 18.9 1 0 4 4
23## 17 18.1 6 225 105 2.76 3.46 20.2 1 0 3 1
24## 18 21.4 6 258 110 3.08 3.22 19.4 1 0 3 1
25## 19 16.4 8 276. 180 3.07 4.07 17.4 0 0 3 3
26## 20 17.3 8 276. 180 3.07 3.73 17.6 0 0 3 3
27## 21 15.2 8 276. 180 3.07 3.78 18 0 0 3 3
28## 22 15 8 301 335 3.54 3.57 14.6 0 1 5 8
29## 23 15.2 8 304 150 3.15 3.44 17.3 0 0 3 2
30## 24 15.5 8 318 150 2.76 3.52 16.9 0 0 3 2
31## 25 13.3 8 350 245 3.73 3.84 15.4 0 0 3 4
32## 26 15.8 8 351 264 4.22 3.17 14.5 0 1 5 4
33## 27 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2
34## 28 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4
35## 29 19.2 8 400 175 3.08 3.84 17.0 0 0 3 2
36## 30 14.7 8 440 230 3.23 5.34 17.4 0 0 3 4
37## 31 10.4 8 460 215 3 5.42 17.8 0 0 3 4
38## 32 10.4 8 472 205 2.93 5.25 18.0 0 0 3 4

一般來說,tibble格式只會顯示數據的前十行,如果我們想要看到全部數據,可以在最後運行print(n = Inf),這表示我們要看錶格的所有行。但是對於行數過多的數據集不建議使用這個函數,本例因為需要看到排序效果,因此使用了這個操作。

相應的SQL代碼如下:

1 SELECT *
2FROM `mtcars`
3ORDER BY `cyl`, `disp`

降序排列

細心的你也許會觀察到,我們的排序都是從小到大排列的,也稱為升序排列。但是在實際應用中,很多時候會用到降序排列,這時候只需要對需要降序排列的列進行降序處理即可,具體函數為desc()。例子如下:

 1mtcars1 %>%
2 arrange(desc(disp))
3## # A tibble: 32 x 11
4## mpg cyl disp hp drat wt qsec vs am gear carb
5##

6## 1 10.4 8 472 205 2.93 5.25 18.0 0 0 3 4
7## 2 10.4 8 460 215 3 5.42 17.8 0 0 3 4
8## 3 14.7 8 440 230 3.23 5.34 17.4 0 0 3 4
9## 4 19.2 8 400 175 3.08 3.84 17.0 0 0 3 2
10## 5 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2
11## 6 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4
12## 7 15.8 8 351 264 4.22 3.17 14.5 0 1 5 4
13## 8 13.3 8 350 245 3.73 3.84 15.4 0 0 3 4
14## 9 15.5 8 318 150 2.76 3.52 16.9 0 0 3 2
15## 10 15.2 8 304 150 3.15 3.44 17.3 0 0 3 2
16## # ... with 22 more rows

我們可以看到,disp已經是從大到小進行排列了。

相應的SQL代碼如下:

1 SELECT *
2FROM `mtcars`
3ORDER BY `disp` DESC

複合操作

那麼如果我們想要先以cyl進行升序排列,在這個基礎上對disp進行降序排列應該怎麼做呢?相信聰明的讀者已經可以自己動手進行操作,代碼如下:

 1mtcars1 %>%
2 arrange(cyl,desc(disp)) %>%
3 print(n = Inf)
4## # A tibble: 32 x 11
5## mpg cyl disp hp drat wt qsec vs am gear carb
6##
7## 1 24.4 4 147. 62 3.69 3.19 20 1 0 4 2
8## 2 22.8 4 141. 95 3.92 3.15 22.9 1 0 4 2
9## 3 21.4 4 121 109 4.11 2.78 18.6 1 1 4 2
10## 4 26 4 120. 91 4.43 2.14 16.7 0 1 5 2
11## 5 21.5 4 120. 97 3.7 2.46 20.0 1 0 3 1
12## 6 22.8 4 108 93 3.85 2.32 18.6 1 1 4 1
13## 7 30.4 4 95.1 113 3.77 1.51 16.9 1 1 5 2
14## 8 27.3 4 79 66 4.08 1.94 18.9 1 1 4 1
15## 9 32.4 4 78.7 66 4.08 2.2 19.5 1 1 4 1
16## 10 30.4 4 75.7 52 4.93 1.62 18.5 1 1 4 2
17## 11 33.9 4 71.1 65 4.22 1.84 19.9 1 1 4 1
18## 12 21.4 6 258 110 3.08 3.22 19.4 1 0 3 1
19## 13 18.1 6 225 105 2.76 3.46 20.2 1 0 3 1
20## 14 19.2 6 168. 123 3.92 3.44 18.3 1 0 4 4
21## 15 17.8 6 168. 123 3.92 3.44 18.9 1 0 4 4
22## 16 21 6 160 110 3.9 2.62 16.5 0 1 4 4
23## 17 21 6 160 110 3.9 2.88 17.0 0 1 4 4
24## 18 19.7 6 145 175 3.62 2.77 15.5 0 1 5 6
25## 19 10.4 8 472 205 2.93 5.25 18.0 0 0 3 4
26## 20 10.4 8 460 215 3 5.42 17.8 0 0 3 4
27## 21 14.7 8 440 230 3.23 5.34 17.4 0 0 3 4
28## 22 19.2 8 400 175 3.08 3.84 17.0 0 0 3 2
29## 23 18.7 8 360 175 3.15 3.44 17.0 0 0 3 2
30## 24 14.3 8 360 245 3.21 3.57 15.8 0 0 3 4

31## 25 15.8 8 351 264 4.22 3.17 14.5 0 1 5 4
32## 26 13.3 8 350 245 3.73 3.84 15.4 0 0 3 4
33## 27 15.5 8 318 150 2.76 3.52 16.9 0 0 3 2
34## 28 15.2 8 304 150 3.15 3.44 17.3 0 0 3 2
35## 29 15 8 301 335 3.54 3.57 14.6 0 1 5 8
36## 30 16.4 8 276. 180 3.07 4.07 17.4 0 0 3 3
37## 31 17.3 8 276. 180 3.07 3.73 17.6 0 0 3 3
38## 32 15.2 8 276. 180 3.07 3.78 18 0 0 3 3

相應的SQL代碼如下:

1 SELECT *
2FROM `mtcars`
3ORDER BY `cyl`, `disp` DESC

本章介紹瞭如何在R中完成排序操作,包括基於單列與多列的排序,以及升序與降序操作。在實際操作中,通過組合這些方法,我們能夠對一個大的數據表格進行有層次的排序,是需要牢記的實用基本操作。

R語言ETL工程系列:排序(arrange)

往期精彩:

  • R語言ETL工程系列:總論
  • R語言ETL工程系列:R語言基礎設置
  • R語言中文社區2018年終文章整理(作者篇)
  • R語言中文社區2018年終文章整理(類型篇)
R語言ETL工程系列:排序(arrange)

回覆 爬蟲 爬蟲三大案例實戰

回覆 Python 1小時破冰入門

回覆 數據挖掘 R語言入門及數據挖掘

回覆 人工智能 三個月入門人工智能

回覆 數據分析師 數據分析師成長之路

回覆 機器學習 機器學習的商業應用

回覆 數據科學 數據科學實戰

回覆 常用算法 常用數據挖掘算法


分享到:


相關文章: