R|数据分析常用R包介绍

本文为 Rstudio 社区文章《Quick list of useful R packages》的中文翻译。略有增删。原文链接如下:

https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages

这里面提到的很多R包都是Rstudio公司旗下的,Rstudio公司旗下很多R包都具有良好的使用体验。其中又有好几个R包是由Hadley Wickham大神所写的。Hadley Wickham是R社区非常非常流行的ggplot2包的作者,也是Rstudio公司的首席科学家。如下内容为按照类别整理的数据科学中常用的R包。对于自己感兴趣的包,可以在R中安装它们,并使用help('包名') 查看它们的帮助文档,文档中会有关于这些R包的功能介绍和用法指引。

数据加载

R可以不需要任何工具,直接用read.csv, read.table, read.fwf等函数读取加载纯文本格式文件

readr: 读取csv等文本格式的数据,效率比R自带读取函数要高5~10倍;

readxl : 从Excel中读取加载数据

haven : 从SAS/SPSS格式的数据集中读取加载数据

RODBC, RMySQL, RPostgresSQL, RSQLite :从数据库中读取加载数据

数据处理

数据处理里面提到的R包都是Rstudio公司旗下的。

dplyr - 必备的数据处理工具,可以对数据集做subset, summarize, rearrange, join等处理

tidyr - 利用gather和spread函数将数据集转化成格式更工整的数据集

stringr - 一个简单易上手的对字符串类型的数据进行正则表达式处理的工具

lubridate - 处理日期和时间类型数据的工具

数据可视化

ggplot2 - R中最著名的可视化工具包

ggvis - 一个可以做基于web的交互可视化工具包

rgl - 在R中做3D交互可视化

htmlwidgets - 一个在R中快速建立基于JavaScript内核的交互可视化工具包

googleVis - 利用Google Chart工具在R中做数据可视化

数据建模

car - 做方差分析

mgcv - 调用广义相加模型

lme4 / nlme - 调用线性/非线性混合效应模型

rendomForest - 调用机器学习中的随机森林模型

multcomp - 做多重比较分析

vcd - 实现分类数据做可视化及测试

glmnet - 调用Laso and elastic-net回归模型及交叉检验

survival - 做生存分析

caret - 训练回归/分类模型的工具包

处理和分析大数据集

sparklyr: Rstudio公司开发的在R中使用spark的接口程序库;

sparkR: spark社区提供的访问spark的R语言程序库。spark官方还提供Java,Scala,Python语言接口。

可视化报告

shiny - 一个用R做交互可视化的应用

R Makdown - 用R做数据分析报告的必备工具

jupyter notebook:数据科学家最喜欢的编程环境。

xtable - 将R中的数据对象(如data frame)转换成HTML/LaTeX代码的工具

处理时间序列及金融数据

zoo - 提供最流行的格式在R中存储时间序列对象

xts - 灵活处理时间序列数据集的工具

quantmod - 下载金融数据并做可视化、技术性分析的工具

处理web数据

XML - 用R读写XML文件

jsonlite - 用R读写JSON文件

httr - 处理http链接的工具集合