本文为 Rstudio 社区文章《Quick list of useful R packages》的中文翻译。略有增删。原文链接如下:
https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages
这里面提到的很多R包都是Rstudio公司旗下的,Rstudio公司旗下很多R包都具有良好的使用体验。其中又有好几个R包是由Hadley Wickham大神所写的。Hadley Wickham是R社区非常非常流行的ggplot2包的作者,也是Rstudio公司的首席科学家。如下内容为按照类别整理的数据科学中常用的R包。对于自己感兴趣的包,可以在R中安装它们,并使用help('包名') 查看它们的帮助文档,文档中会有关于这些R包的功能介绍和用法指引。
数据加载
R可以不需要任何工具,直接用read.csv, read.table, read.fwf等函数读取加载纯文本格式文件
readr: 读取csv等文本格式的数据,效率比R自带读取函数要高5~10倍;
readxl : 从Excel中读取加载数据
haven : 从SAS/SPSS格式的数据集中读取加载数据
RODBC, RMySQL, RPostgresSQL, RSQLite :从数据库中读取加载数据
数据处理
数据处理里面提到的R包都是Rstudio公司旗下的。
dplyr - 必备的数据处理工具,可以对数据集做subset, summarize, rearrange, join等处理
tidyr - 利用gather和spread函数将数据集转化成格式更工整的数据集
stringr - 一个简单易上手的对字符串类型的数据进行正则表达式处理的工具
lubridate - 处理日期和时间类型数据的工具
数据可视化
ggplot2 - R中最著名的可视化工具包
ggvis - 一个可以做基于web的交互可视化工具包
rgl - 在R中做3D交互可视化
htmlwidgets - 一个在R中快速建立基于JavaScript内核的交互可视化工具包
googleVis - 利用Google Chart工具在R中做数据可视化
数据建模
car - 做方差分析
mgcv - 调用广义相加模型
lme4 / nlme - 调用线性/非线性混合效应模型
rendomForest - 调用机器学习中的随机森林模型
multcomp - 做多重比较分析
vcd - 实现分类数据做可视化及测试
glmnet - 调用Laso and elastic-net回归模型及交叉检验
survival - 做生存分析
caret - 训练回归/分类模型的工具包
处理和分析大数据集
sparklyr: Rstudio公司开发的在R中使用spark的接口程序库;
sparkR: spark社区提供的访问spark的R语言程序库。spark官方还提供Java,Scala,Python语言接口。
可视化报告
shiny - 一个用R做交互可视化的应用
R Makdown - 用R做数据分析报告的必备工具
jupyter notebook:数据科学家最喜欢的编程环境。
xtable - 将R中的数据对象(如data frame)转换成HTML/LaTeX代码的工具
处理时间序列及金融数据
zoo - 提供最流行的格式在R中存储时间序列对象
xts - 灵活处理时间序列数据集的工具
quantmod - 下载金融数据并做可视化、技术性分析的工具
处理web数据
XML - 用R读写XML文件
jsonlite - 用R读写JSON文件
httr - 处理http链接的工具集合
閱讀更多 數據分析與可視化 的文章