R|数据分析常用R包介绍

本文为 Rstudio 社区文章《Quick list of useful R packages》的中文翻译。略有增删。原文链接如下:

https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages

这里面提到的很多R包都是Rstudio公司旗下的,Rstudio公司旗下很多R包都具有良好的使用体验。其中又有好几个R包是由Hadley Wickham大神所写的。Hadley Wickham是R社区非常非常流行的ggplot2包的作者,也是Rstudio公司的首席科学家。如下内容为按照类别整理的数据科学中常用的R包。对于自己感兴趣的包,可以在R中安装它们,并使用help('包名') 查看它们的帮助文档,文档中会有关于这些R包的功能介绍和用法指引。

数据加载

  • R可以不需要任何工具,直接用read.csv, read.table, read.fwf等函数读取加载纯文本格式文件

  • readr: 读取csv等文本格式的数据,效率比R自带读取函数要高5~10倍;

  • readxl : 从Excel中读取加载数据

  • haven : 从SAS/SPSS格式的数据集中读取加载数据

  • RODBC, RMySQL, RPostgresSQL, RSQLite :从数据库中读取加载数据

数据处理

数据处理里面提到的R包都是Rstudio公司旗下的。

  • dplyr - 必备的数据处理工具,可以对数据集做subset, summarize, rearrange, join等处理

  • tidyr - 利用gather和spread函数将数据集转化成格式更工整的数据集

  • stringr - 一个简单易上手的对字符串类型的数据进行正则表达式处理的工具

  • lubridate - 处理日期和时间类型数据的工具

数据可视化

  • ggplot2 - R中最著名的可视化工具包

  • ggvis - 一个可以做基于web的交互可视化工具包

  • rgl - 在R中做3D交互可视化

  • htmlwidgets - 一个在R中快速建立基于JavaScript内核的交互可视化工具包

  • googleVis - 利用Google Chart工具在R中做数据可视化

数据建模

  • car - 做方差分析

  • mgcv - 调用广义相加模型

  • lme4 / nlme - 调用线性/非线性混合效应模型

  • rendomForest - 调用机器学习中的随机森林模型

  • multcomp - 做多重比较分析

  • vcd - 实现分类数据做可视化及测试

  • glmnet - 调用Laso and elastic-net回归模型及交叉检验

  • survival - 做生存分析

  • caret - 训练回归/分类模型的工具包

处理和分析大数据集

  • sparklyr: Rstudio公司开发的在R中使用spark的接口程序库;

  • sparkR: spark社区提供的访问spark的R语言程序库。spark官方还提供Java,Scala,Python语言接口。

可视化报告

  • shiny - 一个用R做交互可视化的应用

  • R Makdown - 用R做数据分析报告的必备工具

  • jupyter notebook:数据科学家最喜欢的编程环境。

  • xtable - 将R中的数据对象(如data frame)转换成HTML/LaTeX代码的工具

处理时间序列及金融数据

  • zoo - 提供最流行的格式在R中存储时间序列对象

  • xts - 灵活处理时间序列数据集的工具

  • quantmod - 下载金融数据并做可视化、技术性分析的工具

处理web数据

  • XML - 用R读写XML文件

  • jsonlite - 用R读写JSON文件

  • httr - 处理http链接的工具集合


分享到:


相關文章: