sparklyr 1.0发布，有哪些新功能？_科技 _ 頭條網

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tstoutiao，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

作者：Javier Luraschi

翻译：黄小伟，10年资深数据矿工。目前就职杭州有赞，欢迎加入有赞分析团队

sparklyr 1.0目前已经可以通过CRAN直接下载、安装使用！它提供了针对Apache Spark的接口，支持dplyr、MLlib、streaming、extensions等内容，以下是本次发布版本的主要亮点：

1. Arrow: 支持在Spark 和 R之间实现更快、更大数据集的传输

2. XGBoost: 支持在分布式数据集上训练梯度增强模型

3. Broom: 将Spark的模型转换为您熟悉的格式

4. TFRecords: 从Spark编写TensorFlow记录以支持深度学习工作流

install.packages("sparklyr")

1. Arrow

Apache Arrow是一种用于内存数据的跨语言开发平台，您可以在Arrow及其他博客文章中阅读更多相关信息。在sparklyr 1.0中，我们从概念上将Arrow视为R和Spark之间的有效桥梁:

实际上，这意味着更快的数据传输和对更大数据集的支持。具体来说，此次改进了collect()、copy_to()和spark_apply()。以下基准测试使用 bench包来进行。

我们将首先在具有1M和10M行的数据框上对copy_to()进行基准测试：

library(sparklyr)sc bench::press(rows = c(10^6, 10^7), { bench::mark( arrow_on = { library(arrow) sparklyr_df <

接下来，我们将基于10M和50M记录的collect()进行基准测试：

bench::press(rows = c(10^7, 5 * 10^7), { bench::mark( arrow_on = { library(arrow) collected % collect() }, arrow_off = if (rows <= 10^7) {if ("arrow" %in% .packages()) detach("package:arrow") collected % collect() } else NULL, iterations = 4, check = FALSE)})

最后但并非最不重要的是，超过100K和1M行的spark_apply()显示了最显著的改进。在Spark上运行R时，速度提高40倍。

bench::press(rows = c(10^5, 10^6), { bench::mark( arrow_on = { library(arrow) sdf_len(sc, rows) %>% spark_apply(~ .x / 2) %>% dplyr::count() %>% collect }, arrow_off = if (rows <= 10^5) {if ("arrow" %in% .packages()) detach("package:arrow") sdf_len(sc, rows) %>% spark_apply(~ .x / 2) %>% dplyr::count() %>% collect } else NULL, iterations = 4, check = FALSE)})

2. XGBoost

sparkxgb是一个新的sparklyr扩展，可用于在Spark中训练XGBoost模型。 sparkxgb可可按如下方式安装：

install.packages("sparkxgb")

然后我们可以使用xgboost_classifier()来训练和ml_predict()来轻松预测大型数据集：

library(sparkxgb)library(sparklyr)library(dplyr)
sc xgb_model xgb_model %>%ml_predict(iris) %>%select(Species, predicted_label, starts_with("probability_")) %>%glimpse()

#> Observations: ??#> Variables: 5#> Database: spark_connection#> $ Species "setosa", "setosa", "setosa", "setosa", "…#> $ predicted_label "setosa", "setosa", "setosa", "setosa", "…#> $ probability_versicolor 0.003566429, 0.003564076, 0.003566429, 0.…#> $ probability_virginica 0.001423170, 0.002082058, 0.001423170, 0.…#> $ probability_setosa 0.9950104, 0.9943539, 0.9950104, 0.995010…

3. Broom

虽然Spark通过sparklyr对broom的支持已经开发了很长一段时间，但是这个版本标志着所有建模功能的完成。

movies copy_to(sc, movies) %>% ml_als(rating ~ user + item) %>% augment()

# Source: spark> [?? x 4]user item rating .prediction 1 2 2 5 4.862 1 2 4 3.983 0 0 4 3.884 2 1 1 1.085 0 1 2 2.006 1 1 3 2.80

4.TFRecords

sparktf是一个新的sparklyr扩展，允许在Spark中编写TensorFlow记录。这可用于在使用Keras或TensorFlow在GPU实例中处理大量数据之前对其进行预处理。 sparktf现在可以在CRAN上使用，可以按如下方式安装：

install.packages("sparktf")

您可以简单地在Spark中预处理数据，并使用spark_write_tf()将其写为TensorFlow记录：

library(sparktf)library(sparklyr)
sc copy_to(sc, iris) %>% ft_string_indexer_model("Species", "label", labels = c("setosa", "versicolor", "virginica") ) %>% spark_write_tfrecord(path = "tfrecord")

往期精彩：

R语言信用评分卡：探索性数据分析基于R实现统计中的检验方法---T检验R语言中文社区2018年终文章整理（作者篇）R语言中文社区2018年终文章整理（类型篇）

回复爬虫爬虫三大案例实战

回复 Python 1小时破冰入门

回复数据挖掘 R语言入门及数据挖掘

回复人工智能三个月入门人工智能

回复数据分析师数据分析师成长之路

回复机器学习机器学习的商业应用

回复数据科学数据科学实战

回复常用算法常用数据挖掘算法

相關文章:

智慧屏2.0：荣耀总裁爆料新品，将开关机无广告革命到底

Mate 30系列EMUI10.0 新特性内测版 10.0.0.231发布

“文章助手”小程序发布新版 0.3.0

家里路由到底绑定127.0.0.1还是0.0.0.0？不要再搞错了

03.04 智能制造规划参考模型初识——德国工业4.0 参考体系RAMI4.0

第十问：如何理解区块链1.0，2.0，3.0

产业互联超越德国工业4.0，创造中国的产业4.0！

小米6更新稳定版10.4.3.0，你更新了没

时隔一年，微信发布WeUI2.0.0，各种buff加身

iOS率先升级QQ8.0.0，微信用户期待许久的功能，却是QQ更新了

iOS微信重大改版7.0.0 新界面新功能已经上线

微信7.0.0，越来越像QQ！

华为mate10升级EMUI 9.0.0.167

荣耀30款机型用上安卓9.0+EMUI9.0 你的手机有份吗？

华为nova3 P（EMUI 9.0+Android 9.0）体验版 9.0.0.100 发布

小米mix2S稳定版更新到10.0.7.0

确定了！11月10号华为9款机型升级EMUI 9.0！另有13款仍在内测

华为Mate20更新EMUI 9.0.0.125的升级包！

刚刚荣耀V10推送了8.0.0.202支持微信指纹支付

华为抢先升级安卓9.0+EMUI9.0，就问我申请名额的手速快不快？

华为亮出王牌：GT2.0+智慧系统2.0+ISP4.0，真香

荣耀play 内测（EMUI 9.0+Android 9.0）体验版 9.0.0.110 发布

厉害了！荣耀8青春版发布8.0.0.339版本，新增GT和微信指纹支付！

华为3款机型更新EMUI9.0.0.110内测版，新增微信指纹支付功能！

荣耀 9 青春版 EMUI 8.0 版本 8.0.0.182 已发布

荣耀9i发布更新8.0.0.130版本，网友：坐等微信指纹支付版本！

荣耀9发布更新8.0.0.355版本，新增GT技术，微信指纹支付！

长春市民：0.88元一天能干啥？0.88元能用一天的宽带你信不

09.20 华为P20、荣耀10等9款机型发布EMUI9.0.0.106内测版，依然流畅！

京东到家Go发布"智能货柜3.0+智能供应链2.0"，打造降本提产范本

京东到家Go近日发布"智能货柜3.0+智能供应链2.0"

华为正式发布EMUI 9.0！国内首发安卓9.0 9款机型尝鲜

V9系统更新8.0.0.351版本，修复bug！

08.25 卡巴斯基2019免费版 18.0.0.405中文版

区块链1.0、2.0、3.0分别是什么？

小程序1.0-2.0，微信小程序生态的现在式和将来时

从AI1.0—4.0，环信机器人荣获2018年度智能客服推荐品牌

荣耀8、荣耀V8系统更新EMUI8.0.0.528正式版！

一位产品人的成长路径：从1.0走到了2.0，将步入3.0

华为Mate9Pro系统更新EMUI8.0.0.357版本！

06.22 华为Mate9系统更新EMUI8.0.0.357版本发布！

募集42亿美金的EOS：是区块链3.0，还是炒币3.0？

06.06 华为Mate8更新系统EMUI8.0.0.811版本！

从工业4.0 到能源5.0：智能能源系统的概念、内涵及体系框架

EOS是炒币3.0，并不是区块链3.0

EOS是炒币3.0，并不是区块链3.0，自组织也可能是个伪命题

区块链1.0、2.0、3.0如何区分

谷歌浏览器Chrome 39.0.2171.99稳定版下载

小米太无耻了。

蹭热点！说说我理解的手机包装盒事件。

苹果公司正式发布iPhone SE二代手机

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

干翻华为P40系列 荣耀30也玩中

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

苹果发布新款iPhoneSE，3299元起售

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

值得收藏！三类卖家三种选品方案，总有适合你的一个……

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

马云终于要辞职了，留下的话句句触动人心

等等，明年5G手机将迎来大降价

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

为什么华为今天可以傲视群雄，在世界上立于不败之地？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

2020年最强拍照旗舰来了 华为P40系列多项业界首创 香！

今天聊一聊直播

干翻华为P40系列荣耀30也玩中

2020年最强拍照旗舰来了华为P40系列多项业界首创香！