hive on spark ,spark sql 对比测试。
1.数据源:
本测试使用2019-06-20到2019-08-20两个月的数据,总记录数:3232901841.
2.测试对比
3.结论
hive on spark 和spark sql测试对比。hive on spark 性能比spark sql差太多。
原因: 1.hive on spark 会把sql解析会rdd的算子,没有经过sparksql的代码优化过程。2.不能使用cache表,来减少IO操作,导致每条sql执行时间都很长。
閱讀更多 大數據科學家 的文章