Spark词频前十的统计练习

承接上一个文档《 》

进一步延伸,做一个词频前十的统计练习

逻辑:在reduceByKey的基础上,首先要根据key对应的value值进行排序(降序排序),取前10个的结果就是Top10

<code>val reduceByKeyRDD = sc.textFile("file:///opt/bigdata/spark/README.md").flatMap(_.split(" ")).filter(_.nonEmpty).map((_,1)).reduceByKey(_+_)/<code>
Spark词频前十的统计练习

<code>reduceByKeyRDD.sortBy(t => t._2,ascending=false)/<code>
Spark词频前十的统计练习

<code>reduceByKeyRDD.sortBy(t => t._2,ascending=false).take(10)/<code>
Spark词频前十的统计练习

sortBy函数:第一个匿名函数表示按照元组的第二个元素进行排序,ascending=false表示按照降序排序,如果不指定这个参数,默认是升序的排序

Spark词频前十的统计练习

<code>reduceByKeyRDD.sortBy(t => t._2 * -1).take(10)/<code>

也实现了降序排列,提取TOP10

Spark词频前十的统计练习

下面这个方法也可以

<code>reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).map(t => t.swap).take(10)/<code>

分解看下:

<code>reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).
t.swap :("the",22) --> (22,"the") --> ("the",22)/<code>
Spark词频前十的统计练习

<code>reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).map(t => t.swap).take(10)/<code>
Spark词频前十的统计练习

下面这个性能会更好:

<code>reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).take(10).map(t => t.swap)/<code>
Spark词频前十的统计练习

用top(10)代替sortByKey(ascending=false).take(10)这一部分

<code>reduceByKeyRDD.map(t => t.swap).top(10).map(t => t.swap)/<code>
Spark词频前十的统计练习


分享到:


相關文章: