搭建以hdfs为文件存储库的spark集群

1,搭建启动hadoop HA集群,之前文章有详细的搭建过程。

启动HDFS(在weekend01上执行)

sbin/start-dfs.sh

找一个文件上传到自定义hdfs目录下面

搭建以hdfs为文件存储库的spark集群

启动spark shell 交互命令行(在weekend02 启动)

bin/spark-shell --master spark://weekend02:7077 --executor-memory 512m --total-executor-cores 2

搭建以hdfs为文件存储库的spark集群

执行shell命令,进行运算

  1. #使用空格对文本每行字段进行切分,同样单词出现一次记录为1 , 然后让key进行累加,按照vule 排序,false降序,搜集统计
  2. sc.textFile("hdfs://weekend02:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect;
  3. #使用空格对文本每行字段进行切分,同样单词出现一次记录为1 , 然后让key进行累加,按照vule 排序,false降序,统计保存到hdfs目录
  4. sc.textFile("hdfs://weekend02:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://weekend02:9000/out")
  5. #使用空格对文本每行字段进行切分,同样单词出现一次记录为1 , 然后让key进行累加,输出一个文件中,按照vule 排序,false降序,统计保存到hdfs目录,保存为一个目录
  6. sc.textFile("hdfs://weekend02:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_,1).sortBy(_._2,false).saveAsTextFile("hdfs://weekend02:9000/out1")

最后hdfs目录下查看是否生成:

搭建以hdfs为文件存储库的spark集群

搭建以hdfs为文件存储库的spark集群


分享到:


相關文章: