--

Spark 基础练习

1. 下载 cloudera 的虚拟机： cloudera
下载并且安装 virtualBox，导入这个解压好的虚拟机

2. 我们利用 spark 来完成下列任务：
通过 Spark 读入 text 文本文件到 HDFS 3. 利用Spark Python 实现单词记数功能 3.1 加载 wordcount.txt 到 HDFS

  $ hadoop fs -ls

请确保 words.txt 已经在 hadoop 的HDFS 中了。如果没有的话，需要载入。

  $ hadoop fs -put words.txt
  $ hadoop fs -ls

3.2 在 ipython notebook 完成

  from pyspark import SparkContext as sc

  lines = sc.textFile('hdfs:/user/cloudera/words.txt')
  lines.count()

  words = lines.flatMap(lambda line: line.split(" "))

  tuples = words.map(lambda word :(word, 1))

  sounts = tuples.reduceByKey(lambda a, b: (a + b))

  counts.coalesce(1).saveAsTextFile('hdfs:/user/cloudera/wordcount/outputDir')

$ hadoop fs -copyToLocal wordcount/outputDir/part-0000 count.txt $ more count.txt

Posted on 2018-08-29 by Yifei