--

Spark 基础练习



1. 下载 cloudera 的虚拟机: cloudera
下载并且安装 virtualBox,导入这个解压好的虚拟机

2. 我们利用 spark 来完成下列任务:
通过 Spark 读入 text 文本文件到 HDFS 3. 利用Spark Python 实现 单词记数功能 3.1 加载 wordcount.txt 到 HDFS

  $ hadoop fs -ls
请确保 words.txt 已经在 hadoop 的HDFS 中了。 如果没有的话,需要载入。
  $ hadoop fs -put words.txt
  $ hadoop fs -ls
3.2 在 ipython notebook 完成
  from pyspark import SparkContext as sc

  lines = sc.textFile('hdfs:/user/cloudera/words.txt')
  lines.count()
  words = lines.flatMap(lambda line: line.split(" "))
  tuples = words.map(lambda word :(word, 1))
  sounts = tuples.reduceByKey(lambda a, b: (a + b))
  counts.coalesce(1).saveAsTextFile('hdfs:/user/cloudera/wordcount/outputDir')
$ hadoop fs -copyToLocal wordcount/outputDir/part-0000 count.txt $ more count.txt