1. 下载 cloudera 的虚拟机:
cloudera
下载并且安装 virtualBox,导入这个解压好的虚拟机
2. 我们利用 spark 来完成下列任务:
通过 Spark 读入 text 文本文件到 HDFS
3. 利用Spark Python 实现 单词记数功能
3.1 加载 wordcount.txt 到 HDFS
$ hadoop fs -ls请确保 words.txt 已经在 hadoop 的HDFS 中了。 如果没有的话,需要载入。
$ hadoop fs -put words.txt $ hadoop fs -ls3.2 在 ipython notebook 完成
from pyspark import SparkContext as sc lines = sc.textFile('hdfs:/user/cloudera/words.txt') lines.count()
words = lines.flatMap(lambda line: line.split(" "))
tuples = words.map(lambda word :(word, 1))
sounts = tuples.reduceByKey(lambda a, b: (a + b))
counts.coalesce(1).saveAsTextFile('hdfs:/user/cloudera/wordcount/outputDir')$ hadoop fs -copyToLocal wordcount/outputDir/part-0000 count.txt $ more count.txt