--

hadoop 第一个程序

我们来用 hadoop 实现第一个功能，统计一个文档中每个单词出现的次数。

常用文件处理步骤：

1. 下载 txt 文档：
https://ocw.mit.edu/ans7870/6/6.006/s08/lecturenotes/files/t8.shakespeare.txt

2. 文件另存为 words.txt

3. 启动一个 terminal

4. 把本地文件 words.txt 复制到 hadoop 系统中
>> hadoop fs -copyFromLocal words.txt

5. 可以在 hadoop 中复制
>> hadoop fs -cp words.txt words2.txt

6. 查看 hadoop 系统的文件
>> hadoop fs -ls

7. 把 hadoop 系统的文件复制到本地
>> hadoop fs -copyToLocal words.txt local_words.txt

8. 删除 hadoop 文档
>> hadoop fs -re words2.txt

wordcount 的基本操作：

1. 把文档复制到 hdfs 系统
>> hadoop fs -copyFromLocal words.txt words3.txt

2. 查看 jar 所提供的一些工具，运行 jar 文件
>> hadoop jar /usr/jars/hadoop-examples.jar
查看可以运行的程序

3. 运行 wordcount
>> hadoop jar /usr/jars/hadoop-examples.jar wordcount words3.txt out3

4. 查看结果
>> hadoop fs -ls
>> hadoop fs -ls out3

5. 把结果复制到本地
>> hadoop fs -copyToLocal out3/part-r-00000 local_out.txt

6. 查看结果
>> more local_out.txt

Posted on 2018-07-31 by Yifei