hadoop 第一个程序
我们来用 hadoop 实现第一个功能,统计一个文档中每个单词出现的次数。
常用文件处理步骤:
1. 下载 txt 文档:
https://ocw.mit.edu/ans7870/6/6.006/s08/lecturenotes/files/t8.shakespeare.txt
2. 文件另存为 words.txt
3. 启动一个 terminal
4. 把本地文件 words.txt 复制到 hadoop 系统中
>> hadoop fs -copyFromLocal words.txt
5. 可以在 hadoop 中复制
>> hadoop fs -cp words.txt words2.txt
6. 查看 hadoop 系统的文件
>> hadoop fs -ls
7. 把 hadoop 系统的文件 复制到本地
>> hadoop fs -copyToLocal words.txt local_words.txt
8. 删除 hadoop 文档
>> hadoop fs -re words2.txt
wordcount 的基本操作:
1. 把文档复制到 hdfs 系统
>> hadoop fs -copyFromLocal words.txt words3.txt
2. 查看 jar 所提供的一些工具,运行 jar 文件
>> hadoop jar /usr/jars/hadoop-examples.jar
查看可以运行的程序
3. 运行 wordcount
>> hadoop jar /usr/jars/hadoop-examples.jar wordcount words3.txt out3
4. 查看结果
>> hadoop fs -ls
>> hadoop fs -ls out3
5. 把结果复制到本地
>> hadoop fs -copyToLocal out3/part-r-00000 local_out.txt
6. 查看结果
>> more local_out.txt