国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

hadoop運行第一個實例wordcount

light / 1481人閱讀

摘要:引語這幾周事情比較多,兩周沒寫博客了,這周總算把的實例給運行起來,然后跑了一下官方的例子用于統(tǒng)計文件中單詞出現(xiàn)的次數(shù)。接下來是我成功運行實例的記錄。

引語:

這幾周事情比較多,兩周沒寫博客了,這周總算把hadoop的實例給運行起來,然后跑了一下官方的wordcount例子(用于統(tǒng)計文件中單詞出現(xiàn)的次數(shù))。
接下來是我成功運行實例的記錄。運行的前提是安裝配置好hadoop(可以參考我上一篇博客:hadoop偽分布式安裝記錄)

運行步驟:

1.先準(zhǔn)備一個包含單詞的文件,然后將這個文件上傳到linux服務(wù)器上。
文件內(nèi)容:

hello world hello hadoop
abc hadoop aabb hello word
count test hdfs mapreduce

2.使用hdfs的命令創(chuàng)建好輸入文件的目錄(hfds的命令基本上和linux一樣,可以去官網(wǎng)上查看下) hadoop fs -mkdir /input/wordcount
然后在創(chuàng)建一個輸出目錄/output為后續(xù)hadoop存放運行結(jié)果

3.然后將文件放入到hadoop的文件系統(tǒng)中hadoop fs -put /home/file1 /input/wordcount
創(chuàng)建完可以使用ls檢查一下是否文件存在 hadoop fs -ls -R /

4.再進(jìn)入到hadoop的share/hadoop/mapreduce中,有一個hadoop-mapreduce-examples-3.1.2.jar
通過hadoop jar hadoop-mapreduce-examples-3.1.2.jar 可以查看到這個官方給的例子里面有哪些程序可以執(zhí)行
如下:

可以看到很多自帶的使用程序,我們這里就使用wordcount。
執(zhí)行命令

hadop jar hadoop-mapreduce-examples-3.1.2.jar /input/wordcount /output/wordcount

最后的兩個參數(shù)一個是文件的輸入路徑,就是我們之前創(chuàng)建再hdfs的路徑,第二個參數(shù)是文件的輸出路徑,
如果沒有的話hadoop會自己創(chuàng)建。
5.然后首先會進(jìn)行map的過程,在使reduce的過程,這里可以理解為分而治之的步驟,map是多臺機(jī)器上分別處理文件的中間結(jié)果,然后通過reduce(減少,聚合)把結(jié)果給匯總。
而且是先map執(zhí)行完再回執(zhí)行reduce。

6.去輸出文件中查看結(jié)果,output/wordcount里面會有三個文件,有一個帶part的就是輸出結(jié)果,可以使用hadoop fs -cat 輸出文件的路徑查看結(jié)果

總結(jié):

雖然看起來步驟不是很多,內(nèi)容也比較簡單,但是坑還是挺多的。要注意的點:
1.偽分布式搭建的hadoop,hostname這個要設(shè)置好,要和配置文件中一致,實在不行就直接指定127.0.0.1(反正我是這樣解決了)
2.yarn的內(nèi)存配置要合理,太小了發(fā)現(xiàn)會一直卡在runing job這個環(huán)節(jié)或者一直卡在map 0%這里,此時要去yarn-site中設(shè)置好內(nèi)存的大小(根據(jù)實際服務(wù)器的內(nèi)存設(shè)置,我設(shè)置的是2048M后就可以了)
3.如果發(fā)現(xiàn)卡在某個環(huán)節(jié),記得去查看hadoop安裝目錄下的logs,里面有很多日志類型,包括nodeManageer,resourceManager等,執(zhí)行不動了,日志里面會有相應(yīng)的日志和提示可以幫助發(fā)現(xiàn)問題。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/76283.html

相關(guān)文章

  • Hadoop的“Hello world”---WordCount

    摘要:運行程序運行你的根目錄運行這條命令后,會啟動一個來運行程序,而且會在集群上創(chuàng)建一個文件夾,將結(jié)果存在其中。 在安裝并配置好Hadoop環(huán)境之后,需要運行一個實例來驗證配置是否正確,Hadoop就提供了一個簡單的wordcount程序,其實就是統(tǒng)計單詞個數(shù)的程序,這個程序可以算是Hadoop中的Hello World了。 MapReduce 原理 MapReduce其實就是采用分而治之的...

    sunnyxd 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<