2017-09-24 130 views
-2

正試圖學習Hadoop,我有服務器農場,有數百萬的網頁。我不知道哪些是十大最受歡迎的網頁。如何在Hadoop中做到這一點?前N個最受歡迎的網站

回答

2

看看基本的Wordcount示例。 您只需將'文字中的字'替換爲'網址'即可。

我才意識到我有這樣的事情已經上可以作爲一個圖書館,我寫了前段時間的例子github上:https://github.com/nielsbasjes/logparser/blob/master/examples/apache-hadoop-mapreduce/src/main/java/nl/basjes/hadoop/io/input/Wordcount.java

+0

好了,這有點兒跳過網絡日誌的攝入部分到HDFS –

+1

我只回答了這個問題。考慮到目前這個問題的清晰度,我選擇將自己限制在實際要求的範圍內。 (而不是爲他做功課) –

+0

當然,但你只是通過模糊地回答幫助吸血鬼 –