2011-09-01 67 views
1

我是Nutch和Hadoop的新手,並試圖按照教程http://wiki.apache.org/nutch/NutchHadoopTutorial安裝Nutch 1.3和Hadoop

所以我開始使用Nutch 1.3發佈。

儘管Hutch包含在Nutch中,但在構建之後,我沒有在教程中的/ nutch/search/conf下看到任何這些.sh或.xml文件。

我想知道是否必須先在相同的目錄結構中設置hadoop,或者在繼續Nutch安裝之前複製hadoop配置文件。

任何人都可以請把我放在正確的方向。我敢肯定,我失去了:-(

在此先感謝非常

回答

1

那麼Hadoop是不是在Nutch的不再包括在內,因爲1.3 ...我在郵件列表中有抱怨,但Nutch的目標羣組似乎只是變成了一個爬蟲組件,要使用它,你需要安裝hadoop here is good tutorial & solr(用於搜索)
有些人宣稱他們將會修復這個問題,但是隻針對Nutch1.4。它會結束。

+0

Thanks millebii。我有Nutch 1.3和Hadoop運行在Linux實例。我想弄清楚Nutch爬網是否使用Hadoop f rameworks來完成這項工作。我將嘗試今晚再次測試並在此處發佈我的配置。 – buzzy2020

+0

當然它確實......它實際上廣泛使用它。這就是您可以存儲幾TB頁面並仍然可以獲得可接受的性能thx以映射Hadoop的集羣/集羣的方式。 – millebii