我如何使用nutch從hbase抓取數據

我的要求是使用Nutch從HBASE抓取數據，然後將其索引到Solr中。我該如何繼續呢？我如何使用nutch從hbase抓取數據

2011-12-13 Infinity

Nutch設計用於抓取網站，因此不知道如何抓取hbase。

既然你想索引的內容從HBase的進入Solr中，至少有兩個選項：

如果您有將數據保存到HBase的，其修改爲索引的數據到Solr中，後的數據的應用程序保存在hbase中。

您也可以編寫一個Map/Reduce作業，將數據從hbase發送到solr。

你也應該看看lily project。它集成了hbase和solr。

此外，如果您的搜索查詢很簡單，您可以設計您的hbase架構，以便您不需要solr。

2011-12-13 14:57:30 codingFoo

非常感謝，我會嘗試impliment，所以它不可能從hbase抓取數據使用nutch嗎？還有一件事我想知道我是否可以從hdfs文件系統抓取？謝謝你回覆:) – Infinity

有沒有這種Map/Reduce作業的代碼示例？ – kamaci

我不認爲「抓取」是數據庫使用的正確術語。抓取是一種特殊的用例，當您想要「抓取」網頁時，您不知道自己開始的是什麼。你不知道終點是什麼。因此，你從某個角度着手，試圖找出那裏存在的東西。

說到數據庫，像HBase這樣的NOSQL數據庫。您已經「知道」該數據庫中的內容。您所要做的就是完全檢索信息，或根據特定查詢部分檢索其中的內容。

我看到，可能在你的情況下，你可以調整Lucene從HBase查詢的數據構建你的索引，然後將這些索引提供給Solr來創建一個完整的質保搜索應用程序。

希望這可能是你正在尋找的方向。

2011-12-16 15:16:57

回答