2011-12-13 42 views

回答

1

Nutch設計用於抓取網站,因此不知道如何抓取hbase。

既然你想索引的內容從HBase的進入Solr中,至少有兩個選項:

如果您有將數據保存到HBase的,其修改爲索引的數據到Solr中,後的數據的應用程序保存在hbase中。

您也可以編寫一個Map/Reduce作業,將數據從hbase發送到solr。

你也應該看看lily project。它集成了hbase和solr。

此外,如果您的搜索查詢很簡單,您可以設計您的hbase架構,以便您不需要solr。

+0

非常感謝,我會嘗試impliment,所以它不可能從hbase抓取數據使用nutch嗎?還有一件事我想知道我是否可以從hdfs文件系統抓取?謝謝你回覆:) – Infinity

+0

有沒有這種Map/Reduce作業的代碼示例? – kamaci

1

我不認爲「抓取」是數據庫使用的正確術語。抓取是一種特殊的用例,當您想要「抓取」網頁時,您不知道自己開始的是什麼。你不知道終點是什麼。因此,你從某個角度着手,試圖找出那裏存在的東西。

說到數據庫,像HBase這樣的NOSQL數據庫。您已經「知道」該數據庫中的內容。您所要做的就是完全檢索信息,或根據特定查詢部分檢索其中的內容。

我看到,可能在你的情況下,你可以調整Lucene從HBase查詢的數據構建你的索引,然後將這些索引提供給Solr來創建一個完整的質保搜索應用程序。

希望這可能是你正在尋找的方向。