我的要求是使用Nutch從HBASE抓取數據,然後將其索引到Solr中。我該如何繼續呢?我如何使用nutch從hbase抓取數據
2
A
回答
1
Nutch設計用於抓取網站,因此不知道如何抓取hbase。
既然你想索引的內容從HBase的進入Solr中,至少有兩個選項:
如果您有將數據保存到HBase的,其修改爲索引的數據到Solr中,後的數據的應用程序保存在hbase中。
您也可以編寫一個Map/Reduce作業,將數據從hbase發送到solr。
你也應該看看lily project。它集成了hbase和solr。
此外,如果您的搜索查詢很簡單,您可以設計您的hbase架構,以便您不需要solr。
1
我不認爲「抓取」是數據庫使用的正確術語。抓取是一種特殊的用例,當您想要「抓取」網頁時,您不知道自己開始的是什麼。你不知道終點是什麼。因此,你從某個角度着手,試圖找出那裏存在的東西。
說到數據庫,像HBase這樣的NOSQL數據庫。您已經「知道」該數據庫中的內容。您所要做的就是完全檢索信息,或根據特定查詢部分檢索其中的內容。
我看到,可能在你的情況下,你可以調整Lucene從HBase查詢的數據構建你的索引,然後將這些索引提供給Solr來創建一個完整的質保搜索應用程序。
希望這可能是你正在尋找的方向。
相關問題
- 1. 使用CrawlDbReader讀取Nutch抓取數據
- 2. 如何從Nutch抓取的數據中提取數據?
- 3. 如何使用apache nutch在少數主題上抓取數據?
- 4. 如何通過nutch查看存儲在hbase中的hbase數據
- 5. Nutch抓取不起作用
- 6. 如何使用豬腳本從網絡抓取的數據中提取特定數據(nutch)
- 7. 使用Nutch或Heritrix定向抓取
- 8. 如何讓Nutch的爬蟲抓取
- 9. 如何讓Apache Nutch的抓取永遠
- 10. 如何抓取Nutch中的圖像?
- 11. HBase Nutch error [Ljava.lang.StackTraceElement
- 12. 如何從Hbase讀取數據?
- 13. NullPointerException當我嘗試從使用newAPIHadoopRDD提取數據從hbase表
- 14. apache nutch不抓取網站
- 15. 使用Nutch如何抓取uisng ajax網頁的動態內容?
- 16. 如何使用nutch抓取忽略JavaScript和註釋?
- 17. 如何使用OAuth抓取Twitter數據
- 18. 使用抓取數據從ASP捲曲
- 19. 使用Java從Firebase中抓取數據
- 20. 如何從抓取工具獲取數據到我的網站?
- 21. 如何從網頁上抓取數據?
- 22. 如何從網站上抓取數據
- 23. 我如何從Spark中的Hbase表讀取數據?
- 24. 使用Scrapy抓取數據
- 25. 使用python抓取數據
- 26. 在nutch抓取/分段文件夾中查看數據
- 27. 如何使用python和xml從html中抓取數據?
- 28. 如何使用CSS Selector和BeautifulSoup從表格中抓取數據?
- 29. 如何從JSON數據使用AJAX抓取圖像JQUERY
- 30. 如何使用R從ajax網頁抓取數據?
非常感謝,我會嘗試impliment,所以它不可能從hbase抓取數據使用nutch嗎?還有一件事我想知道我是否可以從hdfs文件系統抓取?謝謝你回覆:) – Infinity
有沒有這種Map/Reduce作業的代碼示例? – kamaci