在Hadoop上運行Lucene/Solr的最佳方式是什麼？

我們在具有1TB EBS卷的Amazon Web Services EC2實例上運行Solr以存儲索引，以便我們可以使用相同（只讀）索引輕鬆啓動其他服務器。但是，我們的指數很快就會超過1TB，而且我並不想處理多個EBS交易量以保持指數。另外，重新生成索引非常慢。我希望將索引生成 - 也許託管 - 轉移到Hadoop，最好是遷移到亞馬遜的Elastic MapReduce，儘管如果需要的話我可以設置單獨的Hadoop服務器。我們使用RightScale，因此他們的ServerTemplates庫可供我們使用。在Hadoop上運行Lucene/Solr的最佳方式是什麼？

什麼是開始在Hadoop上使用Lucene/Solr的最佳地點？

來源

2011-06-01 Joe Emison

你看過Katta（http://katta.sourceforge.net/）嗎？它提供了分片和分發Lucene indecies的手段。 – 2011-06-02 13:41:16

我真的很喜歡我的索引創建速度加快，而不僅僅是交付。它看起來像Katta會幫助交付，但不是創造？ – 2011-06-03 01:58:53

看看ElasticSearch。您可以從Hadoop索引到ElasticSearch以進行批量加載。 Infochimps已經開源了一個名爲Wonderdog的ElasticSearch批量索引器，您可以查看它以獲取概念證明。

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

這是雲友好（詳見發現雲計算AWS插件），並且可以通過增加節點來保存索引比例放大/縮小。

來源

2011-06-04 01:55:12

您的索引是否分割？您可以分割索引並在幾個實例之間分配碎片。

來源

2011-07-10 13:28:29

在Hadoop上運行Lucene/Solr的最佳方式是什麼？

回答

相關問題