2011-06-01 92 views
3

我們在具有1TB EBS卷的Amazon Web Services EC2實例上運行Solr以存儲索引,以便我們可以使用相同(只讀)索引輕鬆啓動其他服務器。但是,我們的指數很快就會超過1TB,而且我並不想處理多個EBS交易量以保持指數。另外,重新生成索引非常慢。我希望將索引生成 - 也許託管 - 轉移到Hadoop,最好是遷移到亞馬遜的Elastic MapReduce,儘管如果需要的話我可以設置單獨的Hadoop服務器。我們使用RightScale,因此他們的ServerTemplates庫可供我們使用。在Hadoop上運行Lucene/Solr的最佳方式是什麼?

什麼是開始在Hadoop上使用Lucene/Solr的最佳地點?

+0

你看過Katta(http://katta.sourceforge.net/)嗎?它提供了分片和分發Lucene indecies的手段。 – 2011-06-02 13:41:16

+0

我真的很喜歡我的索引創建速度加快,而不僅僅是交付。它看起來像Katta會幫助交付,但不是創造? – 2011-06-03 01:58:53

回答

1

看看ElasticSearch。您可以從Hadoop索引到ElasticSearch以進行批量加載。 Infochimps已經開源了一個名爲Wonderdog的ElasticSearch批量索引器,您可以查看它以獲取概念證明。

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

這是雲友好(詳見發現雲計算AWS插件),並且可以通過增加節點來保存索引比例放大/縮小。

1

您的索引是否分割?您可以分割索引並在幾個實例之間分配碎片。

相關問題