2009-06-27 113 views

回答

3

我寫了一篇關於如何並行Lucene索引一個可怕的職位。它真的寫得非常糟糕,但你會發現它here(有一些示例代碼,你可能想看看)。

無論如何,主要的想法是你把你的數據分成大塊,然後在單獨的線程上工作。當每件作品完成後,你將它們全部合併成一個索引。使用上述方法,我能夠索引約4百萬條記錄。 2小時。

希望這給你一個從這裏走的想法。

+0

嗨埃斯特班 謝謝你的迴應。我正在尋找類似於你所做的事情。您能否在您的博客中張貼一些代碼片段。 謝謝, Gokul – Gokul 2009-06-27 04:52:43

1

除了寫入方面(合併因子)和計算方面(並行化)之外,這有時是由於最簡單的原因:輸入緩慢。許多人從數據庫建立Lucene索引。有時候你發現這個數據的特定查詢過於複雜而且速度很慢,無法很快返回所有(200萬?)記錄。嘗試只查詢和寫入磁盤,如果它仍然在5-9小時的順序,你已經找到了一個優化的地方(SQL)。