2012-04-03 76 views
3

我剛剛在我的Rails應用程序(使用太陽黑子)上安裝了Solr。Solr - Reindex建議批量大小

我想solr重新索引我的一張桌子上的幾列,這些桌子很大(約50M記錄)。

建議使用的批量大小是多少?目前我正在使用1000並且運行了一天。

任何想法?

回答

2

批量大小不是那麼重要,1000可能是好的,儘管我不會比這更大。它取決於文檔的大小,每個文本有多少字節的索引。

您是否在每批後進行?這可能很慢。我在最後加載了一個23M文檔索引並進行了一次提交。文件很小,是書籍的元數據,大約需要90分鐘。爲了達到這個速度,我需要使用單個SQL查詢來加載。使用任何子查詢使其慢10倍左右。

我在DataInputHandler中使用JDBC支持,儘管我可能會轉而使用一些自定義代碼來進行數據庫查詢並提交批處理。

我聽說CSV輸入處理程序非常高效,因此可能會將數據轉儲爲CSV,然後使用該處理程序加載它。