我想索引大約300萬個solr文本文檔。這些文件中大約1/3是電子郵件,其中包含大約1-5段文字。剩下的2/3文件每句只有幾句話。優化Lucid/Solr來索引大型文本文檔
它需要Lucid/Solr將近1小時才能完全索引正在處理的整個數據集。我試圖找到優化這個方法。我已經設置了Lucid/Solr來只提交每100,000個文件,並且它一次對50,000個文件的批量文件進行索引。內存不再是一個問題,因爲批處理會一直保持在1GB左右的內存。
整個數據集最初都必須編入索引。這就像一箇舊系統必須加載到一個新系統,所以數據必須被索引,並且需要儘可能快,但是我不確定要優化這個時間需要考慮哪些領域。
我在想,也許有很多像「這,一個,因爲,應該,如果......」這樣的小詞彙造成了很多開銷並且只是「噪音」字。我很好奇,如果我將它們切斷,如果它會大大加快索引時間。我一直在看Lucid文檔一段時間,但我似乎無法找到一種方法來指定什麼詞不索引。我遇到了「停止列表」一詞,但沒有多過提及它。
是否有其他方法可以使這種索引變得更快,或者我只是堅持1小時索引時間?
感謝您的回覆。你是否碰巧有你的基準測試數據,將索引索引時間與斯芬克斯索引時間進行比較?想知道是否真的值得我的時間來加快索引時間的調查。雖然索引時間對我的應用程序非常重要,但由於其他原因,我必須使用solr。 –