我有一個Lucene的用例,其中所需的搜索類型非常簡單。我可能會使用沒有存儲字段或任何複雜插件的DOCS_ONLY索引。這些文件是非結構化的英文文本。優化Lucene的壓縮比
對於此用例,要優化的最重要的事情是原始文檔與索引的磁盤大小的壓縮比。 Lucene索引應該儘可能小,即使犧牲增加的搜索和更新延遲也是如此。
我想知道我應該如何配置Lucene(任何版本)來完成此操作。特別是,應該使用什麼編解碼器?有沒有強調搜索速度的壓縮?有沒有其他設置我可以調整,將優化發佈列表壓縮?
tl; dr:對於Lucene中的DOCS_ONLY索引,我該如何使索引儘可能小?
確切的大小在這一點上很難說明,但在原始文檔大小方面100GB +並不在可能性範圍之外。更新和刪除不會經常發生。 – pg1989