2017-04-17 45 views
0

我試圖使用Lucene 4.10(使用TIKA和索引解析它們)爲大約600mb文件建立索引。一切工作正常,但我注意到.pos文件是超過1GB,看起來非常可疑,有沒有辦法減小.pos文件的大小或禁用它呢?Lucene .pos文件大小

感謝

回答

0

看一看這裏:https://lucene.apache.org/core/6_2_0/core/index.html?org/apache/lucene/codecs/lucene50/Lucene50PostingsFormat.html

.pos文件是需要像「堆棧溢出」的確切順序搜索多個單詞的長期立場。

你可以通過設置setStoreTermVectorPositions(false)它的FieldFormat禁止他們的創作: https://lucene.apache.org/core/6_5_0/core/org/apache/lucene/document/FieldType.html

1GB位置的聲音很多,這是不正常這個大。在我的情況下,.pos文件大約是索引大小的10%,並且在所有文本字段上都啓用了位置。

+0

謝謝,奇怪的是,在我的情況下,.pos文件是索引文件中最大的,它的重要性更大,大約是索引大小的90%,也許是因爲相對老版本的Lucene(4.10.4 )?如果我禁用它,那麼它可以找到「溢出堆棧」和「堆棧溢出溢出」,或者第二個不相關? – SlavaG

+0

它會發現所有包含「堆棧」和「溢出」的頁面,但它們可能不在同一段落中。這會產生與查詢相關性較低的結果。 – sleeplessnerd

+0

謝謝,這實際上對我很好:) – SlavaG