例如,每個文檔有幾個標籤。我可以多值字段和標記字段之間的得分差異
- 將它們索引爲單個文本字符串按空格分隔uisng WhiteSpaceTokenizer。 (例如, 「標籤1標籤2標籤3」)
- 使用KeywordAnalyzer( 例如
doc.addField("tags1", "tag1"); doc.addField("tags", "tag2"); doc.addField("tags", "tag23)
)
這兩種方法將工作separatly將它們添加到單個字段的名字多次。問題是這些類型的索引有多不同? (即場規格化因子,tf/idf計數,字段長度計算,斜率因子等)
蜘蛛網也將是一場比賽,儘管他可能不需要它,並且可以通過位置增量來防止。 – milan 2012-01-06 11:07:40
我知道。但我的標籤會注意包含空格,或者我會選擇diff標記器。關於lucene評分模型 – yura 2012-01-06 15:12:46