2011-03-10 88 views
2

Lucene具有很強的增量索引功能。從頭開始開發IR系統通常是一件痛苦的事情。 我想知道如果我可以使用低級別的Lucene APIs僅將它用作倒排索引,即用於倒排列表,位置信息,詞頻,idfs,現場存儲等的存儲...僅將Lucene用作倒排索引

底線是我想實現我自己的權重和文件評分。我知道Similarity班,但它沒有給我想要的靈活性。

回答

1

您當然可以創建自己的查詢類和您自己的記分員等。如果您需要全局數據,您可能會遇到的唯一問題。 (例如,在tf/idf中,你需要知道freq和inverse doc freq這個詞。)如果你的評分算法需要其他一些交叉文檔或者跨期元數據,你可能會遇到麻煩,因爲沒有我知道存儲這個的好方法。

但基本上,只要你的算法模糊了tf/idf或者只對每個文件有效,我認爲你應該沒問題。