2012-02-01 57 views
12

我知道lucene創建索引並存儲所有數據。任何一個人都可以告訴我數據如何存儲在平面文件中?或者他們使用什麼樣的算法將數據存儲在後端,以便他們可以快速檢索數據?lucene中如何存儲數據

回答

4

你可以閱讀這本書http://nlp.stanford.edu/IR-book/瞭解信息檢索系統中使用

+1

這是一本很好的入門級書籍,但它與這個問題有點不相關,仍然是一個很好的參考。 – linjunhalida 2013-10-21 12:53:51

+1

另外還有一本很棒的信息檢索書,它現在提供免費內容:https://ciir.cs.umass.edu/irbook/ – realjin 2016-12-26 01:35:19

4

你可以找到所有在file formats部分解釋了數據結構,算法和模型。

8

不知道這是你所要求的。但更一般的答案是他們使用/實現了一個Inverted Index。關於Lucene如何存儲它的具體細節,你可以在file formats(如米蘭說的)中找到。

但一般的想法是,他們存儲倒轉索引數據結構和其他輔助數據結構,以幫助快速回答查詢。例如,它爲每個文檔和每個詞的IDF存儲一個規範向量(inverse document frequency)。 Lucene也存儲實際的文檔字段,但是這在反轉索引之外。

相關問題