Lucene的索引內存中的索引是什麼樣的？

Lucene索引的內存中表示（與文件格式相反）是什麼樣的？整個反向索引是否加載到內存中作爲發佈列表數組（每個發佈列表包含文檔ID，文檔中的術語頻率和職位）？像Lucene的索引內存中的索引是什麼樣的？

class Posting { 
    private int docID; 
    private int termFreq; 
    private int[] termPositions; 
} 

class PostingList { 
    private Posting[] postings; 
} 

public class SomeClassThatHoldsTheIndexInMemory { 
    private PostingList[] index; // Indexed by some internal term ID? 
}

東西我明白一切，構成了指標（包括有關條款輔助信息）可能不會在內存中保存，但肯定的東西是什麼？

哪些類定義索引的內存中表示形式？如果索引看起來像上面那樣，Lucene如何從一個術語（一個字符串）轉到一個術語ID（一個int）？

來源

2013-03-09 tibbe

Lucene在內存中表示被定義爲認爲RAMDirectory類。基本上，這是一個HashMap的String（鍵）和（RAMFile s）。反過來，RAMFile是代表文件字節的字節緩衝區列表。您將存儲在FSDirectory中的相同信息。

Lucene存儲倒排索引。該索引被組織爲一組增量（可能未合併）的分段。每個片段屬於「索引提交」，每個片段或多或少都是另一個倒排索引。您甚至可以找到僅爲一個文檔保存倒排索引的「段」。

「Posting」或Document原始結構一旦添加到索引中就會丟失。此外，你不能迭代整個文檔集合（據我所知）。無論如何，沒有什麼能夠阻止你將你的帖子/文檔存儲在二級結構中，或者在索引中存儲它的序列化版本，或者將它的對象屬性一一存儲爲StoredField;也不在字段中定義自己的「可迭代」文檔ID。

DirectoryReader和SegmentReader s處理索引的內部結構。

在我使用Lucene的時候，我從來沒有看到類似於「術語ID」的東西。但是「文檔ID」是一個常見的概念。

來源

2013-03-09 18:04:00 mschonaker

Lucene的索引內存中的索引是什麼樣的？

回答

相關問題