如何在Xapian中使用不同的ID？

我試圖用Xapian實現搜索。我的文檔有自己的ID，即字符串。我已經按照tutorail說：如何在Xapian中使用不同的ID？

db.replace_document(doc.docno, doc_x)

其中doc.docno是標識文檔的字符串。但是當我搜索：

for match in enquire.get_mset(0, 10): 
    print match.document.get_docid()

的docID的恢復僅僅是一個簡單的數字。任何人都知道我是否應該做別的事情？

來源

2017-02-04 Carolina Bury

希望我的回答有幫助;如果你還有其他問題需要解決，那麼通常可以通過我們的郵件列表或IRC幫助你。 –

Xapian的文件ID始終是數字，但它提供了一種機制，爲您逐項以及由ID地址的文件。因此，replace_document()和delete_document()可以像您所做的那樣被賦予一個字符串，並且它們將查找與該術語匹配的所有現有文檔，並將其從數據庫中刪除。然後replace_document()將創建一個新文檔，重新使用最低匹配（數字）文檔ID，或者如果沒有文檔匹配，則使用新ID。

的documentation for this variant of replace_document()說：

一個常見的用途是允許從其他系統的UID很容易被映射到的Xapian條款。請注意，此方法不會自動將unique_term作爲術語添加，因此在以這種方式使用replace_document()時，您需要先撥打document.add_term(unique_term)。

如果您使用QueryParser，或者以其他方式下，很多的Xapian系統遵循term prefixing convention，那麼它的普遍使用Q作爲前綴。這意味着你可能需要調用replace_document()之前做到以下幾點：

doc_x.add_term('X' + doc.docno)

然後，當你查詢數據庫，你需要再次得到您的文檔ID了。您可以通過從術語表中讀取來做到這一點，但這有點煩瑣，因此在Document數據中存儲「外部」ID（Xapian外部）更爲常見。（我經常在那裏存儲JSON，爲我需要的內容提供一些增長空間;例如，包含在文檔數據中顯示搜索結果所需的所有信息有時會很有用）。

這種方法是涵蓋在Xapian's FAQ on working with existing unique ids，特別是第二部分，「使用外部唯一ID的術語」。

來源

2017-02-04 20:26:39

如何在Xapian中使用不同的ID？

回答

相關問題