如何在文檔聚類後在特定集羣中實現查詢搜索？

-1

Cluster : class 

DocumentList : List<Document> 
centroidVector : Map<String,Double>

現在的問題是，當搜索查詢它被解析爲一個文件，然後製作成一個文檔對象，加入到documentIndex和其索引被構造一個類連同其他文件。我這樣做是因爲它必須經歷相同的過程，即標記，詞幹等。但是現在我想在查詢向量最相似的特定聚類中實現查詢搜索，即點積〜0.5 -1。所以我將不得不在查詢向量和集羣向量之間做點積。但我不知道如何實現它，因爲索引是在內存中創建的，並不存儲在數據庫中。仍在這樣做的過程中。

謝謝

來源

2012-07-19 YuNo

那麼你的問題到底是什麼呢？請重新考慮你的問題，你期待什麼作爲答案？到目前爲止，你沒有得到太多的答案，對吧？那是因爲你的問題含糊不清，「我該怎麼辦」，而不是「我該如何解決這個問題」。這不是*工作*這樣的互聯網網站！ – 2012-07-19 18:50:56

我應該將聚類向量保存在某個地方，以便在加載查詢時，我可以取點產品並只加載那些文檔以便在集羣中存在索引？它可以完成而不儲蓄？因爲問題的關鍵是集羣在查詢文檔被解析時與其一起構建。 – YuNo 2012-07-19 18:59:14

取決於您未提供的100個因素。 – 2012-07-19 19:10:55

聚類並不意味着搜索（即索引等）。這是一個分析步驟，旨在找到數據集中可能的未知結構，而不是更快地檢索信息。你可以利用結構有時更快的搜索，但你需要一個可以利用這一點的索引。

只要做一個索引，如果你想做相似搜索！然後嘗試通過進行一些聚類來改進索引。

來源

2012-07-19 18:56:02

數據集中可能存在未知結構的含義是什麼？ – YuNo 2012-07-19 19:09:30

這是一個*探索性*方法。你想*探索*你的數據。 – 2012-07-19 19:09:46

哦對。我的看法是，有可能讓IR更快。謝謝。對於我發佈的模糊問題感到抱歉。不會再這樣做，並在下一次得到它。 – YuNo 2012-07-19 19:12:54

如何在文檔聚類後在特定集羣中實現查詢搜索？

回答

相關問題