2012-07-19 46 views
-1

我有兩個簇作爲具有如何在文檔聚類後在特定集羣中實現查詢搜索?

Cluster : class 

DocumentList : List<Document> 
centroidVector : Map<String,Double> 

現在的問題是,當搜索查詢它被解析爲一個文件,然後製作成一個文檔對象,加入到documentIndex和其索引被構造一個類連同其他文件。我這樣做是因爲它必須經歷相同的過程,即標記,詞幹等。但是現在我想在查詢向量最相似的特定聚類中實現查詢搜索,即點積〜0.5 -1。所以我將不得不在查詢向量和集羣向量之間做點積。但我不知道如何實現它,因爲索引是在內存中創建的,並不存儲在數據庫中。仍在這樣做的過程中。

謝謝

+0

那麼你的問題到底是什麼呢?請重新考慮你的問題,你期待什麼作爲答案?到目前爲止,你沒有得到太多的答案,對吧?那是因爲你的問題含糊不清,「我該怎麼辦」,而不是「我該如何解決這個問題」。這不是*工作*這樣的互聯網網站! – 2012-07-19 18:50:56

+0

我應該將聚類向量保存在某個地方,以便在加載查詢時,我可以取點產品並只加載那些文檔以便在集羣中存在索引?它可以完成而不儲蓄?因爲問題的關鍵是集羣在查詢文檔被解析時與其一起構建。 – YuNo 2012-07-19 18:59:14

+0

取決於您未提供的100個因素。 – 2012-07-19 19:10:55

回答

2

聚類並不意味着搜索(即索引等)。這是一個分析步驟,旨在找到數據集中可能的未知結構,而不是更快地檢索信息。 你可以利用結構有時更快的搜索,但你需要一個可以利用這一點的索引。

只要做一個索引,如果你想做相似搜索!然後嘗試通過進行一些聚類來改進索引。

+0

數據集中可能存在未知結構的含義是什麼? – YuNo 2012-07-19 19:09:30

+0

這是一個*探索性*方法。你想*探索*你的數據。 – 2012-07-19 19:09:46

+0

哦對。我的看法是,有可能讓IR更快。謝謝。對於我發佈的模糊問題感到抱歉。不會再這樣做,並在下一次得到它。 – YuNo 2012-07-19 19:12:54