基本上我有一個詞典,包含我的詞彙量的所有單詞作爲鍵,所有的0作爲價值。一袋詞的表示問題
要將文檔處理成一包文字表示形式,我曾使用適當的IEqualityComparer複製該詞典,並簡單地檢查該詞典是否包含文檔中的每個詞並將其增加爲鍵。
爲了獲得單詞表示袋的數組,我簡單地使用了ToArray方法。
這似乎工作正常,但我只是被告知字典不保證相同的密鑰順序,所以得到的數組可能代表單詞以不同的順序,使它無用。
我目前的想法是將單詞詞典的所有關鍵字都複製到一個ArrayList中,創建一個合適大小的數組,然後使用數組列表的indexOf方法來填充數組。
所以我的問題是,有沒有更好的方法來解決這個問題,我的看起來有點粗糙......並且不會因爲IEqualityComparer而有問題嗎?
作爲一個問題,你爲什麼要轉換成一個數組? – 2010-03-05 01:28:49
您能否提供一些示例代碼和數據以更好地說明您使用單詞袋模型要做什麼? – 2010-03-05 01:29:43
我想將它轉換爲一個數組,以便稍後可以使用餘弦相似度。 當你用單詞的頻率來表示一個文檔時,無論它的順序和其他屬性如何,都是一堆詞。 – brokencoding 2010-03-05 01:35:59