特徵散列

我知道feature hashing是一種矢量化特徵的技術;機器學習非常普遍。當你想在碰撞時跟蹤術語頻率時，我仍然困惑於它的工作原理。讓我們按照路易斯阿格里奇在this鏈接中給出的例子。特徵散列

比方說你的文字是：「有緣」，讓我們假設你有下一個散列函數：

h(the) mod 5 = 0 
h(quick) mod 5 = 1 
h(brown) mod 5 = 1 
h(fox) mod 5 = 3

您的最終載體將是這樣的：（1,2,0,1,0 ）

現在讓我們假設你的文字是：「快速的棕色狐狸快速快速快速快速」現在最終的載體將是這樣的：（1,6,0,1,0）

我的問題是，我怎麼知道棕色只出現一次並快速出現5次？我如何跟蹤？

2016-05-30 dbustosp

這讓我感到困惑。如果你正試圖處理頻率TF-IDF和特性散列可能是一條路。 SO是ML網站。 – Paparazzi

我的問題是，我怎麼知道棕色只出現一次而且快速出現5次？我如何跟蹤？

你不知道。這就是哈希的全部技巧。它統一一些事情，損失信息，所以你可以得到其他好處。如果你想跟蹤一切，你應該只使用包，而不是散列。

另一個選項是更復雜的方法來散列，像在LSH技術，其使用家庭的散列函數來重構最終相似性，通過示出了給定的散列函數足夠大的樣品中使用的一個 - 它收斂於真實的相似性。

2016-05-30 18:19:54 lejlot

回答