2016-05-30 85 views
0

我知道feature hashing是一種矢量化特徵的技術;機器學習非常普遍。 當你想在碰撞時跟蹤術語頻率時,我仍然困惑於它的工作原理。讓我們按照路易斯阿格里奇在this鏈接中給出的例子。特徵散列

比方說你的文字是:「有緣」,讓我們假設你有下一個散列函數:

h(the) mod 5 = 0 
h(quick) mod 5 = 1 
h(brown) mod 5 = 1 
h(fox) mod 5 = 3 

您的最終載體將是這樣的:(1,2,0,1,0 )

現在讓我們假設你的文字是:「快速的棕色狐狸快速快速快速快速」 現在最終的載體將是這樣的:(1,6,0,1,0)

我的問題是,我怎麼知道棕色只出現一次並快速出現5次?我如何跟蹤?

+0

這讓我感到困惑。如果你正試圖處理頻率TF-IDF和特性散列可能是一條路。 SO是ML網站。 – Paparazzi

回答

2

我的問題是,我怎麼知道棕色只出現一次而且快速出現5次?我如何跟蹤?

你不知道。這就是哈希的全部技巧。它統一一些事情,損失信息,所以你可以得到其他好處。如果你想跟蹤一切,你應該只使用,而不是散列。

另一個選項是更復雜的方法來散列,像在LSH技術,其使用家庭的散列函數來重構最終相似性,通過示出了給定的散列函數足夠大的樣品中使用的一個 - 它收斂於真實的相似性。