0
我知道feature hashing是一種矢量化特徵的技術;機器學習非常普遍。 當你想在碰撞時跟蹤術語頻率時,我仍然困惑於它的工作原理。讓我們按照路易斯阿格里奇在this鏈接中給出的例子。特徵散列
比方說你的文字是:「有緣」,讓我們假設你有下一個散列函數:
h(the) mod 5 = 0
h(quick) mod 5 = 1
h(brown) mod 5 = 1
h(fox) mod 5 = 3
您的最終載體將是這樣的:(1,2,0,1,0 )
現在讓我們假設你的文字是:「快速的棕色狐狸快速快速快速快速」 現在最終的載體將是這樣的:(1,6,0,1,0)
我的問題是,我怎麼知道棕色只出現一次並快速出現5次?我如何跟蹤?
這讓我感到困惑。如果你正試圖處理頻率TF-IDF和特性散列可能是一條路。 SO是ML網站。 – Paparazzi