2016-03-14 43 views
-1

這是我的作業。我不是要你在這裏做我的功課,我需要一個提示繼續前進。數據挖掘 - K近鄰

Page1

Page2

我知道什麼是K近鄰算法,但是我總是看到它在圖形上不是這樣。你們能告訴我該怎麼辦嗎?我一直在試圖找出如何開始這樣做,但我不能。我會很感激你們的一個小提示。

回答

1

此作業可幫助您瞭解KNN中的步驟。 KNN基於距離。找到K個最近的鄰居,然後可能投票給分類問題。

您的訓練數據可以被認爲是(x1,x2,y):年齡和利潤是特徵(x1,x2),而BUY或NOT BUY是標籤/輸出y。

要應用Knn,您需要計算基於特徵的距離。由於這兩個功能共享不同的單位(年份,美元),因此您應該將它們轉換爲非單位特徵,這就是所謂的標準化,即4.1中的單元特徵。之後,特徵向量看起來像(-0.4,-0.8)。如果使用了第4.1部分中的建議公式,則該數字應介於-1和0之間。

然後使用歸一化的特徵來計算每個訓練數據點與您感興趣的公司之間的距離(在講義中的歐幾里得)(也歸一化)。這在4.2中是必需的。

最後一步應該是選擇K最近的鄰居,並從這些鄰居的輸出中判斷是否購買或不購買。 (簡單的投票也許?)