2015-04-23 79 views
0

我有一個包含足球比賽投注的數據集。我使用3個參數進行異常值檢測,主隊獲勝的機率,比賽以平局結束的機率以及客隊獲勝的機率。使用R獲取DBSCAN中的噪音

每個記錄看起來是這樣的:

Home Draw Away 
1.320 5.700 13.500 

我已經確定了集羣但我有難以識別哪一個包含了噪音,最合理的似乎是最後一個簇(即,如果我有10個集羣,集羣10將是噪音。)

這是從我的數據集中使用DBSCAN獲取異常值的正確方法,有沒有更好的方法?

另外我怎麼能知道有多少集羣我必須得到最後一個(有噪音的)沒有手動檢查?

我對統計編程和異常值檢測完全陌生,我很抱歉如果我完全聽不懂。

回答

0

請閱讀文檔。具有噪聲的觀測(單身)

整數向量編碼羣集成員編碼爲0

它的存在,只是搜索的dbscan說明書中的「噪聲」字。