0
我有一個包含足球比賽投注的數據集。我使用3個參數進行異常值檢測,主隊獲勝的機率,比賽以平局結束的機率以及客隊獲勝的機率。使用R獲取DBSCAN中的噪音
每個記錄看起來是這樣的:
Home Draw Away
1.320 5.700 13.500
我已經確定了集羣但我有難以識別哪一個包含了噪音,最合理的似乎是最後一個簇(即,如果我有10個集羣,集羣10將是噪音。)
這是從我的數據集中使用DBSCAN
獲取異常值的正確方法,有沒有更好的方法?
另外我怎麼能知道有多少集羣我必須得到最後一個(有噪音的)沒有手動檢查?
我對統計編程和異常值檢測完全陌生,我很抱歉如果我完全聽不懂。