回覆@ j.jerrod.taylor的回答,讓我重述一下我的問題,以清除任何誤解。使用bin邊界的平滑值邊界:你在哪裏設置一個值位於下邊界和上邊界之間的值?
我是Data Mining的新手,正在學習如何通過「Bin Boundaries」使用等寬/距離分檔方法來平滑我的數據來處理嘈雜的數據。假設數據集1,2,2,3,5,6,6,7,7,8,9。我想執行:
- 距離分級用3個箱,並通過區邊界
- 平滑值基於在#1分級值。
基於在(漢,Kamber,裴,2012年,數據挖掘概念與技術,第3.2.2節嘈雜數據)的定義:
在平滑由區邊界,最小和給定倉中的最大值被識別爲倉邊界。然後每個箱值由最接近的邊界值替換。
- 間隔寬度=(最大值 - 最小值)/ K =(9-1)/ 3 = 2.7
濱間隔= [1,3.7),[3.7,6.4),[6.4, 9.1]
original Bin1:1,2,2,3 |分界線:(1,3)| Bin Boundaries的平滑值:1,1,1,3
- original Bin2:5,6,6 |分界線:(5,6)| Bin Boundaries的平滑值:5,6,6
- original Bin3:7,7,8,9 |分界線:(7,9)|平滑值由二進制邊界:7,7,,9
問: - 在哪裏呢屬於在BIN3使用斌邊界法分檔時,因爲它是從7和+1 -1從9?
你誤會我的問題上「用箱邊界平滑值」和斌的「邊界」。我重申了我的問題,以包括導致我的問題的所有細節。 – user2771721
@ user2771721我沒有誤解任何東西。看我的編輯。 –