2016-04-27 348 views
0

回覆@ j.jerrod.taylor的回答,讓我重述一下我的問題,以清除任何誤解。使用bin邊界的平滑值邊界:你在哪裏設置一個值位於下邊界和上邊界之間的值?

我是Data Mining的新手,正在學習如何通過「Bin Boundaries」使用等寬/距離分檔方法來平滑我的數據來處理嘈雜的數據。假設數據集1,2,2,3,5,6,6,7,7,8,9。我想執行:

  1. 距離分級用3個箱,並通過區邊界
  2. 平滑值基於在#1分級值。

基於在(漢,Kamber,裴,2012年,數據挖掘概念與技術,第3.2.2節嘈雜數據)的定義:

平滑由區邊界,最小和給定倉中的最大值被識別爲倉邊界。然後每個箱值由最接近的邊界值替換。

  • 間隔寬度=(最大值 - 最小值)/ K =(9-1)/ 3 = 2.7
  • 濱間隔= [1,3.7),[3.7,6.4),[6.4, 9.1]

  • original Bin1:1,2,2,3 |分界線:(1,3)| Bin Boundaries的平滑值:1,1,1,3

  • original Bin2:5,6,6 |分界線:(5,6)| Bin Boundaries的平滑值:5,6,6
  • original Bin3:7,7,8,9 |分界線:(7,9)|平滑值由二進制邊界:7,7,,9

問: - 在哪裏呢屬於在BIN3使用斌邊界法分檔時,因爲它是從7和+1 -1從9?

回答

0

以正確的答案更新:

我終於類覆蓋這個話題,和對我自己的問題的回答是8可以屬於7或9這種情況被描述爲「打破平局」,其中值與任一邊界的距離相等。所有這些值都可以始終與相同的邊界相關聯,這是可以接受的。

這裏是介紹使用「平局決勝」當他們遇到相等的距離值的NIH分析論文的一個真實的例子:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3807594/

0

如果這是一個問題,那麼你正在計算你的垃圾箱寬度不正確。例如,創建直方圖是數據分箱的一個示例。

您可以閱讀this響應交叉驗證。但是一般來說,如果你試圖分解整數,那麼你的邊界將是雙重的。

例如,如果您希望2到6之間的所有內容都位於一個垃圾箱中,則實際邊界將爲1.5至6.5。由於您的所有數據都是整數,因此不會有任何不被分類的機會。

編輯:我也有同樣的一本書,雖然它看起來像我有一個不同的版本,因爲關於數據離散化的部分是在第2章而不是像你指出的第3章。根據你的問題,你似乎還沒有真正理解這個概念。

以下是有關數據預處理的第88頁第2章以外的內容。我正在使用文本的第二版。

例如,屬性值可以通過施加等寬 或等於頻率分級,然後由倉替換每個單元條值離散化的意思或 位數,如在由箱平滑裝置或箱平滑中位數。 8不屬於除第3箱以外的任何地方。這給了你兩個選擇。您可以採用所有數字的均值/中位數,這些數字位於箱3中,也可以使用箱3作爲類別。

在你的例子上的建築物,我們可以採用bin 3中的4個數字的平均值。這給了我們7.75。我們現在將使用7.75作爲該箱中的四個數字,而不是7,7,8和9.

第二種選擇是使用箱號。例如,一切都在倉3將得到的3類的標籤,一切都在倉2將獲得2的標籤等

+0

你誤會我的問題上「用箱邊界平滑值」和斌的「邊界」。我重申了我的問題,以包括導致​​我的問題的所有細節。 – user2771721

+0

@ user2771721我沒有誤解任何東西。看我的編輯。 –