我有幾個數字數據集需要創建概念層次結構。目前,我一直在通過觀察數據(和相應的線圖)手動完成此操作。基於我的直覺,我創建了一些可接受的層次結構。生成數字概念層次結構的算法
這似乎是一個可以自動化的任務。 有誰知道是否有算法來生成數值數據的概念層次結構?
舉個例子,我有以下數據集:
Bangladesh 521
Brazil 8295
Burma 446
China 3259
Congo 2952
Egypt 2162
Ethiopia 333
France 46037
Germany 44729
India 1017
Indonesia 2239
Iran 4600
Italy 38996
Japan 38457
Mexico 10200
Nigeria 1401
Pakistan 1022
Philippines 1845
Russia 11807
South Africa 5685
Thailand 4116
Turkey 10479
UK 43734
US 47440
Vietnam 1042
alt text http://i40.tinypic.com/fd7xxu.jpg
爲此我創建了以下層次結構:
- 最低(< 1000)
- LOW(1000 - 2500)
- 介質(2501 - 7500)
- HIGH(7501 - 30000)
- 最高(> 30000)
謝謝,這似乎是我所需要的。我正在閱讀它。 – 2010-03-25 17:06:26
聚類這個數據集的問題(當然,任何實際上並不指向某個空間的數據集)都會選擇一個合適的距離度量標準,以適應任何算法。我猜測一個簡單的歐幾里得距離會導致問題,因爲你在一些距離更近的地方尋找小範圍(1000-2500),而在更遠的地方(7501-30000)尋找不到的地方。也許像日誌空間的歐幾里德?至少應該輕鬆一點。 – Dusty 2010-03-25 17:11:21