2011-12-30 240 views
0

這是我的問題。我需要實現一個多目標決策樹算法。多目標是多標籤學習的延伸,其中標籤不是二元的,而是可以是連續的,分類的等等。例如,多標籤分類問題的標籤向量看起來像這樣{1,0,1,0,0,0,1},而對於多目標可能看起來像這樣{2,35,3,-2, 24}。 我的問題是這樣的。如果我有一個需要3個離散值的標籤,我如何在向量中表示它們? 可以說我有一個叫做工作的標籤,需要3個值,機械師,老師和運動員。我如何編碼這個標籤才能在矢量中使用它? 在決策樹中的每個節點上,爲了找到我的分割,我需要計算此節點中所有標籤向量的均值向量(我正在使用方差方法來查找我的分割)。如果我有二進制標籤,這很容易,因爲添加0和1不會造成任何問題。如果我用0,1,2編碼這3個作業,那麼這是問題,因爲添加具有標籤運動員的標籤矢量不僅僅是添加具有作業機制的矢量並且平均矢量不準確。多目標決策樹

讓我們來看看這個例子。我有這3個標籤:

  job: {mechanic,teacher,athlete} 
      married:{yes,no} 
      age: continuous value 

這說起來容易,婚後的標籤可以被編碼爲{0,1}和時效標記爲連續編號。但是,我如何編碼工作標籤?將它編碼爲{0,1,2}會導致下一個問題。設想一個節點中的2個標籤向量:{0,0,45}對應於機械師,已婚和45歲,{2,1,48}對應於運動員,未結婚,45歲。平均向量是{1,0.5,46.5}。有了這個向量,我可以預測,落入該節點的實例的年齡爲46.5歲,我可以說未結婚的實例(規則說大於或等於0.5是1),我可以說它的工作是一名教師。老師的工作是完全錯誤的,而其他人都可以。你現在看到編碼分類標籤的問題。一個幫助或建議?謝謝:d

+0

感謝downvoting沒有理由,您必須真正成爲負責人 – jojoba 2012-01-02 21:25:27

回答

1

如何把你的所有的離散值的功能,如果值超過2它們全部轉化爲功能,例如:

job: {mechanic, teacher, athlete} 
married:{yes, no} 
age: continuous value 

將導致一個5維vecor

(技工0/1,教師0/1,運動員0/1,已婚0/1,年齡0-inf)

+0

是的,這可能是一個解決方案:d。但是這可能需要大量的預測後處理,因爲它可以預測一個人是機械師和老師。您需要以某種方式存儲從索引0到索引2的標籤來自相同的標籤並分配最接近1的標籤。但我不能想到任何解決方案,不會有任何後處理或預處理數據和這個解決方案可能需要更少的努力。所以謝謝:D。我會保留這篇文章,以防萬一在接下來的幾天有另一種解決方案:D – jojoba 2011-12-30 18:39:43

+0

可能有更多的運氣http://stats.stackexchange.com/ – clyfe 2011-12-30 18:57:11

+0

謝謝:D。我會看看。 – jojoba 2011-12-30 19:09:00