4

爲什麼在決策樹分支中使用Shannon熵度量?決策樹中的Shannon熵度量

熵(S)= - P(+)的日誌(P(+)) - P( - )的日誌(P( - ))

我知道這是沒有的量度。編碼信息所需的位數;分佈越均勻,熵越多。但我不明白爲什麼它經常用於創建決策樹(選擇分支點)。

回答

5

因爲你想問問題,會給你最多的信息。我們的目標是儘量減少樹中決策/問題/分支的數量,因此您首先提供能夠提供最多信息的問題,然後使用以下問題填寫詳細信息。

2

爲了決策樹,忘記比特數,只關注公式本身。考慮一個二元(+/-)分類任務,您的訓練數據中包含相同數量的+和 - 例子。最初,熵自p(+) = p(-) = 0.5開始爲1。您希望將數據拆分爲最能減少熵的屬性(即使得類的分佈最不隨機)。如果選擇一個與類完全無關的屬性A1,那麼在將數據按A1的值拆分後,熵仍然爲1,因此熵不會減少。現在假設另一個屬性,A2,完全分開的類(例如,類總是+A2="yes"始終-A2="no"。在這種情況下,熵是零,這是最理想的情況。

在實際情況下,屬性通常不會對數據進行完美分類(熵大於零),因此您選擇「最佳」對數據進行分類的屬性(提供最大的熵降低),一旦數據以這種方式分離,另一個屬性從第一次分裂中以類似的方式爲每個分支選擇,以進一步減少沿着該分支的熵。這個過程繼續構建樹。

+0

根據你的解釋你能解釋爲什麼需要登錄功能嗎? – kamaci 2013-02-23 20:25:18

+1

如果你注意到'p(+)= 1 - p( - )',在方程中有'log'函數給出了它的好的性質,當'p(+)'是函數的最小值0或1,並且當p(+)是1/2時(即,當兩個類別具有相同的可能性時)具有其最大值(1)。公式本身不需要「日誌」功能。當'p(+)'爲零或1時,可以使用另一個對稱函數,它的最大值爲0.5,並且隨着距離p(+)= 0.5'的距離單調遞減。 – bogatron 2013-02-23 20:52:37

1

你似乎有對方法背後的數學的理解,但這裏有一個簡單的例子,可以給你一些背後原因的直覺:想象一下,你在一個被100名學生佔據的教室裏。每個學生都坐在辦公桌前,辦公桌有10排10列。 100名學生中有1人擁有您可以擁有的獎品,但您必須猜出是哪位學生獲得獎品。問題在於,每當你猜測,獎品的價值就會下降。你可以先問問每個學生是否有獎。然而,最初,你只有1/100的機會正確猜測,並且很可能當你發現獎品時,它將毫無價值(把每一個猜測看作決策樹中的一個分支)。相反,您可以提出廣泛的問題,以顯着減少每個問題的搜索空間。例如「學生是否在第1到第5行?」無論答案是「是」還是「否」,您都會將樹中潛在分支的數量減少一半。