決策樹學習者算法生成的規則是否相關？

我一直在研究決策樹學習者算法，以檢測欺詐性銀行交易。到目前爲止，我已經根據我的數據集爲決策樹生成了規則集。我還爲每個規則生成了顯着性值：我的數據集中有多少交易滿足特定規則，規則捕獲的欺詐百分比等。現在，根據規則的重要性，我需要選擇top十條規則。決策樹學習者算法生成的規則是否相關？

我的問題是當我選擇前十條規則時，是否有一些規則相關的機會？

例如：我正在處理的數據集有10000個事務。決策樹算法給了我20條規則。在20條規則中，我需要選擇前十條規則。現在，假設規則1標識了50個事務，規則2標識了60個事務。規則1所標識的一些規則也有可能被規則2識別出來了嗎？

注：前十名交易是捕獲大部分欺詐行爲的交易。

你不能以這種方式推導出概率。相關性是數據集的一個特徵屬性，可以爲每種情況計算。這是而不是你可以從給定的信息代數派生的東西。您的示例的答案可能會在整個理論範圍內變化：0到50.

在此應用程序中，您將不得不單獨計算哪些事務滿足哪些規則（10000 * 20列表），並根據這些實際統計數據計算相關性。

確定相互作用和個人有效性的一個領域是「交叉驗證」。例如，您將從集合中刪除一條規則，重新運行交易模型，並查看您的驗證指標（精確度，召回率等）有哪些變化。這通常是主成分分析的第一步。

我注意到你還沒有定義「前十條規則」。這十條規則是否單獨採取了大部分交易？誰的個人缺席錯過了大部分交易？也許你需要一套總體上具有最高準確性的十條規則？這些是三個截然不同的問題，並取決於你所問的相關性。

2017-05-25 15:29:36 Prune

回答