2017-05-25 58 views
1

我一直在研究決策樹學習者算法,以檢測欺詐性銀行交易。 到目前爲止,我已經根據我的數據集爲決策樹生成了規則集。 我還爲每個規則生成了顯着性值:我的數據集中有多少交易滿足特定規則,規則捕獲的欺詐百分比等。 現在,根據規則的重要性,我需要選擇top十條規則。決策樹學習者算法生成的規則是否相關?

我的問題是當我選擇前十條規則時,是否有一些規則相關的機會?

例如: 我正在處理的數據集有10000個事務。 決策樹算法給了我20條規則。 在20條規則中,我需要選擇前十條規則。 現在,假設規則1標識了50個事務,規則2標識了60個事務。規則1所標識的一些規則也有可能被規則2識別出來了嗎?

注:前十名交易是捕獲大部分欺詐行爲的交易。

回答

0

你不能以這種方式推導出概率。相關性是數據集的一個特徵屬性,可以爲每種情況計算。這是而不是你可以從給定的信息代數派生的東西。您的示例的答案可能會在整個理論範圍內變化:0到50.

在此應用程序中,您將不得不單獨計算哪些事務滿足哪些規則(10000 * 20列表),並根據這些實際統計數據計算相關性。

確定相互作用和個人有效性的一個領域是「交叉驗證」。例如,您將從集合中刪除一條規則,重新運行交易模型,並查看您的驗證指標(精確度,召回率等)有哪些變化。這通常是主成分分析的第一步。

我注意到你還沒有定義「前十條規則」。這十條規則是否單獨採取了大部分交易?誰的個人缺席錯過了大部分交易?也許你需要一套總體上具有最高準確性的十條規則?這些是三個截然不同的問題,並取決於你所問的相關性。