2011-03-08 59 views
1

我試圖使用apriori算法推斷客戶帳戶上發生的錯誤。所以我有一個錯誤的表像這樣:Apriori算法 - 選擇事務處理列表

 
error_id error_code cust_id 
1   M015   100 
2   M020   101 
3   M016   100 
4   M019   100 
5   M015   102 

...

我要建立以期望給什麼錯誤M015。
(例如M015 - > ??)

問題是錯誤表包含數十萬行項目,並且有數百個可能的錯誤代碼。那麼,我是否真的很低自信地運行我的算法以儘可能多地找回規則?或者,我是否縮小了錯誤數據庫的範圍,以僅包含包含我感興趣的錯誤的「交易」?

(在這個例子中,例如,如果我在尋找規則M015,我應該限制交易表爲CUST_ID 100和102只行項目?)

回答

0

,對於最小的信心和支持度閾值,它如果你沒有得到足夠的結果,最好從高價值開始,然後降低它們。

但我認爲你應該保持高信心,否則結果將不會有用。例如,也許你希望有一個至少50%的信心。

是的,爲了優化,您可以修改算法以僅搜索包含您感興趣的項目的規則。這將使算法不會產生大量的規則。

但不要忘記,一個關聯不是因果關係。如果要根據時間進行一些預測,可以使用「順序規則挖掘算法」或「順序模式挖掘算法」,而不是關聯規則挖掘算法。