2010-06-16 98 views
8

我是新來的數據挖掘和混淆關聯規則和頻繁項目挖掘。對我來說,我認爲都是相同的,但我需要在這個論壇上專家的觀點關聯規則挖掘和頻繁項目挖掘有什麼區別

我的問題是

就是關聯規則挖掘&頻繁項集挖掘的區別? 謝謝

回答

16

關聯規則類似於「A,B → C」,這意味着當A和B發生時C往往會發生。一個itemset只是一個集合,比如「A,B,C」,並且如果它的項目傾向於共同出現,它就很頻繁。 The usual way查找關聯規則是查找所有頻繁項集,然後將它們後處理成規則。

8

頻繁項目集挖掘的輸入是:

  • 交易數據庫
  • 最小支持閾最小支持度

的輸出是:

  • 的所有的集合項目集至少出現在minsup事務中。項目集只是一組無序的項目。

協會[規則挖掘的輸入是:

  • 一個交易數據庫
  • 最小支持度閾值最小支持度
  • 最小置信度閾值最小置信度

輸出結果爲:

  • 該集合的所有有效關聯規則。關聯規則X→Y是兩個項目集X和Y之間的關係,使得X和Y不相交併且不是空的。有效的規則是支持高於或等於minsup並且置信度高於或等於minconf的規則。支持被定義爲sup(x - > Y)= sup(X U Y)/(事務數量)。置信度定義爲conf(x - > Y)= sup(X U Y)/ sup(X)。

現在,項目集和關聯規則挖掘之間的關係是,使用頻繁項集生成規則非常高效(請參閱Agrawal 1993年的論文)以獲取關於此想法的更多細節。因此,關聯規則挖掘將分爲兩步: - 挖掘頻繁項目集 - 通過使用頻繁項目集生成所有有效關聯規則。

1

頻繁項集挖掘是關聯規則挖掘的一個步驟。在對數據應用頻繁項目集挖掘算法(如Apriori,FPGrowth)之後,您將獲得頻繁項目集。從這些 發現頻繁項目集,您將生成關聯規則(通常由子集生成完成)。

4

頻繁項集挖掘是關聯規則挖掘的第一步。 生成所有頻繁項目集後,您可以逐個遍歷它們,逐個枚舉所有可能的關聯規則,計算它們的置信度,最後,如果置信度大於minConfidence,則輸出該規則。