查找頻繁項集

凡|分裂套。基本上，例如行號2是這樣的：

{{null}, {shop, atm}, {null}, {shop, atm}, {null}, {null}}

設定的順序並不起任何作用：{shop, amt} == {atm, shop}。

我想要做的兩件事情是什麼：

1）尋找共同的模式和頻繁項集。例如，設置{shop，atm}頻繁出現在行1,2和4中。

2）找出哪些元素（或元素集）遵循哪些元素。例如，商店經常其次是其他店：{shop, atm}, {shop} - 行1和{店}，{店，ATM} - 行4

第一個問題可以用Apriori算法很容易解決，是嗎？這很容易。但第二個問題呢？我該如何解決它？使用哪些算法？

2015-10-26 Bob

是的，Apriori會發現頻繁的項目集合（即支持度高的集合）。 FP-Tree通常更好，因爲它只需要兩次通過數據。

第二部分，規則生成涉及到頻繁項目集對，其中第一個是第二個超集。然後你可以形成一個規則，其中較小的集合是先行詞，並且集合的差異是隨後的。較大項目組的支持計數與較小項目的比值是規則的統計置信度。

這是所有相當基礎的數據挖掘的東西，並在維基百科等中有很好的描述。Weka和R等軟件包爲您做了很多工作。

2015-10-26 20:18:33 beldaz

回答