2015-10-26 74 views
0

我有以下數據集: enter image description here查找頻繁項集

|分裂套。基本上,例如行號2是這樣的:

{{null}, {shop, atm}, {null}, {shop, atm}, {null}, {null}} 

設定的順序並不起任何作用:{shop, amt} == {atm, shop}

我想要做的兩件事情是什麼:

1)尋找共同的模式和頻繁項集。例如,設置{shop,atm}頻繁出現在行1,2和4中。

2)找出哪些元素(或元素集)遵循哪些元素。例如,商店經常其次是其他店:{shop, atm}, {shop} - 行1和{店},{店,ATM} - 行4

第一個問題可以用Apriori算法很容易解決,是嗎?這很容易。但第二個問題呢?我該如何解決它?使用哪些算法?

回答

1

是的,Apriori會發現頻繁的項目集合(即支持度高的集合)。 FP-Tree通常更好,因爲它只需要兩次通過數據。

第二部分,規則生成涉及到頻繁項目集對,其中第一個是第二個超集。然後你可以形成一個規則,其中較小的集合是先行詞,並且集合的差異是隨後的。較大項目組的支持計數與較小項目的比值是規則的統計置信度。

這是所有相當基礎的數據挖掘的東西,並在維基百科等中有很好的描述。Weka和R等軟件包爲您做了很多工作。