2011-09-01 116 views
4

我要開發市場購物籃分析的應用程序(使用先驗算法),我發現其中有超過90,000交易記錄的數據集。數據集Apriori算法

的問題是這樣的數據集沒有在它的項目的名稱,只包含項目的條形碼。

我剛剛開工的項目和先驗算法做研究,誰能幫助我瞭解這種情況下,如何使用下面的數據集來實現這個算法的最佳方式?

回答

1

這些類型的數據集是考慮的關鍵信息和連鎖店不會給你這些信息,但可以生成一些使用SQL Server的示例數據集。

1

該算法被定義獨立於用於該對象的標識符。如果您的問題爲P,該算法希望您的項目進行編號0,1,2,...然後只需掃描您的數據集和每一個人條形碼映射到:還有,你沒有貼「後面的數據集」數。

如果你有興趣,還有的是如何代表頻繁項一些文件集非常有效:http://www.google.de/url?sa=t&source=web&cd=1&ved=0CB8QFjAA&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.163.4827%26rep%3Drep1%26type%3Dpdf&ei=QdVuTsn7Cc6WmQWD7sWVCg&usg=AFQjCNGDG8etNN2B4GQ52pSNIfQaTH7ajQ&sig2=7r3buh8AcfJmn2CwjjobAg

1

該算法並不需要的物品的名稱。