2010-10-23 103 views

回答

1
  1. 使用正確的編程語言(EX:用VB可能是災難性的)
  2. 制定您所需要的信息和代碼的相應
  3. 計劃減少數據庫的大小或準備數據庫根據您的需要
  4. SUPER計算機(硬件是沒有的事,玩笑歸玩笑,你需要一個非常大的數據集尤指良好的計算機)
  5. 提高Apriori算法本身:

    •基於散列的項目集計數:相應的散列存儲桶計數低於閾值的k項目集不能很頻繁。
    •事務減少:在隨後的掃描中不包含任何頻繁的k-itemset無效的事務。
    •分區:數據庫中可能頻繁出現的任何項目集都必須在數據庫的至少一個分區中頻繁出現。
    •抽樣:在給定數據的子集上進行挖掘,降低支持閾值+確定完整性的方法。
    •動態項目集計數:僅在估計所有子集都頻繁時才添加新的候選項目集。

2

如果你是挖掘數據,你想節省時間,你應該考慮使用,而不是試圖優化先驗FPGrowth。

即使您優化Apriori,它也不會像FPGrowth的良好實施一樣快。

Apriori很重要,因爲它是第一個用於頻繁項目集挖掘和關聯挖掘的算法。但現在有一些更高效的算法。