1
我已經在我的計算機中運行代碼並使用頻繁模式挖掘。我使用FP-growth,但是pyspark拋出一個錯誤,我不知道如何解決它,所以有人可以使用pyspark幫助我嗎?FP-growth - 交易中的項目必須是唯一的
首先,我得到
data = sc.textFile(somewhere)
這一步沒有錯誤的數據 然後
transactions = data.map(lambda line: line.strip().split(' '))
接下來是
model = FPGrowth.train(transactions, minSupport=0.2, numPartitions=10)
它拋出一個錯誤
An error occurred while calling o19.trainFPGrowthModel.:org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 1.0 failed 1 times, most recent failure: Lost task 1.0 in stage 1.0 (TID 3, localhost): org.apache.spark.SparkException: Items in a transaction must be unique but got WrappedArray(, , A, , Seq, 0xBB20C554Ack, 0xE6A8BA01Win, 0x7D78TcpLen, 20).
我的數據是這樣的
transactions.take(1)
[[u'03/07',
u' 10',
u' 22',
u' 04.439824',
u' 139',
u' 1',
u' 1',
u' spp_sdf',
u' SDFCombinationAlert',
u' Classification',
u' SenstiveData',
u' Priority',
u' 2',
u' PROTO',
u' 254',
u' 197.218.177.69',
u' 172.16.113.84']]
是的,我找到了問題的根源,我將確保數據的唯一性,並且非常感謝您。 –
另一個問題,我如何將結果保存到本地文件?我一直嘗試saveAsTextFile()和write(),但它返回一個錯誤,謝謝。 –
使用'model.save'。 – zero323