我已閱讀this SO post,但我仍然需要隨機。如何將列表保存到spark中?
我有數據集,就像如下:
123456789
23458ef12
ef12345ea
111223345
我想從它那裏得到一些ranom線,所以我寫了如下pyspark代碼:
rdd = spark_context.textFile('a.tx').takeSample(False, 3)
rdd.saveAsTextFile('b.tx')
所以takeSample名錄返回,它會產生一個錯誤:
'list' object has no attribute 'saveAsTextFile'
'takeSample()'返回數組。你需要並行化並保存它。 – mrsrinivas