2016-12-26 78 views
2

我已閱讀this SO post,但我仍然需要隨機。如何將列表保存到spark中?

我有數據集,就像如下:

123456789 
23458ef12 
ef12345ea 
111223345 

我想從它那裏得到一些ranom線,所以我寫了如下pyspark代碼:

rdd = spark_context.textFile('a.tx').takeSample(False, 3) 
rdd.saveAsTextFile('b.tx') 

所以takeSample名錄返回,它會產生一個錯誤:

'list' object has no attribute 'saveAsTextFile' 
+0

'takeSample()'返回數組。你需要並行化並保存它。 – mrsrinivas

回答

3

takeSample()返回數組。你需要並行化並保存它。

rdd = spark_context.textFile('a.tx') 
spark_context.parallelize(rdd.takeSample(False, 3)).saveAsTextFile('b.tx') 

但最好的辦法是sample()將返回RDD

rdd.sample(False, 3).saveAsTextFile('b.tx') 
+0

@thinkerou:讓我知道如果你在執行上面的代碼時遇到任何問題。 – mrsrinivas

+0

謝謝@ mrsrinivas,你說得對,我會用樣品。 – thinkerou

相關問題