我是Python中的Spark和代碼的新手。我使用saveAsTextFile
保存處理的數據。數據是行列表,並在保存後變成字符串。當我通過numpy.loadtxt("filename", delimiter=',')
加載它們時(這種方法會自動將加載的數據轉換爲浮點數),有錯誤報告說因爲'['方括號',數據不能轉換爲浮點數。 那麼如何保存沒有方括號的行列表,或者使用那些括號,但是稍後加載並將它們正確地轉換爲浮點數?如何在Spark/Pyspark中通過saveAsTextFile保存沒有方括號的列表
對不起,我也是新來的SO。這裏是解釋爲什麼我的問題不是重複的。 鏈接列中的類似問題在Scala中,但我的是在Python中(儘管答案在Scala中)。此外,這裏有一個答案,使用replace
可以很好地解決我的問題(刪除方括號的列表),但這種方法還沒有出現在類似的問題中(我不確定我的第二點是否是解釋)已爲此問題的後續觀衆評論Python版本的replace
方法。
爲什麼使用numpy而不是SparkCsv閱讀器?你能顯示你的輸入和Spark代碼和預期的輸出嗎? –
@ cricket_007我打算使用之前編寫的tensorflow代碼來進行機器學習,所以我使用numpy加載數據。處理的數據不是太大,我不熟悉Spark,所以...... – orangedietc
@ cricket_007輸入數據很大,經過處理後,它們變成了每行的[data1,data2,data3]。預期的輸出(保存到文本文件)類似於data1,data2,data3,方括號被刪除。 – orangedietc