FileAlreadyExists pyspark

2016-11-28 62 views 3 likes

我找不到在hadoop pyspark中刪除hdfs輸出文件的方法。使用命令：FileAlreadyExists pyspark

hadoop fs -rmdir "path/outputFile.csv"

當我運行相同的輸出文件名的新工作，我得到的錯誤FileAlreadyExist。

任何人都知道如何處理這種情況？在此先感謝

來源

2016-11-28 Mr do

回答

如果您正在使用dataframes和數據幀格式的輸出，你過像下面這樣寫。

使用

df.write('filepath/filename.csv', mode='overwrite')

來源

2017-01-04 07:01:39 braj259

從命令行中，你可以使用命令：

hdfs dfs rm -r /path/to/myDir/

從星火，你可以做（Scala中）：

import org.apache.hadoop.fs.{FileSystem,Path} 
import java.net.URI 

val dirPath = "/path/to/my/dir/" 
val fileSystem = FileSystem.get(URI.create(dirPath), sqlContext.sparkContext.hadoopConfiguration) 
fileSystem.delete(new Path(dirPath), true)

來源

2016-11-28 11:30:10

您只需做到以下幾點：

import os 
os.system("hadoop fs -rmdir "path/outputFile.csv"")

來源

2016-12-29 07:55:03 sau

另一種解決方案pyspark：

import subprocess 
subprocess.call(["hadoop", "fs", "-rm", "path/outputFile.csv"])

您可以使用呼叫來執行，我們在命令行中執行任何任務

來源

2017-03-17 05:20:14

相關問題

1. Hadoop Map Reduce - 讀取HDFS文件 - FileAlreadyExists錯誤
2. `pyspark mllib`與`pyspark ml`包裝
3. Pyspark：從pyspark數據框中
4. PySpark - 由
5. 與Pyspark
6. 在PySpark
7. 在PySpark
8. PySpark- OneHotEncoding
9. 使用python導入pyspark錯誤Pyspark 3.5.1
10. 減少PySpark
11. pyspark saveAsSequenceFile with pyspark.ml.linalg.Vectors
12. Pyspark：在條款
13. pySpark toRowMatrix混亂
14. 在pyspark計數
15. Pyspark sparkSql問題
16. Pyspark with Elasticsearch
17. spark：subtractByKey問題（pyspark）
18. Pyspark：基於
19. Pyspark：顯示
20. PySpark評估
21. pyspark approxQuantile功能
22. UDF在pyspark
23. PySpark值錯誤
24. 如何Pyspark
25. Pyspark從RDD
26. pyspark導入CSV
27. pyspark外殼
28. PySpark當列表
29. pyspark：寫與reduceByKey
30. 在PySpark 2.0