0
我在S3中有一個CSV文件,它有420行和54000列。我試圖在CSV加載到數據幀星火:PySpark sqlContext.read.load ArrayIndexOutofBounds錯誤
com.univocity.parsers.common.TextParsingException: java.lang.ArrayIndexOutOfBoundsException - 20480
有較小的CSV文件中沒有問題:
genoExp = sqlContext.read.load("/mnt/%s/RNA-Seq/GSE10846_Gene_Expression_Data.csv" %MOUNT_NAME, format='com.databricks.spark.csv', header='true', inferSchema = 'true')
這將返回一個錯誤。