我想加載一個數據集與百萬行和1000列與sparklyr。 我在工作時在一個非常大的羣集上運行Spark。數據的大小似乎仍然過大。我曾嘗試兩種不同的方法:sparklyr爲大csv文件
這是數據集:(train_numeric.csv) https://www.kaggle.com/c/bosch-production-line-performance/data
1) - 將進入的.csv HDFS - spark_read_csv(spark_context,路徑)
2) - 讀取csv文件作爲常規[R數據框 - spark_frame < -copy_to(SC,R非數據幀)
兩種方式都完全正常工作的數據集的一個子集,但是當我嘗試讀取整個數據集失敗。
是否有人知道適用於大型數據集的方法?
感謝, 菲利克斯
我明白了什麼樣的錯誤你得到 – kevinykuo