如何在Spark中更有效地加載Parquet文件（pySpark v1.2.0）

我正在加載高維Parquet文件，但只需要幾列。我當前的代碼看起來像：如何在Spark中更有效地加載Parquet文件（pySpark v1.2.0）

dat = sqc.parquetFile(path) \ 
      .filter(lambda r: len(r.a)>0) \ 
      .map(lambda r: (r.a, r.b, r.c))

我發生了什麼事的心理模型是它加載的所有數據，然後扔出去，我不想要的列。我顯然更喜歡它甚至沒有閱讀這些專欄，從我所瞭解的木地板看來，這似乎是可能的。

因此，有兩個問題：

是我的心智模式錯了嗎？還是火花編譯器足夠聰明，只能讀取上例中的a，b和c列？
如何強制sqc.parquetFile()更有效地讀取數據？

來源

2015-04-22 jarfa

我覺得你的機會來獲得只讀需要的列會更高，如果你'map' _before_'filter' – sds

您應該使用星火據幀API：https://spark.apache.org/docs/1.3.0/sql-programming-guide.html#dataframe-operations

喜歡的東西

dat.select("a", "b", "c").filter(lambda r: len(r.a)>0)

或者你可以使用SQL星火：

dat.regiserTempTable("dat") 
sqc.sql("select a, b, c from dat where length(a) > 0")

來源

2015-05-21 07:45:35 kostya

Spark總是以懶惰的方式使用本機scala功能來做事。 scala代碼已經被編譯，它使運行時變得聰明，我的意思是懶惰的決定。使用鑲木地板時，應只讀取代碼引用的必要數據。當然，這取決於特定木地板文件的結構。關鍵是它會利用列式格式。我對Python不夠了解，但它應該能夠做同樣的事情。也許檢查pyspark Row類是否使用某種懶惰的魔法。一種快速驗證的方法是進行受控實驗，編寫另一個引用更多字段的rdd操作，但不輸出它們。然後，您可以比較兩次操作之間的掛鐘時間差異。根據底層parquet文件的一些相關細節，您可能看不到延遲加載的差異。

來源

2015-05-14 18:40:12 user3931226

從磁盤是隻會選定字段。「

」打開所有數據文件，但只讀取每個文件中包含該列值的部分，列值連續存儲，最大限度地減少處理單個列中的值所需的I/O。

本文檔是黑斑羚，我想讀的邏輯是一樣的火花太http://www.cloudera.com/documentation/archive/impala/2-x/2-1-x/topics/impala_parquet.html#parquet_data_files_unique_1

來源

2016-02-15 03:35:27 spats

如何在Spark中更有效地加載Parquet文件（pySpark v1.2.0）

回答

相關問題