2017-06-29 120 views
1

我是SnappyData的新手,我試圖將大量數據導入到它中。因此,數據是從不同的來源創建的,並作爲csv文件存儲在每個位置的zip文件中。可以說,拉鍊的結構是zip1,zip2 ... zipn,每個zip包含完全相同的(header.csv,detail1.csv,detail2.csv,... detail15.csv)每個.csv具有相同的結構,這意味着zip1中的detail5.csv與zipn中的detail5.csv具有相同的列。所以我的問題是如何自動輸入?是否有這樣一組數據的導入命令?第一次很容易,因爲我使用創建外部表,但我如何導入其餘的idata?或者,更好的辦法是,如何將所有數據導入列(因爲我們有很多數據)或行(因爲我們可以根據它所來自的位置來劃分數據)表?SnappyData將多個csv文件中的數據導入到列表或行表中

+0

並行讀取我將盡快爲您解答 – plambre

回答

0

導入CSV的最快方法是在DataframeReader中對CSV使用內置的火花支持。 Afaik,不支持您需要的定製級別。但是,您可以輕鬆地運行快速工作來選擇具有相同架構的這些存檔文件中的文件,並使用org.apache.spark.sql.DataFrameReader.csv

相關問題