2017-02-11 86 views
1

我將一些來自tableau下層數據集的數據導出爲csv。當我試着使用less查看它,它說,它may be a binary file. See it anyway?將Tableau csv導入Spark

然而,當我做了

cat file.csv | cut -d ',' -f 1

它顯示了人類可讀的數據(雖然它不打印第一場,但整條線)。

所以我試圖將其加載到星火2:

data = sqlContext.read.csv("file.csv") 
data.show(5) 

我也得到:

+--------------------+ 
|     _c0| 
+--------------------+ 
|��Cluster ...| 
+--------------------+ 

任何想法,我怎樣才能使一個數據幀出這個所謂的二進制文件?

+0

請嘗試使用此鏈接中的方法將您的tableu數據轉換爲CSV:http://www.vizwiz.com/2014/03/the-greatest-tableau-tip-ever-exporting.html - 您會得到現在可讀取的csv? – Yaron

回答

1

最後我發現它一定是UTF-16文本文件。所以我用

iconv -f UTF-16 -t UTF-8//TRANSLIT file.csv > file-utf8.csv 

將文件轉換爲utf-8/ascii並轉換後的文件加載正常。