2017-04-09 2080 views
0

我正在嘗試上傳一個有趣的數據集,該數據集位於名爲「來自交叉驗證堆棧交換的問題」(特定於此文件夾)中的Kaggle.com/datasets中在這裏找到文件「Questions.csv」:https://www.kaggle.com/stackoverflow/statsquestions)到Cloudera的Hue,以便我可以使用Hive查詢數據。在Hue中上傳/導入.csv文件 - 指定正確的分隔符等

但是,我無法正確選擇分隔符上傳.csv。我不明白的地方,選擇一個文本限定符,轉義字符等

我在Oracle VM VirtualBox的Linux機器,我從網上下載:https://www.virtualbox.org/wiki/Downloads

我使用Cloudera的分佈Hadoop訪問Hue:https://www.cloudera.com/downloads/quickstart_vms/5-8.html我特別使用Hue上的Metastore Manager來嘗試上傳Questions.csv數據文件。

任何幫助上傳/導入這樣的.csv將非常感激。

+0

_「我正在使用Hadoop的Cloudera發行版來訪問Hue」_ >>這是另一種方式! Hue是Hadoop的(半正式)UI。它可用於將CSV文件上載到HDFS *(除非它在第一次128 MB數據塊限制之後被無提示地截斷)*,映射文件上的Hive「EXTERNAL」表,在SQL中查詢表等,但對於每個單獨的任務都可以找到更好的工具。 –

+0

@SamsonScharfrichter 好的...你會推薦什麼其他工具? –

回答

0

您可以先創建一個表,這樣的參數:

CREATE TABLE databaseXX.tableXX (column1 string) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTableCreate/Drop/TruncateTable

然後在蜂巢創建表的細節,你將不得不上傳CSV文件在HDFS文件夾使用:

LOAD DATA INPATH '/tmp/myCsvFile' 
OVERWRITE INTO TABLE databaseXX.tableXX; 

我覺得它是使用Hue將csv文件轉換爲表格的最簡單方法。

相關問題