2017-04-04 142 views
0

如何將.dat文件加載到配置單元或cloudera或hdfs?如何將.dat文件加載到配置單元或hdfs?

是否有必要通過使用pig將此格式轉換爲結構化格式?

如果是的話有人可以給豬腳本將其轉換爲結構數據嗎?

我的數據是這樣的,當我在記事本中打開.dat文件++

Americas¤AME ¤ZONE¤ ¤¤¤Active¤ 
Asia-Pacific¤APA ¤ZONE¤ ¤¤¤Active¤ 
Europe¤EUR ¤ZONE¤ ¤¤¤Active¤ 
Middle East, India and Africa¤MAI ¤ZONE¤ ¤¤¤Active¤ 
Unidentified¤999 ¤ZONE¤ ¤¤¤Active¤ 
Afghanistan¤AF ¤COUNTRY¤ ¤MAI ¤ZONE¤Active¤3 
Albania¤AL ¤COUNTRY¤ ¤EUR ¤ZONE¤Active¤1 
Algeria¤DZ ¤COUNTRY¤ ¤MAI ¤ZONE¤Active¤3 
American Samoa¤AS ¤COUNTRY¤ ¤APA ¤ZONE¤Active¤3 
Andorra¤AD ¤COUNTRY¤ ¤EUR ¤ZONE¤Active¤1 
Angola¤AO ¤COUNTRY¤ ¤MAI ¤ZONE¤Active¤1 
+0

'.dat'不表示格式。您的數據似乎被分隔。請在您的文章中添加'od -Anone -N50 -w50 -tx1a yourfile'的結果 –

回答

0

你只是想加載HDFS的數據?現在

hadoop fs -put ./myfile.dat /home/hadoop/dir

您的文件在HDFS中,你可以使用分隔符在您的數據用它在你的代碼。 剛纔檢查與 '¤'

cat spch.dat | awk -F'¤' '{print $1,$2,$3,$4,$5}' 

美洲AME ZONE
亞太APA ZONE
歐洲EUR ZONE
中東,印度和非洲的MAI ZONE

// Pig 
A = LOAD '/hadoop/dir/myfile.dat' usig PigStorage('¤') as (field1,filed2 ..); 
// use the fields 
數據
相關問題