2015-03-19 72 views
0

當我(假設1TB)導入我的數據從Oracle到通過SQOOP我HDFS,怎麼會被存儲在文件中的數據。 甲骨文已經結構化的數據,該數據將如何在HDFS?喜歡將它非規範化,並就像一個簡單的文本文件還是什麼? 它像映射器將其轉換以鍵值pairs.Now假設我有找人的年齡大於20的搜索條件,我們如何去寫一個地圖降低該程序。?搜索通過地圖數據,從而減少編程

回答

0

在Hadoop中有ship.If你必須以標準化形式的數據,然後sqoop單個表到HDFS,並把所有這些到一個文件夾,例如說「原始」沒有表關係的概念。 然後檢查你需要查詢,然後通過使用「蜂巢或豬」,然後讓這些表是在HDFS的另一個文件夾加入他們的表說:「denormed」。 那麼建立在這些數據蜂巢表,然後對它們進行查詢。

HDFS可以按照原樣存儲數據,但是您可以通過在sqooping或構建配置單元表時指定格式來改變格式,通常不優選文本,而是將其轉換爲二進制格式,如「avro」,「拼花地板「等 欲瞭解更多參考檢查此鏈接 http://www.cloudera.com/content/cloudera/en/documentation/cdh4/v4-3-2/CDH4-Installation-Guide/cdh4ig_topic_26_8.html 謝謝