我在hdfs中有一個非常大的hadoop序列文件。 從中獲取數據的最佳方式是什麼?即選擇記錄等。hadoop - 從非常大的序列文件中獲取數據的最佳方式是什麼?
可以通過配置單元完成嗎? 我如何在序列文件的配置單元中創建一個表?
感謝
我在hdfs中有一個非常大的hadoop序列文件。 從中獲取數據的最佳方式是什麼?即選擇記錄等。hadoop - 從非常大的序列文件中獲取數據的最佳方式是什麼?
可以通過配置單元完成嗎? 我如何在序列文件的配置單元中創建一個表?
感謝
如果您需要您應該考慮將數據加載到某種(DB或NoSQL的商店,如HBase的,Accumulo)的數據存儲中的數據「快速」訪問。
另一種選擇(如果你可以重新寫你的數據),是考慮使用一個MapFile - 這對你的序列文件中的密鑰創建索引並提供更快獲得比較完整的文件掃描數據。
否則,如果你想使用蜂巢,有關於這個確切主題蜂巢郵件列表上線:
我的注意力不在於關注性能的「快速」。它關注發展的'快速'。我只需要進行一些隨機分析。不要爲每一個或每次我想要寫mapreduce。 如果我使用hbase,我如何將序列文件加載到hbase? – user1251654 2012-07-08 05:08:32
如果隨機分析是你之後的話,那麼我會考慮使用Pig。至於將序列文件加載到hbase中,您需要編寫map reduce作業來讀取seq文件並將數據寫入hbase,或將輸出格式更改爲「HFileOutputFormat」,然後進行批量加載。 – 2012-07-08 11:02:24
你看着外部表? – Olaf 2012-07-05 19:26:57