2012-07-05 52 views

回答

0

如果您需要您應該考慮將數據加載到某種(DB或NoSQL的商店,如HBase的,Accumulo)的數據存儲中的數據「快速」訪問。

另一種選擇(如果你可以重新寫你的數據),是考慮使用一個MapFile - 這對你的序列文件中的密鑰創建索引並提供更快獲得比較完整的文件掃描數據。

否則,如果你想使用蜂巢,有關於這個確切主題蜂巢郵件列表上線:

+0

我的注意力不在於關注性能的「快速」。它關注發展的'快速'。我只需要進行一些隨機分析。不要爲每一個或每次我想要寫mapreduce。 如果我使用hbase,我如何將序列文件加載到hbase? – user1251654 2012-07-08 05:08:32

+0

如果隨機分析是你之後的話,那麼我會考慮使用Pig。至於將序列文件加載到hbase中,您需要編寫map reduce作業來讀取seq文件並將數據寫入hbase,或將輸出格式更改爲「HFileOutputFormat」,然後進行批量加載。 – 2012-07-08 11:02:24

相關問題