2013-05-13 70 views
1

我有很多的日誌行,每個都有一段時間,我想存儲在HDFS中並進行分析。我想運行MapReduce作業,它只處理給定時間範圍內的行(最後5分鐘,最後一小時)。如何在HDFS中存儲和分析時間戳日誌

我正在尋找指針開始。而且,任何替代品(例如,存儲線HBase的其它平臺?)

+0

解釋更詳細 – smttsp 2013-05-13 18:42:03

回答

1

我的2美分:

您可以使用HBase的爲。讀取文件的每一行,取出TS字段並將其用作rowkey並將行的其餘部分存儲在列中。所以我們的桌子只有一列。這將允許你做更快的範圍查詢,就像你需要的(最後5分鐘,最後一個小時等)。並且爲了避免regionserver熱點,你可以創建預分割表。

或者,您可以將數據存儲在由TS分區的Hive表中,然後通過HiveQL進行處理。或者基於TS存儲數據。簡單而直接。

HTH

0

雖然日誌處理可以用地圖來完成/減少與蜂巢/ HBase的組合方案,Hadoop的方法可能不適合處理在頻繁的時間間隔作爲Map日誌合身/縮小方案是專爲批量處理。的Apache KafkaStorm組合非常適合於處理日誌您的要求

您也可以看看這個link