2012-08-16 47 views
0

我正在運行一個hadoop工作。所有,但4個任務完成。我在思考爲什麼處理這些塊需要更長的時間。我的猜測是,那些輸入記錄是「難以處理」我的工作。要在本地進行測試,我想要檢索這些輸入記錄。我如何做到這一點?如何查看特定hadoop任務的輸入記錄?

任務的狀態列說 HDFS://10.4.94.75:8020 /用戶/ SomeUser的/ mYfILEname的:154260 + 3

但是這是什麼意思?

回答

0

狀態的最後一部分爲您提供了有關拆分的信息。更具體地講:

hdfs://10.4.94.75:8020/user/someuser/myfilename:154260+3 

告訴你,有這個地位的任務處理的「mYfILEname的」分裂開始字節「mYfILEname的」和長度爲3

考慮到這條信息,你偏移154260可以通過將文件掃描到字節154260並讀取3個字節來檢測分配給此任務的記錄。

+0

嗯...但文件是純文本,我雖然它是像行號=) – Dima 2012-08-16 16:34:43