2
我在Amazon EMR上有一個長時間運行的Hadoop流式作業(15節點,> 1.5小時)。這項工作的失敗率約爲75%。我爲mapper和reducer使用Python。確保Hadoop EMR上的日誌
我已經做了如下優化:
sys.stdout = os.fdopen(sys.stdout.fileno(), 'w', 0)
sys.stderr = os.fdopen(sys.stderr.fileno(), 'w', 0)
logging.getLogger().setLevel(logging.INFO)
此外,我增加了以下只是發出帶有logging
模塊日誌條目:
sys.stderr.flush()
time.sleep(30)
sys.exit(3)
,試圖捕捉錯誤不得要領:Hadoop的日誌文件不顯示我的錯誤:(
我怎樣才能讓Hadoop記錄我的消息,而不是丟棄任何???
是的,你可以在S3上指定一個日誌文件夾,但麻煩的是我沒有得到所有的日誌消息。 – jldupont