2014-09-24 33 views
2

每當有新文件到達特定文件夾時,我正試圖從遠程計算機中將文件提取到我的hdfs。我遇到了水槽中的閥芯目錄的概念,如果閥芯目錄位於水槽代理運行的同一臺機器上,它工作正常。水槽的直徑可以在遠程機器上嗎?

有什麼方法可以在遠程機器上配置spool dir?請幫忙。

回答

5

你可能知道flume可以產生多個實例,也就是說你可以安裝幾個在它們之間傳遞數據的flume實例。

因此要回答你的問題:不,flume無法訪問遠程假脫機目錄。但是你可以安裝兩個代理,一個在spool機器上,另一個在hadoop節點上。

第一個將從spool讀取並通過avro rpc傳遞給第二個將數據刷新到HDFS的代理。

這是一個簡單的設置,只需要幾行配置。

+0

謝謝你Erik ...它工作。 – jintocvg 2014-09-25 14:14:27

+0

不客氣:-) – 2014-09-25 14:19:40

相關問題