2
每當有新文件到達特定文件夾時,我正試圖從遠程計算機中將文件提取到我的hdfs。我遇到了水槽中的閥芯目錄的概念,如果閥芯目錄位於水槽代理運行的同一臺機器上,它工作正常。水槽的直徑可以在遠程機器上嗎?
有什麼方法可以在遠程機器上配置spool dir?請幫忙。
每當有新文件到達特定文件夾時,我正試圖從遠程計算機中將文件提取到我的hdfs。我遇到了水槽中的閥芯目錄的概念,如果閥芯目錄位於水槽代理運行的同一臺機器上,它工作正常。水槽的直徑可以在遠程機器上嗎?
有什麼方法可以在遠程機器上配置spool dir?請幫忙。
你可能知道flume可以產生多個實例,也就是說你可以安裝幾個在它們之間傳遞數據的flume實例。
因此要回答你的問題:不,flume無法訪問遠程假脫機目錄。但是你可以安裝兩個代理,一個在spool機器上,另一個在hadoop節點上。
第一個將從spool讀取並通過avro rpc傳遞給第二個將數據刷新到HDFS的代理。
這是一個簡單的設置,只需要幾行配置。
謝謝你Erik ...它工作。 – jintocvg 2014-09-25 14:14:27
不客氣:-) – 2014-09-25 14:19:40