2012-04-26 79 views

回答

0

我不知道你有多少個文件拖放到HDFS,但看的文件,然後拖放一個解決方案是Apache的水槽。 These slides提供了一個體面的介紹。

+0

嗨馬特,我得到每分鐘一個新的文件,這些文件的大小非常小,所以我必須合併這些文件併發送到hdfs每半小時一次。 – pawanpal 2012-04-27 05:01:04

0

你可以用Fabric庫和python自動完成這個過程。在一個函數中寫入hdfs put命令,您可以將其命名爲多個文件,並對網絡中的多個主機執行相同的操作。 Fabric應該對您的場景中的自動化非常有幫助。