2012-08-23 53 views
0

我在分佈式緩存中有一個文件。基於作業輸出的驅動程序類更新此文件並開始新作業。新工作需要這些更新。Hadoop分佈式緩存 - 修改文件

我目前的做法是用新的(更新的)替換舊的分佈式緩存文件。

是否有一種方法將差異(在舊文件和新文件之間)廣播到需要該文件的所有任務跟蹤器?

或者是這樣的情況,在完成一項工作(第一個,就我而言)之後,所有特定於該工作的目錄/文件都被刪除,因此在此思考甚至沒有意義方向?

回答

0

我認爲分佈式緩存不是根據這種情況構建的。它只是把文件放在本地。
在你的情況下,我會建議把文件放在HDFS中,並讓所有感興趣的人從那裏拿它
作爲一個優化,你可以給這個文件高複製因子,它對大多數任務是本地的。