如果我使用distcp複製2個羣集中的數據,它是複製所有複製副本還是僅複製1個副本的數據並將其複製到新羣集中?例如,我嘗試從複製因子(RF)爲3的羣集中複製3gb的數據。distcp是否會複製完整的3gb數據,或者是否知道由於RF是3,它需要移動只有1GB(一個副本)的數據。最後在目標羣集上查看RF並相應地複製數據。Hadoop distcp複製副本
0
A
回答
4
原始數據大小很重要。如果原始數據爲1 GB,則複製因子= 3時最多需要3 x 1 GB。將數據從一個羣集複製到另一個羣集時,原始數據很重要。只有原始的1 GB數據將被複制到目標羣集。
HDFS在內部處理塊的複製。它會注意到集羣上的新數據並相應地複製這些數據塊,這些數據塊被複制不足,即具有比RF更少的副本。
1
當您使用distcp進行復制時,只會複製/複製實際數據(即1份數據)。複製將由框架處理,就像在將新數據寫入HDFS時的處理方式一樣。除此之外,對於2個羣集之間的distcp,還可以指定是否要在源處保留複製因子。
相關問題
- 1. Hadoop Distcp是否在塊級複製?
- 2. 具有不同複製因子的簇之間的hadoop distcp
- 3. XSLT複製副本
- 4. 使用通配符的Hadoop DistCp?
- 5. 帶文件列表的Hadoop distcp
- 6. Hadoop:爲distcp指定紗線隊列
- 7. 'distcp'和'distcp -update'之間的區別?
- 8. 如何複製/製作JfreeChart的副本?
- 9. 複製到S3的位置使用DistCp使用命令
- 10. Hadoop將本地文件複製到HDFS?
- 11. 跳過複製副本上的文件
- 12. 複製性和Block_copy(myBlock)/ [myBlock副本]
- 13. 複製文本文件並用輸出文本填充副本
- 14. Hadoop distcp命令使用不同的S3目標
- 15. 從s3到hadoop的distcp - 文件未找到
- 16. 使用Distcp在Hadoop中進行數據攝取
- 17. 如何使用copyWithZone製作深層副本以複製結構?
- 18. 修復NSManagedObject的重複副本
- 19. Hadoop災難恢復
- 20. 恢復項目的本地副本
- 21. 製作電路板副本
- 22. iframe追加製作副本
- 23. 製作共享副本ios
- 24. UIPrintInteractionController - 限制打印副本/獲取打印副本數
- 25. Hadoop的:錯誤而複製文件的本地目錄到HDFS
- 26. 如何更新sybase中的複製副本?
- 27. 複製構造錯誤,沒有明顯的副本
- 28. Python:詞典,如何複製和更新第二個副本?
- 29. MySQL中有多個表的副本中的複製master-slave
- 30. Windows批處理文件複製並保留副本