2017-06-05 56 views
0

如果我在HFDS或本地文件系統中有文件,是否可以在啓用了EMRFS的情況下將其複製到S3,請立即關閉羣集並確保文件可用一旦這個複製操作完成,這兩個列表和閱讀外部讀者?或者EMRFS在其啓用的特定EMR羣集內是否一致?什麼會通過EFSFS從HDFS複製文件到S3看起來像?從本地文件系統?EMRFS是否使S3與外部客戶端保持一致

回答

0

我在AWS開發者論壇 - https://forums.aws.amazon.com/thread.jspa?threadID=257220&tstart=25上提出了同樣的問題 - 這包含了很多有價值的細節,它提供了一個比所有EMRFS文檔結合IMO更好的EMRFS概覽,但我會提供一個崩潰摘要的崩潰摘要:

1)一致視圖是必須在EMRFS配置中明確啓用的功能,否則您只有S3一致性保證。

2)EMRFS一致的視圖只需要共享簇內效果相同的EMRFS configuration--其對外部客戶端訪問S3沒有影響正常

3)的唯一真正一致性保證S3提供的是一個新的文件以前未寫入的內容保證讀取一致,但不能列出。因此,如果客戶端特別要求通過路徑知道文件是新創建的文件,它將始終得到它,但它可能會或可能不會在列表操作中獲取文件的路徑,並且如果該文件以前存在並不能保證客戶端在讀取操作時獲得哪個版本。

1

EMRFS是爲由EMR hadoop作業創建的對象啓用的一致視圖。

1)EMRFS的主要目的是,由hadoop作業創建的對象是立即一致的。因此,如果存在依賴關係,這些文件可以用於下一個作業。

2)將文件複製到S3以使imediate與下一個hadoop作業保持一致的方式是,將該文件複製到hdfs,然後複製到s3 使用以下命令的命令。

  1. HDFS DFS -put file.txt的/用戶/ hadoop的/
  2. HDFS DFS -cp /user/hadoop/file.txt S3://桶名

列出s3中的文件非常昂貴,如果你希望數據在s3上立即一致,你必須在s3上實現索引。以下是使用dynamodb使文件立即一致的鏈接 https://aws.amazon.com/blogs/big-data/building-and-maintaining-an-amazon-s3-metadata-index-without-servers/

當您使用s3 api時,s3一致性會進入畫面,因爲它不會通過EMRFS元數據。

相關問題