2016-09-23 102 views
0

背景存儲文件到S3:本地文件VS HDFS

簡單的年齡文件上傳用java有輕微的扭曲

S3不支持流(據我所知),這樣的數據需要到S3的老問題在上傳之前將其分組爲適當大小的文件。

在創建上面提到的這些臨時文件有儘可能位置在一些指定的目錄

  • 本地HDFS中有關

    1. 本地一些選項(如果這樣的事情是可能的,我不知道,從Hadoop的
    2. 在Hadoop集羣甚至H)向HDFS

    問題

    1. 哪一個可能會更快?
    2. 使用HDFS(本地或集羣)還是本地FS有優勢,HDFS在本質上與S3格式更接近?

    技術和基礎設施

    EC2,LINUX,JAVA

  • 回答

    1

    如果你有足夠的本地磁盤空間,只是做在本地。否則,您可以將數據合併到HDFS所需的存儲中,然後上載它們。但是,HDFS不應該是您在這裏的第一個度假勝地。

    +0

    請問我爲什麼不推薦HDFS? – Confused

    +0

    HDFS並不是真正爲此設計的,如果可能的話,在磁盤上執行所有文件操作會更快。 –

    +0

    是的,最終使用本地FS並上傳到S3最終壓縮文件 – Confused