我會在幾個月內做的,從EC2幾百萬URL的抓取和我的想法,我應該存儲這些數據。我的最終目標是分析它,但分析可能不是即時的(即使我現在想爲其他原因而抓取它),我最終可能會將數據的副本傳輸到本地設備上進行存儲。我估計數據將在5TB左右。利用冰川作爲網絡後臺抓取
我的問題:我正在考慮使用Glacier來實現此目的,我的想法是我將運行一個多線程爬網程序,它在本地存儲抓取的頁面(在EB上),然後使用單獨的線程來合併,壓縮和穿梭數據到冰川。我知道在冰川上的傳輸速度不一定很好,但由於這個過程沒有在線元素,所以這似乎是可行的(尤其是因爲我可以隨時增加我當地EBS卷的大小以防我爬得比我快存儲到冰川)。
是否有缺陷在我的做法或任何人都可以提出一個更具成本效益的,可靠的方式做到這一點?
謝謝!
冰川從根本上說是一個長期歸檔工具,注重遵守法規(例如,「您必須保存XYZ數據至少N年的存檔」)。從中檢索數據是一個緩慢,複雜且有時很昂貴的過程 - 除非您存儲大量不太可能檢索的數據,否則它可能不適合作業。 – duskwuff 2013-05-04 00:13:01