2016-08-17 65 views
-3

我有一個1 TB的單一本地目錄。它由數百萬個非常小的文本文件組成。如果我要依次遍歷每個文件以獲得ETL,那將需要幾天時間。對我來說,在這些數據上執行ETL最快的方式是什麼,最終將它加載到像hdfs或redis集羣這樣的分佈式存儲上?將本地文件系統上的大量數據放入分佈式存儲的最快方法是什麼?

+0

請您提供更多的細節,例如您正在使用的ETL工具,你想要做什麼樣的操作來做什麼你的文本文件。 – techprat

回答

0

一般情況下:嘗試使用多個/許多並行異步流,每個文件一個。有多少將取決於幾個因素(目標端點的數量,用於遍歷/讀取數據的磁盤IO,網絡緩衝區,錯誤和延遲......)

相關問題