將本地文件系統上的大量數據放入分佈式存儲的最快方法是什麼？

-3

我有一個1 TB的單一本地目錄。它由數百萬個非常小的文本文件組成。如果我要依次遍歷每個文件以獲得ETL，那將需要幾天時間。對我來說，在這些數據上執行ETL最快的方式是什麼，最終將它加載到像hdfs或redis集羣這樣的分佈式存儲上？將本地文件系統上的大量數據放入分佈式存儲的最快方法是什麼？

請您提供更多的細節，例如您正在使用的ETL工具，你想要做什麼樣的操作來做什麼你的文本文件。 – techprat

一般情況下：嘗試使用多個/許多並行異步流，每個文件一個。有多少將取決於幾個因素（目標端點的數量，用於遍歷/讀取數據的磁盤IO，網絡緩衝區，錯誤和延遲......）

2016-08-22 18:34:30 John

回答