2014-10-29 40 views
0

如果我使用ASV存儲HDInsight的文件,然後編寫MapReduce函數,那麼系統會在完整的數據行上拆分這些文件,以便在羣集被分離出來以供羣集處理時處理?有什麼特別需要確保文件中的一行數據不跨越文件塊的邊界,並且因爲其中的一部分被傳遞到一個數據節點而部分傳輸到另一個數據節點而變得不可讀?具有HDInsight的Azure Blob存儲是否在完整行上分割文件?

如果是這樣,它是如何做到這一點的?

回答

0

我在別處找到了答案,它是的,HDInsight系統有一個從分佈式文件系統讀取數據的步驟,它將協商每個片段文件中完整行的結束。