映射器何時將其輸出存儲到本地硬盤？

映射器的輸出（中間數據）存儲每個單獨的映射數據的節點的本地文件系統（未HDFS）上。這通常是臨時目錄，可以由Hadoop管理員在配置中設置。一旦Mapper作業完成或數據傳輸到Reducer，這些中間數據就會被清理乾淨並且無法訪問。

但是，我想知道映射器何時將其輸出存儲到本地硬盤？是否因爲數據太大而無法存儲？只有正在處理的數據保留在內存中？如果數據很小並且整個數據可以放在內存中，那麼沒有磁盤參與？

在mapper m/c的硬盤沒有介入的情況下，我們能不能直接將數據在mapper中處理後從mapper轉移到reducer。我的意思是當數據在映射器中被處理時，它在內存中，一旦計算出來，它就直接傳遞給reducer，映射器可以傳遞下一塊數據，類似地沒有磁盤捲入。

在spark中，據說有內存中的計算，與上面有什麼不同？什麼讓火花計算內存比地圖減少更好？另外，如果數據過於龐大，那麼就會出現磁盤捲入的情況。

請解釋

來源

2017-06-03 Neha Sharma

很多問題在這裏。我會盡力解釋每一個。

映射器何時將其輸出存儲到本地硬盤？

映射器將數據存儲在配置的內存中。當內存已滿80％（可重新配置）時，它會對內存中的數據運行組合器以減少數據。但是，當組合數據也超過了這個內存限制時，它就會溢出到磁盤上。這些文件被稱爲溢出文件。整個操作過程中，會寫入多個溢出文件。在編寫溢出文件時，映射器按照縮減器對數據進行排序和分區。在地圖操作結束時，需要合併這些溢出文件。

如果沒有映射器m/c的硬盤捲入，我們是不是可以直接將數據在映射器中處理後從映射器轉移到reducer中。

任何處理中最耗費的操作是機器之間的「數據傳輸」。減少地圖的整個範例是將處理靠近數據而不是移動數據。因此，如果它按照你所建議的方式完成，就會有很多數據移動。與在網絡上寫入相比，寫入本地磁盤的速度更快。通過合併溢出文件可以減少這些數據。排序是在溢出文件時完成的，因爲它更容易（更快）地合併排序後的數據。分區完成後，因爲您只需要合併相同的分區（數據將轉到同一個reducer）。在合併過程中，組合器再次運行以減少數據。這個減少的數據然後被髮送到減速器。

在spark中，據說有內存計算，這與上面有什麼不同？

火花和地圖縮小程序在你從某些數據集中讀取，執行一個地圖功能和一個縮小功能時沒有區別。它將在磁盤上執行與mapreduce代碼相同的讀寫操作。當您需要在同一數據集上運行少量操作時，就會出現差異。在map reduce中，每次操作都會從磁盤讀取，但在spark中，您可以選擇使用內存來存儲它，在這種情況下，它只會從磁盤讀取一次，後面的操作應該在存儲器中運行，這顯然會更快。或者在第1次操作的輸出被輸入到第2次的操作連鎖的情況下。在Mapreduce中，第一個操作的輸出將被寫入磁盤並在第二個操作中從磁盤讀取，而在spark中，您可以將第一個操作的輸出保存在內存中，以便第二個操作從內存中讀取並且應該更快。

來源

2017-06-03 18:04:06

非常感謝你這麼深入的回答。但是，通過mapreduce分區，你的意思是洗牌嗎？這裏他們是一樣的嗎？ –

閱讀此https://stackoverflow.com/questions/22141631/what-is-the-purpose-of-shuffling-and-sorting-phase-in-the-reducer-in-map-reduce –

你一直非常有幫助，你也可以請回答這個問題[鏈接]（https://stackoverflow.com/questions/44351229/what-does-the-shuffling-phase-actually-do）..感謝很多 –

映射器何時將其輸出存儲到本地硬盤？

回答

相關問題