2016-02-26 31 views
0

我們希望將Python 3.x與NumPy,Pandas等包一起使用。在Spark的頂部。datanodes上的Spark的Python包

我們知道,使用這些軟件包的Python發行版需要在Spark的所有datanode上呈現/分發以使用這些軟件包。

而不是在所有datanodes上設置這個Python發行版,將它放在所有datanode連接到的NAS掛載器上工作?

感謝

回答

2

是,把在NAS包安裝到所有的數據節點所連接,如果你有一個很好的NAS將努力多達數十種,也許100個節點。但是,由於所有節點都試圖導入他們所需的文件,因此該解決方案將會大規模崩潰。 Python導入機制對文件系統使用了很多os.stat調用,當所有節點都試圖加載相同的代碼時,這可能會導致瓶頸。