2015-07-21 68 views
0

我正在嘗試使用Linux命令行工具'Poppler'從pdf文件中提取信息。我想爲幾個Spark工作人員提供大量的PDF文件。我需要使用Popplers,而不是PyPDF或任何類似的東西。PySpark:如何在工作人員上安裝Linux命令行工具?

有人知道如何在工人上安裝Poppler嗎?我知道我可以在Python中執行命令行調用,並獲取輸出(或通過Poppler庫獲取生成的文件),但是如何將它安裝在每個工作者上?我使用spark 1.3.1(databricks)。

謝謝!

回答

相關問題