Hadoop：如何在Python中包含第三方庫MapReduce

我正在Python中編寫MapReduce作業，並且想要使用第三個庫，如chardet。Hadoop：如何在Python中包含第三方庫MapReduce

我知道我們可以使用選項-libjars=...將它們包含在java MapReduce中。

但是如何在Python MapReduce Job中包含第三方庫？

謝謝！

2013-03-12 thomaslee

使用'import'語句嗎？ – MattDMo 2013-03-12 03:52:34

謝謝你的回覆。我已經嘗試過，但沒有工作。它顯示'錯誤streaming.StreamJob：作業不成功。錯誤：NA' – thomaslee 2013-03-12 03:54:51

也許如果您發佈了一些示例代碼，您遇到的錯誤以及您爲獲得這些錯誤所做的工作，我們可能會進一步提供幫助。 – MattDMo 2013-03-12 03:58:00

問題已由zipimport解決。

然後我壓縮chardet到文件module.mod，像這樣使用：

importer = zipimport.zipimporter('module.mod') 
chardet = importer.load_module('chardet')

在Hadoop的數據流命令添加-file module.mod。

現在可以在腳本中使用chardet。

2013-03-12 08:01:23 thomaslee

回答