我有我的項目需求,其中一個python腳本用於分析數據。以前,我使用txt文件作爲該python腳本的輸入。但隨着數據的增長,我必須將存儲平臺切換到Hadoop HDFS。我怎樣才能HDFS數據到我的python腳本?有沒有辦法做到這一點?提前致謝。我們可以將Hadoop與Python集成嗎?
1
A
回答
2
Hadoop的流API:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper /bin/cat \
-reducer /bin/wc
所有你需要知道的是在這裏: http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/
+0
這是我正在尋找。那麼,基本上所有的東西都將由Hadoop-streaming.jar處理?不需要額外的工作..我是否正確? –
+1
是的,這是正確的。 –
0
除了其他方法,你還可以嵌入的Pig Latin語句和豬在Python的腳本命令使用類似JDBC的編譯,綁定,運行模型。對於Python,確保Jython jar包含在你的類路徑中。請參考Apache的豬文檔在這裏獲取更多詳細信息:https://pig.apache.org/docs/r0.9.1/cont.html#embed-python
相關問題
- 1. 我們可以將硒與JIRA和HP ALM集成嗎?
- 2. 我們可以將Web郵件與我們的應用程序集成嗎?
- 3. 我們可以將IMDB與我們的tvOS應用程序集成嗎?
- 4. 任何人都可以幫助我們與omnet ++集成嗎?
- 5. 我可以將MathJax集成到Python程序中嗎?
- 6. 我可以將語音識別與C#集成嗎?
- 7. 我可以將SourceSafe/VSS與SQL Server 2005集成嗎?
- 8. 我可以將BIDS與SQL Server 2008 R2集成嗎?
- 9. C++:我們可以收集類型嗎?
- 10. 我們可以在iPhone應用程序中集成Flash嗎?
- 11. 如何將Pylint與Geany集成,以便我可以將Geany用作Python IDE?
- 12. Magento可以與CakePHP集成嗎?
- 13. SpecWatchr可以與dotCover集成嗎?
- 14. Doxygen可以與Netbeans C++集成嗎?
- 15. Apache cxf 2.7.10可以與Swagger集成嗎?
- 16. Simplecart可以與jotform集成嗎?
- 17. Dropwizard指標可以與Scalatra集成嗎?
- 18. 我們可以用python生成DTMF音嗎?
- 19. 我們可以將objectdatasource控件分配給數據集嗎?
- 20. 可以將JsLint集成到xCode中嗎?
- 21. 如何將matlab與hadoop集成
- 22. 將hadoop與OBIEE集成的優缺點
- 23. 如何將Hadoop與Mahout集成?
- 24. 如何將Cassandra與Hadoop集成
- 25. 如何將NLTK與Hadoop HDFS集成?
- 26. 我們可以將圖形轉換成ruby集合
- 27. 我可以在Python中集成多個列表嗎?
- 28. Python:我們可以將ctypes結構轉換爲字典嗎?
- 29. Can Lua可以與Hadoop對話嗎?
- 30. 我們可以將成功函數移到.ajax之外嗎?
使用Hadoop流式使用python,php等例如:hadoop jar hadoop/tools/lib/hadoop-streaming-2.7.2.jar -mapper /mapper.php -reducer/reducer.php -input/hdfsinputpath -output/hdfsoutputpath –
這可能有所幫助:http://stackoverflow.com/questions/12485718/python-read-file-as-stream-from-hdfs –