2013-05-03 51 views
0

我有一個使用NLTK的工作情感分析程序,它從放置在本地機器中的.txt文件讀取文本。現在我想閱讀放置在Hadoop HDFS中的txt文件並執行相同的情感分析。如何將NLTK與Hadoop HDFS集成?

我該如何做到這一點?

任何關於這個主題的指針將不勝感激!

回答

0

因此,除非nltk能夠識別HDFS,否則這將不是完全可能的。但是像NLTK這樣的大多數程序將允許您直接將數據傳遞到程序中。假設是這種情況,你可以使用我在其他答案中建議的,How to run external program within mapper or reducer giving HDFS files as input and storing output files in HDFS?。您基本上編寫了一個小型的Java適配器,用於打開HDFS文件的輸入流並將其傳遞給您想要運行的程序。

如果這聽起來像是太麻煩了,或者出於某種原因不可能出現這種情況,那麼您總是可以使用HDFS get將文件放入本地地址。