2017-02-24 74 views
2

我在/ project1目錄下的hadoop文件系統中有一個文本文件名mr.txt。我需要編寫python代碼來讀取文本文件的第一行,而無需將mr.txt文件下載到本地。但是我無法從hdfs打開mr.txt文件。 我曾嘗試:如何從hdfs讀取文件

open('hdfs:///project1/mr.txt','r') 
+0

「沒有下載'mr.txt'」...呃,你必須這樣做才能真正在某個節點上收集文件。 –

回答

1

安裝PySpark。

text = sc.textFile('hdfs:///project1/mr.txt') 
first_line = text.first() 
+0

謝謝@ cricket_007。有效 – Gokul

0

沒有更詳細地瞭解你的軟件或者是運行...

您可以使用NFS server這樣你就可以在本地安裝HDFS量和訪問它。如果此選項不適合您的需求,則應使用Hadoop Streaming。最後,如果你正在寫一個Spark作業,你可以像訪問本地FS一樣訪問HDFS。