回答

0

我不知道你使用的Spark是在Azure上還是在本地。所以他們是兩種情況,但類似。

  1. 要在本地運行的火花,有一個官方blog,介紹如何從星火訪問Azure的Blob存儲。關鍵是您需要在core-site.xml文件中將Azure存儲帳戶配置爲HDFS兼容存儲,並將兩個罐子hadoop-azure & azure-storage添加到您的類路徑中,以便通過協議wasb[s]訪問HDFS。您可以參考官方的tutorial來了解HDFS兼容存儲與和blog關於HDInsight配置的更多詳細信息。

  2. 對於在Azure上運行的Spark,區別僅在於使用訪問HDFS,其他準備工作是在使用Spark創建HDInsight羣集時由Azure完成的。

的方法列出文件是listFilesSparkContextwholeTextFiles

希望它有幫助。

相關問題