2017-10-10 85 views
-2

我面臨着一個問題:我可以使用spark來解析html文件嗎?

我想分析了一堆的HTML文件中HDFS,我想用火花對其進行處理。爲方便起見,我想使用pyspark,並且還想使用功能強大的包BeautifulSoup來解析html文件。我能做到嗎?如何使用BeautifulSoup從HDFS讀取文件?

回答

0

假設html文件位於HDFS中,您可以將文件名列表傳送到驅動程序中,並指定一個介於0和作業執行程序數之間的隨機數。然後將這些數據並行化爲一個rdd。 Groupy通過隨機數做一個mapPartitions。 reducer函數將通過從HDFS中以文本形式讀取文件來處理分區的每一行。然後將文本傳遞給BeautifulSoup並進行處理。返回結果將在RDD中捕獲。請記住,BeautifulSoup必須安裝在每個工作節點上,否則這將無法工作。

+0

那麼如何將處理後的文本傳遞給BeautifulSoup? – Samwoo

相關問題