我可以使用spark來解析html文件嗎？

-2

我想分析了一堆的HTML文件中HDFS，我想用火花對其進行處理。爲方便起見，我想使用pyspark，並且還想使用功能強大的包BeautifulSoup來解析html文件。我能做到嗎？如何使用BeautifulSoup從HDFS讀取文件？

來源

2017-10-10 Samwoo

假設html文件位於HDFS中，您可以將文件名列表傳送到驅動程序中，並指定一個介於0和作業執行程序數之間的隨機數。然後將這些數據並行化爲一個rdd。 Groupy通過隨機數做一個mapPartitions。 reducer函數將通過從HDFS中以文本形式讀取文件來處理分區的每一行。然後將文本傳遞給BeautifulSoup並進行處理。返回結果將在RDD中捕獲。請記住，BeautifulSoup必須安裝在每個工作節點上，否則這將無法工作。

來源

2017-10-11 14:29:32

那麼如何將處理後的文本傳遞給BeautifulSoup？ – Samwoo

我可以使用spark來解析html文件嗎？

回答

相關問題