2012-03-21 142 views
-2

有一個我想抓取的網頁,您可以在網址中傳遞它的變量,並生成特定的內容。所有的內容都在一個巨大的HTML表格中。最簡單的方法可以將網頁保存爲.csv

我正在尋找一種方法來編寫一個腳本,可以通過這些不同的頁面中的180個,從表中的某些列中提取特定信息,執行一些數學運算,然後將它們寫入一個.csv文件。這樣我可以對數據進行進一步的分析。

什麼是最簡單的方法來抓取網頁,解析HTML,然後將數據存儲到.csv文件?

我已經做了類似於python和PHP的東西,HTML的解析並不是最容易做的事情,也不是最乾淨的。還有其他路線更容易嗎?

+0

Web抓取是**不是數據挖掘**。這至多是「信息提取」。或者,網絡抓取。請不要將一切都視爲「數據挖掘」,不包括數據庫和分析...... – 2012-03-21 20:56:31

+0

這是一個非常特殊的問題,因爲你的個人技能與不同的語言會在這裏產生很大的不同 - 如果你是一個Python專家,比基於Python的工具要容易得多。通過指定要使用的語言,您可以使自己和其他人更有用。 – nrabinowitz 2012-03-22 17:03:06

回答

1

如果你有一些Python的經驗,我會推薦像BeautifulSoup,或在PHP中,你可以使用PhPQuery

一旦你知道如何使用HTML解析器,那麼你可以創建一個「管道和過濾器」程序來完成數學計算並將其轉儲到一個csv文件。

查看this question瞭解Python解決方案的更多信息。