-2
有一個我想抓取的網頁,您可以在網址中傳遞它的變量,並生成特定的內容。所有的內容都在一個巨大的HTML表格中。最簡單的方法可以將網頁保存爲.csv
我正在尋找一種方法來編寫一個腳本,可以通過這些不同的頁面中的180個,從表中的某些列中提取特定信息,執行一些數學運算,然後將它們寫入一個.csv文件。這樣我可以對數據進行進一步的分析。
什麼是最簡單的方法來抓取網頁,解析HTML,然後將數據存儲到.csv文件?
我已經做了類似於python和PHP的東西,HTML的解析並不是最容易做的事情,也不是最乾淨的。還有其他路線更容易嗎?
Web抓取是**不是數據挖掘**。這至多是「信息提取」。或者,網絡抓取。請不要將一切都視爲「數據挖掘」,不包括數據庫和分析...... – 2012-03-21 20:56:31
這是一個非常特殊的問題,因爲你的個人技能與不同的語言會在這裏產生很大的不同 - 如果你是一個Python專家,比基於Python的工具要容易得多。通過指定要使用的語言,您可以使自己和其他人更有用。 – nrabinowitz 2012-03-22 17:03:06