2011-05-17 59 views
1

到目前爲止,我一直使用wget和curl來做屏幕抓取。現在我想切換到Perl。什麼是一個很好的教程,將涵蓋perl中的基本web編程(最好不要重述基礎知識)?我說的是基本的東西,喜歡把自己和解析頁面,提交表單,代理等perl網絡教程

回答

0

工具,你需要的Perl之外:

  1. HTTP實時頭(Firefox擴展)或當量。以反向工程JavaScript請求原始GET/POST,所以你可以模仿與Mechanize或LWP等
  2. 正如其他海報已經提到的,一個好的無頭瀏覽器是WWW::Mechanize模塊。
  3. 我建議花一些時間學習HTML::TreeBuilder &特別是HTML::TreeBuilder::XPathHTML::Query。當您希望從HTML文檔獲取實際數據時,最後兩個將變得非常方便。
  4. HTML::TableExtract也是一個很好的模塊,可以在需要時從HTML表格中提取數據。

基本上,使用上述所有功能將使您能夠抓取大多數網站。

有樂趣爬行( - :

+0

網絡::查詢支持比HTML ::查詢更復雜的選擇,因爲它沒有實現這種對自己,但代表這一部分,以優良的功能完整的HTML ::選擇:: XPath的。 – daxim 2011-05-18 11:08:12

2

我過去使用過WWW-Mechanize來實現基本的網頁抓取功能,包括表單提交等。

還有一些不錯的examples