3
A
回答
5
HTML::SimpleLinkExtor比HTML::LinkExtor有點簡單。你可以在我的webreaper tool上看看我的一半的嘗試,它有一些你可能需要的代碼。
2
您可能會發現使用HTML::LinkExtor。
5
在Perl中檢索網站的經典方法是使用WWW::Mechanize,它具有鏈接方法,該方法返回頁面中所有鏈接的列表。您可以抓取頁面,從中獲取鏈接,然後使用follow_link()或get()方法獲取鏈接的頁面。
1
另一種方法是使用HTML::TreeBuilder解析頁面中的HTML。它返回一個對象樹,您可以使用它來抓取頁面中的所有鏈接,並且可以做更多的事情,例如根據您指定的正則表達式模式查找鏈接。查看HTML :: Element的文檔以查看更多內容。
要查找所有在一個頁面的鏈接:
use HTML::TreeBuilder;
use LWP::Simple;
my $url = 'http://www.example.com/';
my $html = HTML::TreeBuilder->new_from_content(get($url));
my @links = $html->look_down('_tag' => 'a');
我相信LWP ::簡單HTML :: TreeBuilder作爲都包含在Ubuntu的爲好。
相關問題
- 1. 取消網站中的所有頁面?
- 2. 獲取一個網站上所有的XML頁面的列表
- 3. 如何獲取特定網站中的所有頁面鏈接?
- 4. 獲取網站集中的所有網站而沒有獲取所有列表?
- 5. 網站的所有頁面閃爍
- 6. 如何抓取網站以獲取所有設置的cookie和頁面設置?
- 7. 如何使用perl獲取網頁中的所有鏈接?
- 8. 「所有網站內容」權限頁面
- 9. Clojure從網站獲取html頁面
- 10. 獲取頁面塊
- 11. 如何抓取我內部網站上的所有頁面?
- 12. 通過PowerShell爲SharePoint網站上的每個頁面獲取所有webpart屬性
- 13. 如何使用Ruby on Rails獲取特定網站的所有頁面
- 14. 善變忽略Drupal的多站點網站/所有/模塊
- 15. 獲取API中的所有頁面
- 16. 獲取頁面上的所有控件
- 17. 獲取facebook頁面的所有信息
- 18. Django站點地圖:僅獲取當前網站的頁面
- 19. 如何通過網址獲取所有頁面的URL?
- 20. 如何從facebook獲取所有公開頁面的網址?
- 21. 如何從網站獲取所有有效的網址?
- 22. 谷歌沒有索引我的網站中的所有頁面
- 23. 獲取隱藏在加載頁面後面的網站
- 24. 獲取路由器confuguration頁面,而不是我的網站的網頁主頁
- 25. Python/wxPython:auinotebook獲取所有頁面
- 26. 訂閱網站上所有內容的一個模塊訂閱模塊Drupal 7
- 27. 如何從頁面獲取所有網址(php)
- 28. 獲取通過CodeIgniter編碼的網站的所有網址
- 29. 向所有頁面(包括視圖,模塊頁面等)添加「相關頁面」
- 30. 如何從谷歌網站頁面獲取網址參數
謝謝,我已經知道該模塊,但它太多(?)的開銷,只能用於此功能我猜 – snoofkin 2010-09-07 04:41:18