解析Ruby中的網頁以從中檢索URL

我想解析網頁並使用ruby檢索某些標題下的前幾個嵌入式URL。例如，我有一個文檔存檔，其中的文檔存儲爲doc-type.timestamp.ext，並且我想提取所有相同類型的文檔。解析Ruby中的網頁以從中檢索URL

我的是這樣找到最好的解決辦法： What is the best way to parse a web page in Ruby?

反正我可以做到這一點，而無需使用角度來說，Hpricot等這樣的包？

謝謝！

來源

2011-03-22 Rahul

你是什麼意思的「某些標題」和「嵌入式網址」？ – 2011-03-22 12:08:29

我給出了一個確切的用例（文檔存檔）的例子。例如，我可能想要解析維基百科頁面以搜索任何出現的「*奧巴馬*」，這是鏈接並檢索重定向到的頁面的URL。希望這更清楚。 – Rahul 2011-03-22 12:17:52

爲什麼你不想使用外部寶石？它們可以讓你的生活變得更加簡單，採取AA看看這個Mechanize例如，你可以快速輸出頁面上的每一個環節：

require 'rubygems' 
require 'mechanize' 

a = Mechanize.new { |agent| 
    agent.user_agent_alias = 'Mac Safari' 
} 

a.get('http://google.com/') do |page| 
    p page.links 
end

我最近一直颳了很多，你不能走得很遠沒有解析頁面，我用普通網絡/ http使用Nokogiri，但將來會切換到機械化。機械化也在內部使用Nokogiri。

來源

2011-03-22 12:32:29 Bitterzoet

解析Ruby中的網頁以從中檢索URL

回答

相關問題