2011-03-22 67 views
0

我想解析網頁並使用ruby檢索某些標題下的前幾個嵌入式URL。例如,我有一個文檔存檔,其中的文檔存儲爲doc-type.timestamp.ext,並且我想提取所有相同類型的文檔。解析Ruby中的網頁以從中檢索URL

我的是這樣找到最好的解決辦法: What is the best way to parse a web page in Ruby?

反正我可以做到這一點,而無需使用角度來說,Hpricot等這樣的包?

謝謝!

+0

你是什麼意思的「某些標題」和「嵌入式網址」? – 2011-03-22 12:08:29

+0

我給出了一個確切的用例(文檔存檔)的例子。例如,我可能想要解析維基百科頁面以搜索任何出現的「*奧巴馬*」,這是鏈接並檢索重定向到的頁面的URL。希望這更清楚。 – Rahul 2011-03-22 12:17:52

回答

3

爲什麼你不想使用外部寶石?它們可以讓你的生活變得更加簡單,採取AA看看這個Mechanize例如,你可以快速輸出頁面上的每一個環節:

require 'rubygems' 
require 'mechanize' 

a = Mechanize.new { |agent| 
    agent.user_agent_alias = 'Mac Safari' 
} 

a.get('http://google.com/') do |page| 
    p page.links 
end 

我最近一直颳了很多,你不能走得很遠沒有解析頁面,我用普通網絡/ http使用Nokogiri,但將來會切換到機械化。機械化也在內部使用Nokogiri。