0

我有一個像Web服務一個Digg其簡要說明具有頁面分析器,當人們提交的故事,解析器基於角度來說,Hpricot和我寫了一些其他小的提取原則返回標題和摘要。Ruby on Rails的Safari瀏覽器,如文本提取讀者和boilerplating

我希望把它帶到一個新的水平,並嘗試從用戶提交對解析器的網頁內容發現和提取。例如,我想提取文章的內容。

當然,我真的不希望從頭開始寫我自己的樣板和提取算法。

是否有寶石或東西,我可以鉤到我的Rails應用程序,可以是有關在一定程度上給了我想要達到什麼目的?

我真的停留在這個任何幫助表示讚賞。

此致敬禮。

回答

0

Hpricot在ruby中被棄用,轉而使用nokogiri。 你可以使用任何XPath表達式與引入nokogiri例如

require 'rubygems' 
require 'nokogiri' 
require 'open-uri' 

doc = Nokogiri::HTML(open('http://www.google.com/').read) 
puts doc.xpath('//title')[0].text 
+0

我想要得到的文章,而不是標題的內容。我現在就在這裏得到標題和摘要。 – YavorIvanov

+0

完整內容將在doc.content中 – pguardiario

0

給可讀性寶石一試。它的作品非常好:

https://github.com/cantino/ruby-readability

require 'rubygems' 
require 'readability' 
require 'open-uri' 

source = open('http://lab.arc90.com/experiments/readability/').read 
puts Readability::Document.new(source).content