Ruby on Rails的Safari瀏覽器，如文本提取讀者和boilerplating

我有一個像Web服務一個Digg其簡要說明具有頁面分析器，當人們提交的故事，解析器基於角度來說，Hpricot和我寫了一些其他小的提取原則返回標題和摘要。Ruby on Rails的Safari瀏覽器，如文本提取讀者和boilerplating

我希望把它帶到一個新的水平，並嘗試從用戶提交對解析器的網頁內容發現和提取。例如，我想提取文章的內容。

當然，我真的不希望從頭開始寫我自己的樣板和提取算法。

是否有寶石或東西，我可以鉤到我的Rails應用程序，可以是有關在一定程度上給了我想要達到什麼目的？

我真的停留在這個任何幫助表示讚賞。

此致敬禮。

來源

2011-10-12 YavorIvanov

Hpricot在ruby中被棄用，轉而使用nokogiri。你可以使用任何XPath表達式與引入nokogiri例如

require 'rubygems' 
require 'nokogiri' 
require 'open-uri' 

doc = Nokogiri::HTML(open('http://www.google.com/').read) 
puts doc.xpath('//title')[0].text

來源

2011-10-13 09:45:15 pguardiario

我想要得到的文章，而不是標題的內容。我現在就在這裏得到標題和摘要。 – YavorIvanov

完整內容將在doc.content中 – pguardiario

給可讀性寶石一試。它的作品非常好：

https://github.com/cantino/ruby-readability

require 'rubygems' 
require 'readability' 
require 'open-uri' 

source = open('http://lab.arc90.com/experiments/readability/').read 
puts Readability::Document.new(source).content

來源

2013-05-11 17:04:05

Ruby on Rails的Safari瀏覽器，如文本提取讀者和boilerplating

回答

相關問題