2012-01-21 41 views
2

Rails 3中的屏幕抓取選項是什麼 - gem/library?我過去使用過Nokogiri,但只是想知道Rails 3中是否有更好的選擇。Rails 3屏幕抓取3

+1

IMO Nokogiri是適用於任何語言的最好的抓取庫。也許你應該告訴我們它沒有你想要的東西。 – pguardiario

+0

@pguardiario:Nokogiri是最好的,我同意。 –

回答

1

Rails不會執行屏幕抓取。您可以自由使用可以添加該功能的Ruby代碼,但是它本身可以生成頁面。

機械化,內部使用Nokogiri,是一個不錯的選擇,否則我總是使用Nokogiri和OpenURI推出自己的產品。

2

如果這是一個一次性的任務,或者如果你的目標數據集相對較小(下頁百),使用Mechanize(瀏覽&刮)或Anemone(爲所欲爲機械化確實+其他一些特定的爬行選項)。

如果您需要自動執行此集合,或者您正在處理大型數據集,請考慮使用Web服務。 Bobik是這個桶裏的不錯選擇。

0

您還可以使用Scrapifier gem從字符串中找到的URI中獲取元數據。它使用起來非常簡單:

'Wow! What an awesome site: http://adtangerine.com!'.scrapify 

#=> { 
# title:  "AdTangerine | Advertising Platform for Social Media", 
# description: "AdTangerine is an advertising platform that uses the tangerine as a virtual currency for advertisers and publishers in order to share content on social networks.", 
# images:  ["http://adtangerine.com/assets/logo_adt_og.png", "http://adtangerine.com/assets/logo_adt_og.png", "http://s3-us-west-2.amazonaws.com/adtangerine-prod/users/avatars/000/000/834/thumb/275747_1118382211_1929809351_n.jpg", "http://adtangerine.com/assets/foobar.gif"], 
# uri:   "http://adtangerine.com" 
# }