2010-11-15 69 views
0

我需要用Java編寫的Groovy +刮刀..刮通過CSS選擇器

我在想,如果事情能夠解析HTML文件,並選擇通過簡單的CSS選擇我需要的信息(而不是經歷了整個文檔樹和手動選擇我需要)存在?類似於Nokogiri Ruby,只是爲了讓你知道我需要什麼。

在此先感謝!

+0

我的第一個想法:最後,有人沒有問正則表達式這個問題;)當然,這已經被詳細討論了。 – NotMe 2010-11-15 22:40:31

+0

可能重複的[HTML抓取選項?](http://stackoverflow.com/questions/2861/options-for-html-scraping) – NotMe 2010-11-15 22:40:38

+0

我一直在使用C#刮。我已經寫了一個jQuery端口,但是我不敢在這裏發佈它,因爲害怕因爲自我推銷而被投票遺忘。 – mpen 2010-11-17 05:13:15

回答

1

我通過使用Qt Webkit加載頁面幷包含JQuery來做類似的事情。

這是一個黑客攻擊,但適用於我的用例。我需要一個不需要配置的解決方案 - 只需sudo apt-get install libqt4-webkit然後您就可以開始了。

0

如果你可以通過瀏覽器支持(如使用瀏覽器來渲染和創建頁面),硒將是完美的。這將具有完全支持Ajax網站的額外好處。

如果不是,像webdriver可能會工作。

我只使用硒。

0

我使用Selenium RC + jQuery進行屏幕抓取。

示例代碼:https://github.com/tszming/Selenium-Google-Scrapper

雖然我使用PHP作爲客戶端,但你可以使用任何你喜歡的語言實現它(只要它可以跟硒RC)。

我曾嘗試過幾個CSS選擇器庫,但說實話,最好的解析器是您的瀏覽器,Selenium RC方法並不快但非常可靠。