2009-11-24 60 views
0

哪一個更適合屏幕抓取? 簡單的html dom史努比 ?? 我使用簡單的HTML DOM,並找到它感到舒服.. 做snoopy有什麼優於簡單的HTML DOM?最好的屏幕刮板,簡單的HTML DOM或史努比?

我的要求:如果我想從一個頁面(登錄後).. 簡單的HTML DOM是容易的,但它需要一個洛塔時間打印結果刮內容..

+0

這取決於你想要做什麼。發佈更多詳細信息,請... – 2009-11-24 10:25:54

回答

1

是史努比是衆所周知/成熟的包?

如果不是這樣,那麼所有其他的東西都是平等的,我可能會使用通用的HTML DOM代碼 - 尤其是如果這種刮擦有點簡單。

但是隻有當你的代碼開始變得太大,難以管理等時,你纔會知道,在這一點上看看像史努比那樣的另一個工具可能會更好。 (這當然,我沒有經驗;對於那些不熟悉它的人來說,顯然是在http://sourceforge.net/projects/snoopy/--「Snoopy是一個模擬網頁瀏覽器的PHP類,它自動執行檢索網頁內容的任務和「)

即使我不知道史努比本身,因此不能確切地回答你的問題,我發佈的真正原因是要問你是否考慮過使用硒(http://www.seleniumhq.org/)而不是史努比。

Selenium是一個相當知名的測試工具,它讓我想到使用它做你正在做的事情(如果可以的話)的好處之一是它已經內置了測試。

原因很簡單,屏幕抓取是一項固有的脆弱任務 - 如果目標網站改變了某些內容,那麼您的抓取失敗了。所以這是一個很好的設計,有一個自動化的刮擦/測試 - 刮 - 工作系統。

無論如何,要想一想。

+0

感謝您的鏈接..我在看它.. – Sam 2009-11-24 10:38:37

0

我已經偶然發現了基於Python的BeautifulSoup。我想還有其他一些人。

看起來Snoopy是基於PHP的,因此只能運行在服務器端。這是你真正想要的嗎?你有什麼要求?請詳細說明。

+0

還有機械化(http://wwwsearch.sourceforge.net/mechanize/)這是基於Python和基於BeautifulSoup 。 Andrea和Jeremy是對的,我們需要更多關於你想要做什麼的細節(以及你想做多少次,多少頁面等),以便能夠推薦服務器端和客戶端等等 – Chirael 2009-11-25 01:32:44