哪一個更適合屏幕抓取? 簡單的html dom或史努比 ?? 我使用簡單的HTML DOM,並找到它感到舒服.. 做snoopy有什麼優於簡單的HTML DOM?最好的屏幕刮板,簡單的HTML DOM或史努比?
我的要求:如果我想從一個頁面(登錄後).. 簡單的HTML DOM是容易的,但它需要一個洛塔時間打印結果刮內容..
哪一個更適合屏幕抓取? 簡單的html dom或史努比 ?? 我使用簡單的HTML DOM,並找到它感到舒服.. 做snoopy有什麼優於簡單的HTML DOM?最好的屏幕刮板,簡單的HTML DOM或史努比?
我的要求:如果我想從一個頁面(登錄後).. 簡單的HTML DOM是容易的,但它需要一個洛塔時間打印結果刮內容..
是史努比是衆所周知/成熟的包?
如果不是這樣,那麼所有其他的東西都是平等的,我可能會使用通用的HTML DOM代碼 - 尤其是如果這種刮擦有點簡單。
但是隻有當你的代碼開始變得太大,難以管理等時,你纔會知道,在這一點上看看像史努比那樣的另一個工具可能會更好。 (這當然,我沒有經驗;對於那些不熟悉它的人來說,顯然是在http://sourceforge.net/projects/snoopy/--「Snoopy是一個模擬網頁瀏覽器的PHP類,它自動執行檢索網頁內容的任務和「)
即使我不知道史努比本身,因此不能確切地回答你的問題,我發佈的真正原因是要問你是否考慮過使用硒(http://www.seleniumhq.org/)而不是史努比。
Selenium是一個相當知名的測試工具,它讓我想到使用它做你正在做的事情(如果可以的話)的好處之一是它已經內置了測試。
原因很簡單,屏幕抓取是一項固有的脆弱任務 - 如果目標網站改變了某些內容,那麼您的抓取失敗了。所以這是一個很好的設計,有一個自動化的刮擦/測試 - 刮 - 工作系統。
無論如何,要想一想。
感謝您的鏈接..我在看它.. – Sam 2009-11-24 10:38:37
我已經偶然發現了基於Python的BeautifulSoup。我想還有其他一些人。
看起來Snoopy是基於PHP的,因此只能運行在服務器端。這是你真正想要的嗎?你有什麼要求?請詳細說明。
還有機械化(http://wwwsearch.sourceforge.net/mechanize/)這是基於Python和基於BeautifulSoup 。 Andrea和Jeremy是對的,我們需要更多關於你想要做什麼的細節(以及你想做多少次,多少頁面等),以便能夠推薦服務器端和客戶端等等 – Chirael 2009-11-25 01:32:44
這取決於你想要做什麼。發佈更多詳細信息,請... – 2009-11-24 10:25:54