2011-12-02 69 views
0

我想編寫一個程序,最好是Servlet,它將搜索網站中的特定關鍵字,我將作爲url字段中的參數傳遞給JSP(視圖)頁面,所以我的控制器將連接到該URL並將搜索內容。JSP Servlet Web抓取

可能嗎?

我是網絡爬行技術的新手。 Web爬行會起作用嗎?

請幫我一把。

感謝, @rs

+0

是的,這是可能的。請在步驟中逐步解決問題,並在每一步遇到困難時詢問每個步驟的具體編程問題。這個問題過於寬泛和修辭。 – BalusC

回答

0

是的,它是可能的,但它不是一個servlet你需要這個。您需要從所需URL獲取HTML內容的東西,然後創建自己的邏輯來解析HTML文本並提取所需內容。

一個基本的客戶端應該是Apache HTTP Client:http://hc.apache.org/httpclient-3.x/。然而,這個人只提取HTML,它不會執行JavaScript或使用富媒體內容(如Flash)。然而,這與Google Web Crawlers的工作方式非常相似。

更高級的客戶端是HTML單元:http://htmlunit.sourceforge.net/。這傢伙也做JavaScript。

此外,如果你真的要比較Googlebot如何實際獲取的頁面,你可以使用這個模擬器從谷歌:http://www.google.com/support/webmasters/bin/answer.py?answer=158587(你需要用你的gmail accoutn到谷歌網站管理員工具登錄到使用它)

+0

@ Andrei-非常感謝。卡住後會再回來 – Ars