2011-05-31 70 views
3

我正在寫一個java.I中的一個非常基本的web蜘蛛,它面臨着一個問題,即爲同一個url加載的內容與瀏覽器中加載的內容不同。例如,在URL下面嘗試。網絡蜘蛛需要的幫助

http://www.google.co.in/search?sourceid=chrome&ie=UTF-8&q=web+spider#sclient=psy&hl=en&source=hp&q=web+spider&aq=f&aqi=&aql=&oq=web+spider&pbx=1&fp=d8e8e41d6d2bda33&biw=1366&bih=643

如果加載的網址,瀏覽器,並通過JAVA類URL,內容是different.This可能是因爲以下幾個原因。

  • JavaScript可能發送
    的XMLHttpRequest和串接 結果來呈現最終的HTML。
  • URL重定向最終可能會呈現 HTML。
  • 任何其他原因,我不知道。

那麼有沒有一種方法可以在我的java程序中模擬瀏覽器。有任何第三方庫,它加載類似於瀏覽器的頁面,並最終返回內容。任何幫助表示讚賞。

+1

你有沒有嘗試過,包括在Java中,以配合您的網頁瀏覽器USER_AGENT? – 2011-05-31 03:49:11

+0

雅..我包括user_agent相同的IE8,但同樣的問題。這是因爲瀏覽器執行的JavaScript可能會發送XMLHTTPRequest並將結果連接起來以形成最終內容。那麼是否有一種方法來模擬瀏覽器並獲取最終內容。 – hnm 2011-05-31 04:11:41

回答

1

嘗試htmlunit它可以模擬瀏覽器的行爲和處理JavaScript

+0

非常感謝你......它幫了我很多。 – hnm 2011-05-31 07:02:18