2015-11-05 66 views
1

我需要爬取一個網站並從中獲取所有鏈接,問題是 - 此網站使用ajax,Go的標準http.Get(..)將返回如下內容:與ajax一起工作的網頁報廢/爬蟲

<body> 
    //javascript here  
    <div class="content"></div> 
    //javascript here 
</body> 

Div爲空。 golang有一些解決方案嗎?

+1

您可能需要使用像http://agouti.org/以及硒,幻影js或Chrome驅動程序 – jcbwlkr

回答

0

http.Get(Url)剛剛得到Url的響應。 resp.Content是這樣的:

<body> 
//javascript here  
<div class="content"></div> 
//javascript here 
</body> 

,如果你想在div的內容,你需要分析JavaScript並掌握了ajax如何獲得數據。然後你可以模擬進程得到你想要的。

+0

是的,但這是單獨的方法,用另一個JavaScript框架編寫的另一個站點,不起作用。必須有一個共同的方式...... – Kaign

0

您必須使用其中一個無頭網頁瀏覽器。 沒有檢查我是說沒有其他三個瀏覽器引擎(Webkit/Firefox,IE)的綁定。

切換到python和javascript。