2015-07-10 240 views
0

我在嘗試使用FormRequest來繞過表單的網頁內容。但問題是,在這個表單之後,有一個頁面帶有一個加載欄,只有在這個欄已滿後,該網站纔會顯示我想要的內容。 scrapy腳本在響應對象中提供加載頁面,而不是最終的網頁,並帶有我想要的結果。我能做些什麼來解決這個問題?我相信也許我需要設置一個計時器讓爬蟲等待加載頁面完成他的工作。正在等待scrapy的加載頁面

回答

0

在進行基本的HTML抓取時沒有等待的概念。 Scrapy向Web服務器發出請求並收到響應 - 這個響應就是你所得到的。

很可能,頁面上的加載欄使用Javascript來呈現頁面的結果。一個普通的瀏覽器會在頁面上等待 - 引擎蓋下,它正在運行Javascript,並可能在網頁服務器有足夠的信息呈現頁面之前向Web服務器發出更多請求。

爲了以編程方式複製結果,您必須以某種方式呈現該Javascript。不幸的是,Scrapy不具備這種能力建立在

有些選項你已經包括:

http://www.seleniumhq.org/

https://github.com/scrapinghub/splash