遇到trustAsHtmlFilter爬行

時候當我試圖抓取此網頁：使用遇到trustAsHtmlFilter爬行

scrapy shell url

然後做一個

view(response)

我看到頁面上顯示trustAsHtmlFilter。頁面佈局在那裏，但是沒有顯示所有的內容。所以我猜這個網站使用這個過濾器來阻止我的抓取工具。

我做過谷歌它，它似乎像這個過濾器來自AngularJS？不知道這一點

所以我的問題是：

謝謝！

您是否嘗試過在請求中使用'user agent'？ 'scrapy shell -s USER_AGENT ='user agent''http：// www.example.com'' – Rahul

我用過它，仍然被該過濾器阻止 – user2628641

如果你在沒有javascript的瀏覽器中打開url，你會得到相同的「錯誤」。您正在尋找的內容是使用javascript動態生成的。所以你需要能夠處理js來獲取內容。

第一個選項通常嘗試識別由javascript生成的請求。如果你能做到這一點，你可以從scrapy發送相同的請求。如果你不能這樣做，下一個選項通常是使用一些與JavaScript /瀏覽器仿真或類似的包。像ScrapyJS或Scrapy + Selenium。

2016-03-02 23:26:20 Djunzu

回答