2017-10-10 59 views
0

我正在使用python scrapy獲取用戶評論評論,其中可能有多個頁面,我需要點擊「查看更多」才能看到更多評論。使用python scrapy取消下一頁評論

這是鏈接到的網頁我要爬網: https://en.drivy.com/car-rental/berlin/dacia-dokker-218119

我注意到,如果審查意見超過10個,我需要點擊「查看更多」,以獲得後續的評論鏈接。 我也注意到「查看更多」的URL鏈接是https://en.drivy.com/cars/218119/reviews?page=2 & rel = next

但是,如果我使用scrapy去https ://en.drivy.com/cars/218119/reviews?page=2 & rel = next,該網站將我重定向回https:// en.drivy.com/car-rental/berlin/dacia-dokker-218119我真的無法得到接下來的十條評論。 (我不知道該網站使用cookie或會話ID,並確定我的scrapy作爲新的訪問)

我知道我可以使用python selenium打開網頁,然後單擊「查看更多」以獲得評論,但是,硒很慢,我希望我可以用scrapy代替。

任何人都可以幫助我嗎?或者至少給我一個方向繼續?提前致謝。

回答

0

您應該設置"Accept: */*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"標題。您將捕獲包含註釋文本的JS對象。

yield Request("https://en.drivy.com/cars/218119/reviews?page=2&rel=next", parse = ..., ..., headers={'Accept': "*/*;q=0.5, text/javascript, application/javascript, application/ecmascript, application/x-ecmascript"})

+0

謝謝你的回覆。我試着按照你所顯示的設置標題。然而,我收到此錯誤 2017-10-10 16:24:45 [scrapy.downloadermiddlewares.retry]調試:重試(失敗1次):500內部服務器錯誤 – huahz

+0

您是否包含其他頭文件(尤其是X-CSRF-Token)? –

+0

我包括令牌後,它的作品!真棒! – huahz