該網站肯定有很多JavaScript運行。你應該如何處理這個問題,就是在一個實例中禁用javascript,並且在一側擁有一個普通實例。
然後,你可以挖掘和比較,即找到縮略圖ID和搜索它沒有JavaScript的來源 - 它可能是在某個地方的JSON或JavaScript變量。
This is what scrapy sees已禁用JavaScript。
您可以看到文章名稱和簡短描述。如果你檢查標題,你甚至可以看到有一個縮略圖的鏈接!
articles = response.xpath("//li[@data-m]/a[@aria-label]")
for article in articles:
# thumbnail
response.xpath('img/@data-src').extract_first()
# '{"default":"//img-s-msn-com.akamaized.net/tenant/amp/entityid/AAp0iW6.img?h=414&w=624&m=6&q=60&u=t&o=t&l=f&f=jpg&x=1280&y=688"}'
# title
article.xpath("@aria-label").extract_first()
# 'north korea can hit most of united states: u.s. officials provided by reuters'
# description
article.xpath("/img/@alt").extract_first()
# This Friday, July 28, 2017, photo distributed by the Nort...
我不知道如何禁用javascript得到你在該圖片中顯示的結果,當我通過鉻禁用javascript這是我看到:[鏈接](https://imagebin.ca/v/ 3VOUoErN9dgo) – Jason
@Jason你有沒有試過我的代碼? – Granitosaurus
是的,'articles'只是一個空白的數組,scrapy仍然只能得到我在問題 – Jason