我正在編寫一個scrapy爬蟲,用於迭代'下一頁'爬行。 我的代碼是這樣的:Scrapy意外跳過了一些頁面
def parse(self, response):
while self.current_page<=self.total_page:
self.current_page = int(self.selector.css("something").extract()[-1])
for post_node in self.selector.css("div.info-column"):
yield {
"location": post_node.css("something").extract(),
}
logging.info("************** now page is %d **************", self.current_page)
logging.info("********** one page done,Going to next **********")
try:
self.next.send_keys('\n')
我預想的代碼抓取每一頁的信息,然後點擊下一頁。但打印的調試信息顯示它經常跳過一些頁面。
可能是什麼原因?
感謝您的幫助。經過幾個小時的調試。當我切換到xpath定位器時,我終於可以工作了。當我閱讀他們對selector.css函數的評論時。有人說,CSS選擇器是翻譯成xpath。我不確定是否由於css選擇器的穩定性。但是xpath對我來說一直穩定運行。 – Jimmy