2015-07-12 46 views
0

在scrapy中,有一個選項可以限制對某些域進行爬網,即將它們放入allowed_domains變量中。根據模式禁用scrapy中的子域並篩選鏈接

  1. 我該如何禁止爬蟲運行到某些子域?
  2. 我該如何禁止爬蟲跟蹤特定模式的鏈接,例如:包含「?login =」或
  3. 是否有可能只遵循鏈接滿足一些正則表達式模式?

回答

0

this怎麼樣?我認爲文檔是一個很好的閱讀地方 - 你可以在allow旁找到deny的參數,並且它們可以使用正則表達式。