1
我正在使用InitSpider
並在def __init__(self, *a, **kw):
方法中讀取自定義json
配置。Scrapy:根據從自定義配置中讀取的值覆蓋DEPTH_LIMIT變量
該json配置文件包含一個指令,我可以控制爬行深度。我已經可以成功讀取該配置文件並提取該值。主要問題是如何告訴scrapy使用這個值。
注意:我不想使用命令行參數,如-s DEPTH_LIMIT=3
,我真的想從我的自定義配置中解析它。
我在哪裏保存中間件類,我應該給什麼名呢? – cytopia
我解決了上述問題。它現在可以工作,但似乎深度> max_depth的頁面仍然被抓取(下載),但沒有處理。爲了節省時間和帶寬,是否也可以不首先下載它們? – cytopia