,如果你有一個包含sitemap.xml的:Scrapy正則表達式爲sitemap_follow
abc.com/sitemap-1.xml
abc.com/sitemap-2.xml
abc.com/image-sitemap.xml
我怎樣寫sitemap_follow僅讀取地圖-XXX的站點地圖,而不是像sitemap.xml的? 我試過
^sitemap
沒有運氣。我該怎麼辦?否定「形象」?怎麼樣?
編輯: Scrapy代碼:
self._follow = [regex(x) for x in self.sitemap_follow]
和
if any(x.search(loc) for x in self._follow):
正則表達式應用到整個URL。我看到一個解決方案,而不修改Scrapy的唯一方法是有一個Scraper僅適用於abc.com,並將其添加到正則表達式,或者只是添加/到正則表達式
要麼我太累了,要麼吃了我的問題的一部分。我想避免閱讀圖像站點地圖,但只有sitemap-xxx。那是我用^ sitemap試過的。 – maugch
請參閱編輯。 –
我想我們應該檢查Scrapy如何使用正則表達式。我想這只是檢查路徑,而不是網址。否則,更簡單的解決方案應該是僅在abc.com上使用爬網程序,以便正則表達式將該部分修復爲 – maugch