2016-07-22 79 views
0

我是scrapy的新手,在花費超人的時間瀏覽文檔和試驗和錯誤之前,我想我會詢問專家是否有可能尋找我想要的東西。在Scrapy中爬行多個級別

  1. 導航到應用程序URL
  2. 從網站上的所有環節,過濾環節的一個子集。這些鏈接 3.1對於每一個環節,颳去並提取和存儲一些信息 3.2中有這種反應,我想跟進 3.3刮應對這個鏈接,並記錄在案,以及特定鏈路的
  3. 訪問。

爲了達到這個目的,所有這些都可以在一個蜘蛛中完成,或者我必須過濾來自步驟2的鏈接併爲步驟3調用第二個蜘蛛嗎?

+0

我不認爲你需要_「通過文檔尋找超人類時間」_。您可能需要從['CrawlSpider'](http://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider)開始,該鏈接用於跟蹤鏈接,您也可以進行過濾。文檔中的示例還會在回調中提取數據。這是你學習的好開始(我們不能爲你做研究) –

+0

謝謝。我能夠通過文檔並通過抓取蜘蛛來實現這一點。現在我的下一步是使用scrapy登錄我正在刮的網站。我正嘗試登錄到amazon.com。但robots.txt提到www.amazon.com/ap/signin是不允許的。我已經設置了scrapy來遵守robots.txt請求,正如我應該的。是否有替代方案來實現認證會話? –

回答

0

更新:所以這是絕對有可能使用scrapy。至少多級抓取是。我還沒有足夠的知道我是否可以在爬網中存儲和鏈接不同級別的項目,以便我可以在一個地方獲得信息。但從我迄今爲止看到的scrapy的靈活性來判斷,這很可能是可能的。