2012-04-10 89 views
0

我試圖創建一個網絡爬蟲,鑑於某些起始網址,提取所有元素,並跟隨他們爲了提取裏面的文字和。 我運行Django應用程序,給定一個查詢字符串,返回之前存儲在MySQL數據庫中的所有項目。 在我看來,最好的辦法是使用Scrapy,給他一些起始網址中,他會通過簡單地提取頁面中所有的網址找到別人,然後,他會跟着他們獲取這些網頁的內容。如何將Scrapy與Mysql結合使用?

  1. 是否有可能把以前提取的數據到MySQL數據庫 (bacause我沒有找到關於這個的scrapy.org任何信息)?
  2. 有一個內置的功能來決定的「深度」掃描?

回答

1

我只是讀了所有的scrapy文檔,可能有更好的方法來做到這一點,但在項目管道中,我剛剛在那裏保存了數據。對於每個被處理的項目,檢查它是否已經在你的mysql中,並保存它,如果它不是! http://doc.scrapy.org/en/latest/topics/item-pipeline.html

對於閱讀了 「深度」:使用DepthMiddleware。您可以從request.meta['depth']之類的請求對象中讀取它。

+2

我表達瞭如何讀取深度信息。 – DrColossos 2012-04-11 11:40:44

+0

非常感謝 – Haldir87 2012-04-12 06:01:45

相關問題