2010-09-22 76 views
3

我想知道如何啓動基於Scrapy的抓取工具。我通過安裝工具apt-get的安裝和我試圖運行一個例子:如何使用Scrapy

 
/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy list 
directory.google.com 

/usr/share/doc/scrapy/examples/googledir/googledir$ scrapy crawl 

我砍死從蜘蛛/ google_directory.py的代碼,但它似乎沒有執行,因爲我看不到任何我插入的打印。我讀了他們的文檔,但是我沒有發現任何與此相關的內容。你有什麼想法?

此外,如果您認爲對於抓取網站我應該使用其他工具,請讓我知道。我對Python工具沒有經驗,Python是必須的。

謝謝!

回答

7

你錯過了在爬行命令蜘蛛的名字。用途:

$ scrapy crawl directory.google.com 

另外,我建議你的例子項目複製,而不是在/usr/share/doc/scrapy/examples/目錄工作,你的家,所以你可以修改它並使用它:

$ cp -r /usr/share/doc/scrapy/examples/googledir ~ 
$ cd ~/googledir 
$ scrapy crawl directory.google.com 
+0

謝謝,它的工作! – 2010-09-23 09:41:40

7

EveryBlock.com發佈了一些使用lxml,urllib2和Django作爲其堆棧的quality scraping code

Scraperwiki.com是鼓舞人心的,充滿了python刮刀的例子。

與cssselect簡單的例子:

from lxml.html import fromstring 

dom = fromstring('<html... ...') 
navigation_links = [a.get('href') for a in htm.cssselect('#navigation a')] 
+0

謝謝您的回答;稍後我會看看這些技術。 – 2010-09-23 09:42:13