2010-06-19 56 views
8

我不是在編程語言(Python)的新的,但我得到了我哪裏會作出一個bot或使用python刮刀開始不知道?我應該學習cgi編程嗎?或者只是使用python腳本運行scraper?我應該爲此構建一個服務器嗎?爲幫助我應該從哪裏開始使用python製作刮板或bot?

+0

投票關閉太寬泛。 – 2015-11-25 09:31:12

+0

嗯,我想是這樣,只是因爲OP從來沒有接受的答案,此後一直沒來過,所以它一直掛在「開放式」至今。 – 2015-11-25 09:56:59

回答

1

屏幕抓取涉及到很多正則表達式來得到你想要的確切數據。您還想知道要分析哪種數據以及如何存儲它。

要獲取的頁面,你需要利用庫如的urllib(或urllib2的)和正則表達式(RE)或一個很好的腳本使用是beautifulsoup做你的骯髒的工作(http://www.crummy.com/software/BeautifulSoup/

如果你想要構建一個能夠完成搜索引擎功能的純粹機器人,你還必須構建一個足夠智能的機器人,以便知道你不會持續ping同一個域(導致DOS攻擊)。

2

如果你想訪問的網站,使大量JavaScript代碼,你可以,總體而言,找到Selenium容易。

硒是您的服務器上實際控制Web瀏覽器服務器和客戶端庫(包括Python的端口),使您可以控制瀏覽器,並檢查他們的網頁。

配置(和弄清楚)服務器和客戶端庫(並確保你的系統上有一個可用的瀏覽器)肯定會有更多開銷,但是如果網站在JavaScript中做了很多工作,你的實際刮碼可能會少得多。