我不是在編程語言(Python)的新的,但我得到了我哪裏會作出一個bot或使用python刮刀開始不知道?我應該學習cgi編程嗎?或者只是使用python腳本運行scraper?我應該爲此構建一個服務器嗎?爲幫助我應該從哪裏開始使用python製作刮板或bot?
8
A
回答
9
1
屏幕抓取涉及到很多正則表達式來得到你想要的確切數據。您還想知道要分析哪種數據以及如何存儲它。
要獲取的頁面,你需要利用庫如的urllib(或urllib2的)和正則表達式(RE)或一個很好的腳本使用是beautifulsoup做你的骯髒的工作(http://www.crummy.com/software/BeautifulSoup/)
如果你想要構建一個能夠完成搜索引擎功能的純粹機器人,你還必須構建一個足夠智能的機器人,以便知道你不會持續ping同一個域(導致DOS攻擊)。
2
如果你想訪問的網站,使大量JavaScript代碼,你可以,總體而言,找到Selenium容易。
硒是您的服務器上實際控制Web瀏覽器服務器和客戶端庫(包括Python的端口),使您可以控制瀏覽器,並檢查他們的網頁。
配置(和弄清楚)服務器和客戶端庫(並確保你的系統上有一個可用的瀏覽器)肯定會有更多開銷,但是如果網站在JavaScript中做了很多工作,你的實際刮碼可能會少得多。
相關問題
- 1. MSN Bot,從哪裏開始?
- 2. 我應該從哪裏開始ORACLE
- 3. 我應該從哪裏開始使用Facebook應用程序?
- 4. 我應該從xcode開始使用哪個模板?
- 5. 我應該從哪裏開始和結束while循環這裏
- 6. 從哪裏開始Python
- 7. 我應該從哪裏開始爲Mac開發?
- 8. 新的mac開發 - 我應該從哪裏開始?
- 9. 我從哪裏開始使用RESTful API?
- 10. 我從哪裏開始使用C#?
- 11. 我應該從哪裏開始創建我自己的Swift庫?
- 12. 絕對的開始程序員應該從哪裏開始?
- 13. Mean.js,我從哪裏開始?
- 14. 使用asp.net mvc之前應該從哪裏開始?
- 15. 從哪裏開始製作Adwords應用程序?
- 16. 我應該從哪一卷TAOCP開始?
- 17. 我應該開始在Xcode 6或5.1製作應用程序?
- 18. 新來的Umbraco,我應該從哪裏開始?
- 19. RegEx之後拆分PDF:我應該從哪裏開始?
- 20. 數據庫 - 我應該從哪裏開始?
- 21. 我應該從哪裏開始進行Android音頻編程?
- 22. 我應該從哪裏開始繪畫? (Java,GUI)
- 23. 我應該從哪裏開始學習Prolog?
- 24. 編寫使用語音識別程序...我應該從哪裏開始?
- 25. 使我的TCP服務器面向互聯網 - 我應該從哪裏開始?
- 26. 從哪裏開始?
- 27. - 從哪裏開始?
- 28. Facebook應用程序 - 從哪裏開始?
- 29. 我從哪裏開始製作Linux輸入黑客?
- 30. 我從哪裏開始製作Android 2D遊戲?
投票關閉太寬泛。 – 2015-11-25 09:31:12
嗯,我想是這樣,只是因爲OP從來沒有接受的答案,此後一直沒來過,所以它一直掛在「開放式」至今。 – 2015-11-25 09:56:59