即時構建大型網絡爬蟲,當在位於互聯網服務器場中的專用Web服務器上運行網頁時爬網時,有多少實例是最佳實例。爬蟲實例
Q
爬蟲實例
0
A
回答
3
spare_memory_on_machine/memory_footprint_of_crawler_process * 0.95
4
要進行大規模的履帶你將不得不處理像一些問題:
•不可能性,以保持信息都在一個數據庫中。
•RAM不足,無法應付龐大的指數(S)
•多線程性能和併發
•履帶式陷阱(通過改變網址,日曆,會議IDS創建無限循環......)和重複內容。
•抓取從多臺計算機
•格式不正確的HTML代碼
•從服務器
•數據庫不壓縮恆HTTP錯誤,至極使你的空間約8倍大的需求。
•重新抓取例程和優先級。
•使用壓縮請求(Deflate/gzip)(適用於任何類型的搜尋器)。
和一些重要的事情
•尊重robots.txt的
•並在每個請求不受阻Web服務器履帶延遲。
最佳的線程配置將取決於您的代碼..我用.net運行100個進程。我建議您使用計劃類來避免不必要的開放線程。
PS。如果您使用5個線程,則需要多年時間才能實現「大規模」網絡爬行。
相關問題
- 1. Python爬蟲 - html.fromstring
- 2. 網絡爬蟲
- 3. 做爬蟲解碼html實體?
- 4. 開源C++爬蟲?
- 5. php爬蟲檢測
- 6. 重定向爬蟲
- 7. PHP網絡爬蟲
- 8. java網絡爬蟲
- 9. 爬蟲vs刮板
- 10. Python網絡爬蟲
- 11. 需要網絡爬蟲
- 12. 自動網絡爬蟲
- 13. 網絡爬蟲,反饋?
- 14. 網絡爬蟲不打印
- 15. TYPO3爬蟲索引內容
- 16. 識別搜索爬蟲
- 17. python中的Facebook爬蟲
- 18. 網絡爬蟲應用
- 19. Python爬蟲的問題
- 20. 單頁網頁爬蟲PHP
- 21. 網絡爬蟲提取
- 22. C#web和ftp爬蟲庫
- 23. 。基於網絡的網絡爬蟲示例
- 24. Ruby中的Web爬蟲:如何實現最佳性能?
- 25. Python簡單的網絡爬蟲錯誤(無限循環爬行)
- 26. 針對windows的增量爬網支持的網絡爬蟲
- 27. scrapy爬蟲在爬行時顯示錯誤
- 28. 如何在asp.net後端運行爬蟲?
- 29. 蟒蛇爬蟲不適用於asyncio
- 30. 是一個網絡爬蟲更合適?
你要抓取*網頁嗎?還是內聯網?一旦?每兩分鐘?出於什麼目的?你的問題太模糊,不能認真回答。請詳細說明一下。 – balpha 2009-06-21 10:03:01