2012-09-03 28 views

回答

1

首先,您應該在域的Web根目錄中創建一個robots.txt文件來解決兩個問題。首先控制抓取網站的速度,這可以幫助防止殭屍/蜘蛛同時創建大量的數據庫連接。其次是防止特定漫遊器爬取網站。使用下面的默認值,但您可能需要添加或刪除代理人否認了用戶,並調整抓取速度

示例代碼:

User-agent: * 
Crawl-delay: 10 

User-agent: Baiduspider 
Disallow:/

User-agent: Sosospider 
Disallow:/

使用的/robots.txt時有兩個重要的因素:

  1. 機器人可以忽略您的/robots.txt。尤其是掃描網絡中的安全漏洞的惡意軟件機器人,以及垃圾郵件發送者使用的電子郵件地址收集器都不會引起注意。
  2. /robots.txt文件是公開可用的文件。任何人都可以看到你不想讓機器人使用的服務器部分。