2009-06-11 47 views

回答

12

使用robot exclusion file,或者更好的密碼保護測試領域使用robots.txt文件! 「保護」你不希望別人看到的地方有點像在你的後門掛上一個標誌,說「我已經離開這個開放,但請不要進來」 :)

如果您Google webmaster tools註冊,你可以請求刪除搜索結果,如果你確保它不再通過訪問他們的履帶。

+3

+1對於'使用robots.txt文件'保護'你不希望別人看到的區域有點像在後門上掛着一個標誌,說:「我已經把它打開了,但是請不要進來:) :) – UnkwnTech 2009-06-11 09:53:51

2

避免抓取工具爲您的部分內容編制索引的最佳方法是通過您網站根目錄的robots.txt文件。

下面是一個例子:

User-agent: * 
Allow:/
Crawl-delay: 5 

User-agent: * 
Disallow: /cgi-bin 
Disallow: /css 
Disallow: /img 
Disallow: /js 

在第一個塊,我告訴他履帶可以瀏覽所有。

第二個塊有我希望他避免的文件夾列表。

這不是一個安全的方式確實保護它,因爲一些爬蟲不尊重它。

如果你真的想要保護它,最好的辦法應該是在這些文件夾上有一個.htaccess文件來強制認證。

+0

你不需要一個「允許」參數。除了不允許的文件夾和文件以外的所有內容都將默認編入索引。 – TFM 2009-06-11 11:11:31

+0

與robots.txt相關的問題並不在於抓取工具,它將抓取工具視爲最有趣的事情列表,將其視爲最有意思的事情列表,並且在您告訴別人無論何處都會指出特殊情況。 – 2009-06-11 11:46:47

2

當心!你可以告訴「好」的機器人(如谷歌)遠離某些地方,但其他機器人不會發揮出色。因此,正確解決這個問題的唯一方法就是對那些不被視爲「公共」的地方添加一些限制。您可以限制對您信任的某些IP地址的訪問,或者您可以添加用戶名/密碼認證。

2

也許正確的答案是不把測試代碼放在公共網站上。爲什麼它是你部署的一部分?

2

如果你使用Apache:

的.htaccess

AuthUserFile //.htpasswd AuthGroupFile /dev/null AuthName "You must log in to access this development web site" AuthType Basic

<Limit GET>

require valid-user 

</Limit>

密碼文件(htpasswd的),那麼包含

name:password

的密碼進行加密。如果您搜索「htpasswd」,您會發現許多免費程序爲您加密密碼。

TRiG。