幫助!谷歌索引我的網站上的測試文件夾,沒有人保存我本來應該知道的:(如何限制谷歌。從索引鏈接和某些文件夾谷歌索引我的測試文件夾在我的網站:(我如何限制網絡爬蟲!
回答
使用robot exclusion file,或者更好的密碼保護測試領域使用robots.txt文件! 「保護」你不希望別人看到的地方有點像在你的後門掛上一個標誌,說「我已經離開這個開放,但請不要進來」 :)
如果您Google webmaster tools註冊,你可以請求刪除搜索結果,如果你確保它不再通過訪問他們的履帶。
使用robots.txt
谷歌爲它,或查看:http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=40360
避免抓取工具爲您的部分內容編制索引的最佳方法是通過您網站根目錄的robots.txt文件。
下面是一個例子:
User-agent: *
Allow:/
Crawl-delay: 5
User-agent: *
Disallow: /cgi-bin
Disallow: /css
Disallow: /img
Disallow: /js
在第一個塊,我告訴他履帶可以瀏覽所有。
第二個塊有我希望他避免的文件夾列表。
這不是一個安全的方式確實保護它,因爲一些爬蟲不尊重它。
如果你真的想要保護它,最好的辦法應該是在這些文件夾上有一個.htaccess文件來強制認證。
你不需要一個「允許」參數。除了不允許的文件夾和文件以外的所有內容都將默認編入索引。 – TFM 2009-06-11 11:11:31
與robots.txt相關的問題並不在於抓取工具,它將抓取工具視爲最有趣的事情列表,將其視爲最有意思的事情列表,並且在您告訴別人無論何處都會指出特殊情況。 – 2009-06-11 11:46:47
當心!你可以告訴「好」的機器人(如谷歌)遠離某些地方,但其他機器人不會發揮出色。因此,正確解決這個問題的唯一方法就是對那些不被視爲「公共」的地方添加一些限制。您可以限制對您信任的某些IP地址的訪問,或者您可以添加用戶名/密碼認證。
也許正確的答案是不把測試代碼放在公共網站上。爲什麼它是你部署的一部分?
如果你使用Apache:
的.htaccess
AuthUserFile //.htpasswd AuthGroupFile /dev/null AuthName "You must log in to access this development web site" AuthType Basic
<Limit GET>
require valid-user
</Limit>
密碼文件(htpasswd的),那麼包含
name:password
的密碼進行加密。如果您搜索「htpasswd」,您會發現許多免費程序爲您加密密碼。
TRiG。
- 1. 我應該保護從谷歌爬蟲在我的網站上傳文件夾中的文件嗎?
- 2. 我如何讓我的AngularJS網站在谷歌上爬行?
- 3. 網絡爬蟲
- 4. 如何讓我的谷歌網絡應用在谷歌搜索?
- 5. 讓PHP網絡爬蟲尊重任何網站的robots.txt文件
- 6. 谷歌在我的網站搜索
- 7. 我如何處理JavaScript的一個Perl的網絡爬蟲?
- 8. 谷歌不索引我的網站,但索引論壇?
- 9. 爲我的網站搜索谷歌
- 10. 我的谷歌搜索網站
- 11. PHP網絡爬蟲
- 12. java網絡爬蟲
- 13. Python網絡爬蟲
- 14. 如何使谷歌搜索我的網站的動態網頁
- 15. 如何讓我的Perl網絡爬蟲更快?
- 16. 我在想網絡爬蟲,但如何開始?
- 17. 谷歌網站作爲我的網站在我的域名
- 18. 如何使不遵守我的robots.txt文件的網絡爬蟲崩潰?
- 19. 如何檢查我的網站是否使用爬蟲訪問?
- 20. 我如何限制訪問我的網站的文件?
- 21. 谷歌爬蟲時間限制
- 22. 谷歌網絡搜索API限制
- 23. 蟒蛇爬蟲代碼搜索網絡上的任何文件
- 24. asp.net mvc網站搜索使用網絡爬蟲
- 25. 網絡爬蟲,它檢索網站源代碼
- 26. 自動登錄谷歌網頁爬蟲
- 27. 谷歌主機我的kml文件(我的所有網站)?
- 28. 谷歌沒有索引我的網站中的所有頁面
- 29. 如何測試爬蟲?即︰模擬網絡請求
- 30. 如何使我的網站顯示在谷歌搜索
+1對於'使用robots.txt文件'保護'你不希望別人看到的區域有點像在後門上掛着一個標誌,說:「我已經把它打開了,但是請不要進來:) :) – UnkwnTech 2009-06-11 09:53:51