我有一個頁面,其中包含許多我不希望Google抓取的鏈接。 有沒有辦法做到這一點?如何防止Google機器人抓取特定頁面
2
A
回答
3
在您的HTTP根目錄下創建一個robots.txt
文件。如果您有一個網站http://domain.com,請將robots.txt
放在您可以加載它的地方http://domain.com/robots.txt。
User-agent: *
Disallow: /somewhere_i_dont_want_google_to_crawl.php
Disallow: /dont_crawl_this_directory/
這裏是堆棧溢出網站上真正的實用example。
1
結帳離開robots.txt file
但不這樣做在whitehouse.gov
白癡管理員在他們想保守祕密
哦,最後一件事,這個文件做的一切和列表 - 不信任它 - 它是「應該停止爬蟲」,但我不會成爲法律案件
2
您可以在您的HTTP根目錄中使用robots.txt
,並且您還可以使用元標記(如果您的網頁爲HTML)來停止它太:
<meta name="googlebot" content="noindex" />
更多示例請參閱this website。
相關問題
- 1. 如何防止機器人
- 2. Google網頁抓取機器人會遇到什麼HTTP簽名?
- 3. 如何防止下面的GET表單的機器人?
- 4. 如何獲取由Google抓取的私人網頁
- 5. 防止所有子域名被搜索引擎機器人抓取
- 6. 如何防止Googlebot抓取Ajaxified鏈接?
- 7. 如何防止代碼在特定頁面上運行?
- 8. 如何防止在特定頁面上自動註銷用戶?
- 9. 如何防止JScrollBar滾動頁面向下的特定事件?
- 10. 爲特定頁面重寫規則以防止特定文化
- 11. 防止被腳本抓取
- 12. 防止RSS提要抓取?
- 13. 抓取Google翻譯的頁面? (PHP)
- 14. 防止頁面
- 15. 如何防止iframe頁面重定向父頁面?
- 16. 如何阻止Google抓取出現網頁
- 17. Google如何抓取動態網頁?
- 18. 如何防止頁面刷新後秒錶定時器重置
- 19. X機器人標記noindex特定頁面
- 20. GOOGLE:如何防止子頁面出現在結果中
- 21. 搜索引擎機器人可以抓取需要登錄的頁面嗎?
- 22. 如何防止某人直接訪問頁面鏈接?
- 23. 如何在Google App Engine上執行網頁抓取以在Java中查找特定的鏈接頁面?
- 24. 抓取頁面塊
- 25. 如何使用維基機器人定期創建頁面
- 26. 如何防止從特定網頁重定向python腳本?
- 27. 如何防止開發人員推動特定分支?
- 28. 如何防止機器人對講說話搜索條進度
- 29. 如何防止機器人自動提交表單?
- 30. 如何防止機器人mouseMove走出屏幕
謝謝。 「HTTP根」在哪裏?我如何檢查它是否實際生效? – neversaint
我做了一個編輯並予以澄清。 Google有一篇關於robots.txt的文章:http://www.google.com/support/webmasters/bin/answer.py?hl=zh_CN&answer=156449&from=35237&rd=1 – Deltik