如何防止Google機器人抓取特定頁面

我有一個頁面，其中包含許多我不希望Google抓取的鏈接。有沒有辦法做到這一點？如何防止Google機器人抓取特定頁面

2011-11-18 neversaint

在您的HTTP根目錄下創建一個robots.txt文件。如果您有一個網站http://domain.com，請將robots.txt放在您可以加載它的地方http://domain.com/robots.txt。

User-agent: * 
Disallow: /somewhere_i_dont_want_google_to_crawl.php 
Disallow: /dont_crawl_this_directory/

這裏是堆棧溢出網站上真正的實用example。

2011-11-18 03:51:10 Deltik

謝謝。「HTTP根」在哪裏？我如何檢查它是否實際生效？ – neversaint

我做了一個編輯並予以澄清。 Google有一篇關於robots.txt的文章：http://www.google.com/support/webmasters/bin/answer.py?hl=zh_CN&answer=156449&from=35237&rd=1 – Deltik

但不這樣做在whitehouse.gov白癡管理員在他們想保守祕密

哦，最後一件事，這個文件做的一切和列表 - 不信任它 - 它是「應該停止爬蟲」，但我不會成爲法律案件

2011-11-18 03:51:55

您可以在您的HTTP根目錄中使用robots.txt，並且您還可以使用元標記（如果您的網頁爲HTML）來停止它太：

<meta name="googlebot" content="noindex" />

更多示例請參閱this website。

2011-11-18 03:53:52 Deco

回答