2011-12-13 78 views
1

我在我的網站上有一個在會話中顯示一次的免責聲明。 一旦點擊了,你就被允許進入某個部分,它會在你的會話中被記住,所以它不會再次讓你感到煩惱。如何讓抓取工程師無視我的免責聲明

問題是,我不希望爬蟲遇到免責聲明。做什麼是忽略Googlebot用戶代理。

但還有很多其他的抓取工具,我希望他們也可以忽略它們。

這是唯一的解決方案嗎?通過其UA識別爬蟲?如何檢測cookie - 如果我沒有cookie,這意味着它是一個爬蟲?

感謝

+0

是否希望檢索器查看或不受保護的內容? – 2011-12-13 20:48:39

+0

是的。這就是爲什麼我希望他們有「特權」來跳過它。 – Himberjack 2011-12-13 20:50:43

回答

1

不管怎樣,您可能不希望依賴cookie,因爲用戶可以在常規瀏覽器上禁用cookie。

爲您的目的使用UA,只需獲取大型抓取工具,即時更新。

0

創建您的網站的根目錄名爲robots.txt的文件。

在這裏面,把這個:

User-agent: * 
Allow:/
Disallow: /path/to/disclaimer 

你可以找到關於robots.txt on the web更多信息。

0

您可以讓抓取工具看到免責聲明頁面,但不會通過向頁面添加「noindex」元標記來對其進行索引。這可能是您的問題的部分解決方案。

<html> 
    <head> 
     <meta name="robots" content="noindex" /> 
     <title>Disclaimer</title> 
    </head> 
    <body> 
     ... 
    </body> 
</html> 

這樣,爬蟲就能訪問免責聲明背後的網頁,但它們實際上不會指數基礎上的免責聲明頁上的條款。