如何讓抓取工程師無視我的免責聲明

我在我的網站上有一個在會話中顯示一次的免責聲明。一旦點擊了，你就被允許進入某個部分，它會在你的會話中被記住，所以它不會再次讓你感到煩惱。如何讓抓取工程師無視我的免責聲明

問題是，我不希望爬蟲遇到免責聲明。做什麼是忽略Googlebot用戶代理。

但還有很多其他的抓取工具，我希望他們也可以忽略它們。

這是唯一的解決方案嗎？通過其UA識別爬蟲？如何檢測cookie - 如果我沒有cookie，這意味着它是一個爬蟲？

感謝

來源

2011-12-13 Himberjack

是否希望檢索器查看或不受保護的內容？ – 2011-12-13 20:48:39

是的。這就是爲什麼我希望他們有「特權」來跳過它。 – Himberjack 2011-12-13 20:50:43

不管怎樣，您可能不希望依賴cookie，因爲用戶可以在常規瀏覽器上禁用cookie。

爲您的目的使用UA，只需獲取大型抓取工具，即時更新。

來源

2011-12-13 20:50:23

創建您的網站的根目錄名爲robots.txt的文件。

在這裏面，把這個：

User-agent: * 
Allow:/
Disallow: /path/to/disclaimer

你可以找到關於robots.txt on the web更多信息。

來源

2011-12-13 20:42:25 danludwig

您可以讓抓取工具看到免責聲明頁面，但不會通過向頁面添加「noindex」元標記來對其進行索引。這可能是您的問題的部分解決方案。

<html> 
    <head> 
     <meta name="robots" content="noindex" /> 
     <title>Disclaimer</title> 
    </head> 
    <body> 
     ... 
    </body> 
</html>

這樣，爬蟲就能訪問免責聲明背後的網頁，但它們實際上不會指數基礎上的免責聲明頁上的條款。

來源

2011-12-13 20:59:55

如何讓抓取工程師無視我的免責聲明

回答

相關問題