我在我的網站上有一個在會話中顯示一次的免責聲明。 一旦點擊了,你就被允許進入某個部分,它會在你的會話中被記住,所以它不會再次讓你感到煩惱。如何讓抓取工程師無視我的免責聲明
問題是,我不希望爬蟲遇到免責聲明。做什麼是忽略Googlebot用戶代理。
但還有很多其他的抓取工具,我希望他們也可以忽略它們。
這是唯一的解決方案嗎?通過其UA識別爬蟲?如何檢測cookie - 如果我沒有cookie,這意味着它是一個爬蟲?
感謝
我在我的網站上有一個在會話中顯示一次的免責聲明。 一旦點擊了,你就被允許進入某個部分,它會在你的會話中被記住,所以它不會再次讓你感到煩惱。如何讓抓取工程師無視我的免責聲明
問題是,我不希望爬蟲遇到免責聲明。做什麼是忽略Googlebot用戶代理。
但還有很多其他的抓取工具,我希望他們也可以忽略它們。
這是唯一的解決方案嗎?通過其UA識別爬蟲?如何檢測cookie - 如果我沒有cookie,這意味着它是一個爬蟲?
感謝
不管怎樣,您可能不希望依賴cookie,因爲用戶可以在常規瀏覽器上禁用cookie。
爲您的目的使用UA,只需獲取大型抓取工具,即時更新。
創建您的網站的根目錄名爲robots.txt的文件。
在這裏面,把這個:
User-agent: *
Allow:/
Disallow: /path/to/disclaimer
你可以找到關於robots.txt on the web更多信息。
您可以讓抓取工具看到免責聲明頁面,但不會通過向頁面添加「noindex」元標記來對其進行索引。這可能是您的問題的部分解決方案。
<html>
<head>
<meta name="robots" content="noindex" />
<title>Disclaimer</title>
</head>
<body>
...
</body>
</html>
這樣,爬蟲就能訪問免責聲明背後的網頁,但它們實際上不會指數基礎上的免責聲明頁上的條款。
是否希望檢索器查看或不受保護的內容? – 2011-12-13 20:48:39
是的。這就是爲什麼我希望他們有「特權」來跳過它。 – Himberjack 2011-12-13 20:50:43