我最近一直在抓取很多網站的內容,並且很驚訝到目前爲止沒有網站能夠提出很多抵制。理想情況下,我正在處理的網站不應該很容易被收穫。所以我想知道什麼是阻止漫遊者收集您的網頁內容的最佳方法。 明顯的解決方案:什麼是保護內容不被抓取的最佳措施?
- 的robots.txt(雅右)
- IP黑名單
什麼可以做趕上機器人活動?怎樣才能使數據提取變得困難?可以做些什麼來給他們提供不好的數據?
關於SEO的關注,有沒有辦法來限制訪問某些數據塊(有點像文本<nofollow>
塊?) 只是看看的想法,沒有正確/錯誤答案
嗯...不要將它連接到互聯網? – 2011-02-08 07:19:05