如何以編程方式檢測機器人

我們有一種情況，即在頁面點擊和漫遊器登錄訪問和訪問者時堵塞了我們的數據庫。我們不能使用驗證碼或其他技術，因爲這是在我們甚至要求人類輸入之前，基本上我們正在記錄頁面點擊，並且我們只想記錄人類的頁面點擊。如何以編程方式檢測機器人

是否有已知的bot IP列表？檢查已知的bot用戶代理是否工作？

2010-05-05 BoomTownTech

沒有確定的方法來抓住所有的機器人。如果有人想要，機器人可以像真正的瀏覽器一樣行事。

大多數嚴重的機器人都在代理字符串中清楚地標識自己，因此通過已知機器人的列表，您可以將它們中的大多數機器人排除在外。在列表中，您還可以添加一些代理字符串，這些代理字符串默認情況下是一些HTTP庫使用的，以便從甚至不知道如何更改代理字符串的人員中收集殭屍工具。如果您只記錄訪問者的代理字符串，則應該能夠挑選出要存儲在列表中的那些字符串。

您也可以在頁面上放置一個隱藏的鏈接，導致頁面被robots.txt文件中的過濾掉，從而製作一個「壞的bot陷阱」。嚴重的機器人不會遵循鏈接，人類無法點擊它，所以只有不遵循規則的機器人才會請求文件。

來源

2010-05-05 19:15:19 Guffa

您也可以爲行爲良好的機器人創建robots.txt文件http://www.robotstxt.org/orig.html – 2011-08-17 06:49:46