假設我有一個網站使用wget
來抓取其他網站。我想爲網站所有者提供不被我的網站抓取的機會。他們是否應該在他們的robots.txt
文件中使用機器人名稱wget
,還是必須創建其他名稱?robots.txt的機器人名稱
2
A
回答
1
通常的做法是禁止所有並允許只是最流行的UA是這樣的:
User-agent: Google
Disallow:
User-agent: *
Disallow:/
所以我認爲你沒有使用wget
這樣
0
看起來網站想阻止機器人會用通配符而不是有選擇性地阻止它們 - 這裏有太多的用戶代理,太多的用戶代理都沒有列出。
所以只要wget有一個默認的用戶代理(我認爲它可以),我會堅持這一點。
相關問題
- 1. 機器人meta和robots.txt
- 2. 的robots.txt和Meta標籤機器人
- 3. DotNetNuke的robots.txt的不被谷歌機器人榮幸
- 4. 的robots.txt和元機器人之間的互動標籤
- 5. Capistrano - 機器名稱
- 6. 如何禁止不遵守robots.txt的機器人?
- 7. 機器人Meta標記和robots.txt的兩個有什麼不同?
- 8. 命名我的機器人
- 9. 從robots.txt中禁止Google機器人並列出站點地圖
- 10. Lita中的條件路由和機器人名稱
- 11. 設置機器人測試用例的標記名稱
- 12. 如何阻止不尋常的機器人,如「bot [\ s_:,\。\; \/\\ - - ]」名稱?
- 13. 隨機名稱選取器
- 14. Htaccess/robots.txt允許搜索機器人探索主域名,但不在其他域名的目錄
- 15. 機器人可能在Slack中有動態名稱嗎?
- 16. 從機器名稱中刪除域名
- 17. 如何使用機器人的名字
- 18. iPhone/iPad模擬器的主機名稱
- 19. 如何獲得SPServer的機器名稱?
- 20. 用機器名稱和.domain名稱創建URI
- 21. 這個robots.txt是什麼意思?它不允許任何機器人嗎?
- 22. 即使沒有robots.txt文件,機器人仍然不允許使用
- 23. 不要使用機器人是指用戶代理robots.txt中OR或AND方式
- 24. 機器人 - 文本輸入型的人的名字不工作
- 25. 機器人名單音播放
- 26. 如何由機器人命名空間
- 27. 沒有資源發現,給定名稱匹配的 '機器人:Widget.Material.ActionButton.CloseMode'
- 28. 機器人 - 無法找到谷歌播放服務包的名稱
- 29. 將機器人框架中的庫導入爲另一個名稱?
- 30. 機器人框架:沒有找到名稱爲'Wait Until Element Contains'的關鍵字
很肯定'wget的任何問題'尊重UA「wget」(除非用戶強制它忽略機器人文件,當然)。顯然它會在適當的時候尊重「*」。 – Kevin 2013-05-05 03:18:43