2013-05-05 74 views
2

假設我有一個網站使用wget來抓取其他網站。我想爲網站所有者提供不被我的網站抓取的機會。他們是否應該在他們的robots.txt文件中使用機器人名稱wget,還是必須創建其他名稱?robots.txt的機器人名稱

+1

很肯定'wget的任何問題'尊重UA「wget」(除非用戶強制它忽略機器人文件,當然)。顯然它會在適當的時候尊重「*」。 – Kevin 2013-05-05 03:18:43

回答

1

通常的做法是禁止所有並允許只是最流行的UA是這樣的:

User-agent: Google 
Disallow: 


User-agent: * 
Disallow:/

所以我認爲你沒有使用wget這樣

0

看起來網站想阻止機器人會用通配符而不是有選擇性地阻止它們 - 這裏有太多的用戶代理,太多的用戶代理都沒有列出。

所以只要wget有一個默認的用戶代理(我認爲它可以),我會堅持這一點。

相關問題