如果我在robots.txt中選擇的唯一禁止是爲了iisbot，爲什麼googlebot會阻止我的所有網址？

我有以下robots.txt一年多了，看上去似乎沒有問題：如果我在robots.txt中選擇的唯一禁止是爲了iisbot，爲什麼googlebot會阻止我的所有網址？

User-Agent: * 

User-Agent: iisbot 
Disallow:/



Sitemap: http://iprobesolutions.com/sitemap.xml

現在我從robots.txt測試

Googlebot爲什麼會阻止所有收到以下錯誤我的網站是否唯一禁止我選擇的是iisbot？

來源

2017-08-02 Julie S.

每個https://stackoverflow.com/questions/20294485/is-it-possible-to-list-multiple-user-agents-in-one-line它看起來像是因爲你有'User-Agent：*'它也將它讀爲'User-Agent：* iisbot' – WOUNDEDStevenJones

連續User-Agent行加在一起。所以Disallow將適用於User-Agent: *以及User-Agent: iisbot。

Sitemap: http://iprobesolutions.com/sitemap.xml 

User-Agent: iisbot 
Disallow:/

實際上您並不需要User-Agent: *。

來源

2017-08-02 16:13:34

抱歉，實際的代碼中間有空行，我已經在問題中更新了它。如果這仍然不正確，您能否爲我輸入代碼？ –

我編輯了我的anser。空行被忽略。 –

實際上，在我使用您的代碼之後，Google抓取報告了以下問題：「站點地圖包含受robots.txt阻止的網址」。看截圖：https://www.dropbox.com/s/uk5xsbuk7yqo6za/Screenshot%202017-08-02%2016.08.13.png?dl=0任何想法是什麼問題？ –

您的robots.txt無效（根據original robots.txt specification）。

您可以有多個記錄。
記錄由空行分隔。
每個記錄必須至少有一個User-agent行和至少一個Disallow行。

該規範沒有定義如何處理無效的記錄。因此，用戶代理可能會將您的robots.txt解釋爲具有一條記錄（忽略空行），或者他們可能會將第一條記錄解釋爲允許所有內容（至少這可能是可能的假設）。

如果要允許所有漫遊（除「iisbot」）抓取一切，你應該使用：

User-Agent: * 
Disallow: 

User-Agent: iisbot 
Disallow:/

或者，你可以省略第一個記錄，如允許一切都是默認的反正。但我寧願在這裏明確表示。

來源

2017-08-03 01:18:09 unor

謝謝，但我仍然得到網站地圖錯誤每https://www.dropbox.com/s/ezdw64korncw2r9/Screenshot%202017-08-03%2010.15.57.png?dl=0如果我使用你說的代碼跟隨由網站地圖每個：https://www.dropbox.com/s/mfd3ozz9343tnjg/Screenshot%202017-08-03%2010.15.01.png?dl=0 –

其實即使我使用你的確切代碼我仍然得到錯誤。 –

@JulieS .:我會說Google Search Console中報告的站點地圖警告與robots.txt的問題沒有直接關係。我的猜測是這是一個緩存問題：Google需要一段時間才能更新他們的robots.txt緩存，然後再也不應該在站點地圖中列出任何阻止的URL（因爲使用新的robots.txt，沒有URL已經被他們阻止了）。 – unor

如果我在robots.txt中選擇的唯一禁止是爲了iisbot，爲什麼googlebot會阻止我的所有網址？

回答

相關問題