2017-08-02 86 views
0

我有以下robots.txt一年多了,看上去似乎沒有問題:如果我在robots.txt中選擇的唯一禁止是爲了iisbot,爲什麼googlebot會阻止我的所有網址?

User-Agent: * 

User-Agent: iisbot 
Disallow:/



Sitemap: http://iprobesolutions.com/sitemap.xml 

現在我從robots.txt測試enter image description here

Googlebot爲什麼會阻止所有收到以下錯誤我的網站是否唯一禁止我選擇的是iisbot?

+0

每個https://stackoverflow.com/questions/20294485/is-it-possible-to-list-multiple-user-agents-in-one-line它看起來像是因爲你有'User-Agent:*'它也將它讀爲'User-Agent:* iisbot' – WOUNDEDStevenJones

回答

3

連續User-Agent行加在一起。所以Disallow將適用於User-Agent: *以及User-Agent: iisbot

Sitemap: http://iprobesolutions.com/sitemap.xml 

User-Agent: iisbot 
Disallow:/

實際上您並不需要User-Agent: *

+0

抱歉,實際的代碼中間有空行,我已經在問題中更新了它。如果這仍然不正確,您能否爲我輸入代碼? –

+0

我編輯了我的anser。空行被忽略。 –

+0

實際上,在我使用您的代碼之後,Google抓取報告了以下問題:「站點地圖包含受robots.txt阻止的網址」。看截圖:https://www.dropbox.com/s/uk5xsbuk7yqo6za/Screenshot%202017-08-02%2016.08.13.png?dl=0任何想法是什麼問題? –

1

您的robots.txt無效(根據original robots.txt specification)。

  • 您可以有多個記錄。
  • 記錄由空行分隔。
  • 每個記錄必須至少有一個User-agent行和至少一個Disallow行。

該規範沒有定義如何處理無效的記錄。因此,用戶代理可能會將您的robots.txt解釋爲具有一條記錄(忽略空行),或者他們可能會將第一條記錄解釋爲允許所有內容(至少這可能是可能的假設)。

如果要允許所有漫遊(除「iisbot」)抓取一切,你應該使用:

User-Agent: * 
Disallow: 

User-Agent: iisbot 
Disallow:/

或者,你可以省略第一個記錄,如允許一切都是默認的反正。但我寧願在這裏明確表示。

+0

謝謝,但我仍然得到網站地圖錯誤每https://www.dropbox.com/s/ezdw64korncw2r9/Screenshot%202017-08-03%2010.15.57.png?dl=0如果我使用你說的代碼跟隨由網站地圖每個:https://www.dropbox.com/s/mfd3ozz9343tnjg/Screenshot%202017-08-03%2010.15.01.png?dl=0 –

+0

其實即使我使用你的確切代碼我仍然得到錯誤。 –

+0

@JulieS .:我會說Google Search Console中報告的站點地圖警告與robots.txt的問題沒有直接關係。我的猜測是這是一個緩存問題:Google需要一段時間才能更新他們的robots.txt緩存,然後再也不應該在站點地圖中列出任何阻止​​的URL(因爲使用新的robots.txt,沒有URL已經被他們阻止了)。 – unor

相關問題