2011-09-08 108 views
1

我一直在測試一個我寫過的小應用,它基本上做了一個http HEAD請求來檢查頁面是否存在,重定向等。我注意到一些頁面響應與GET請求不同,HEAD不同。例如:使用HEAD請求來檢查網頁狀態的可靠性

curl -I http://www.youtube.com/bbcpersian 

返回一個404這是肯定有。一些(相當主要的)網站甚至會返回500個錯誤來回應HEAD--我猜這不是故意的。

所以我的問題是:

  • 有沒有什麼好的理由(網站內或頁)爲什麼某些網站會表現得像不是配置問題或網站管理員想要阻止殭屍這個其他?
  • 如果我不能依賴一個HEAD請求,我只是在做了一個GET並放棄了請求後,我有了標題。這感覺有點「錯誤」...

儘管像這樣表現的頁面數量很少,但是每個誤報最終都會被人工調查,從而導致大量浪費。

回答

4

後經過一段時間和更多的調查,我可以回答我的問題:

  • 很多「野生」的網站的正確迴應HEAD請求。我有一些建議,一些網站管理員配置他們的網站迴應任何事情,但200頭申請,因爲他們認爲HEAD請求與壞機器人相關聯。我無法驗證推理,但我可以說大量網站(或網站上的網頁 - 請參閱我在YouTube上的原始點)對HEAD請求做出錯誤迴應。
  • GET 檢查頁面的唯一可靠方法確實存在(或不是重定向等)。