我有一個已經存儲了一年多的url(1000+)列表。我想貫穿全部,並驗證它們是否仍然存在。什麼是最好的/最快捷的方式來檢查它們並返回不返回網站的列表?Python驗證url轉到頁面
7
A
回答
10
這是一種緩慢的,但你可以使用這樣的檢查,如果網址是現場
import urllib2
try:
urllib2.urlopen(url)
return True # URL Exist
except ValueError, ex:
return False # URL not well formatted
except urllib2.URLError, ex:
return False # URL don't seem to be alive
以上的urllib2可以使用httplib
import httplib
try:
a = httplib.HTTPConnection('google.com')
a.connect()
except httplib.HTTPException as ex:
print "not connected"
你也可以做一個快速DNS結帳(檢查網站是否存在並不方便):
import socket
try:
socket.gethostbyname('www.google.com')
except socket.gaierror as ex:
print "not existe"
0
Chec ķ此:
結束,則:
import ping, socket
try:
result = ping.do_one('http://stackoverflow.com/', timeout=2)
except socket.error, e:
# url cannot be reached
print "Error:", e
相關問題
- 1. 驗證Facebook頁面的URL
- 2. 頁面驗證到特定頁面
- 3. ASP.NET頁面驗證
- 4. jQuery驗證併成功提交後轉到頁面
- 5. 經過Javascript驗證頁面重定向到另一個頁面
- 6. jquery驗證.asp頁面
- 7. struts2編輯頁面驗證?
- 8. 渲染前驗證頁面
- 9. 驗證頁面錯誤
- 10. IDataErrorInfo:驗證頁面提交
- 11. 驗證在頁面加載
- 12. Django身份驗證 - 錯誤的重定向url登錄頁面
- 13. 在python中的URL驗證和縮短
- 14. 使用python進行url鏈接驗證
- 15. 我的登錄頁面總是重定向到身份驗證失敗URL
- 16. URL格式驗證文本框後面
- 17. ASP.NET URL驗證
- 18. Grails URL驗證
- 19. URL驗證PHP
- 20. mvc4 url驗證
- 21. Javascript URL驗證
- 22. Java:Regex驗證URL
- 23. Python:我如何驗證頁面上的元素已被刪除?
- 24. 我想驗證此表單頁面xhtml,它不會驗證
- 25. jquery驗證 - 驗證頁面上的字段加載
- 26. 驗證後滾動頁面顯示驗證彈出
- 27. 驗證錯誤驗證一個頁面,有閃光燈對象
- 28. 驗證所有頁面的用戶身份驗證
- 29. 使用W3C標記驗證服務驗證ftl頁面
- 30. 如何防止頁面在驗證失敗後跳轉到頂部位置?
使用插座比的urllib2更快。我嘗試urllib2,但它花了很長時間,所以我最終停止了它 – John 2010-10-28 15:31:42
我剛剛編輯我的問題,我添加了一個更快的解決方案使用httplib,並使用ping(其他答案)或dns查找(我的答案中的第三個解決方案)不是很方便,因爲許多網站仍然在DNS中註冊,並且它們不再存在,並且對於ping而言,它就像DNS查找+ ICMP ping,如果網站(http服務器)是運行「接受連接」還是不行 – mouad 2010-10-28 17:07:13
從OS X上的代理後面運行'urllib2','httplib'不起作用。 – 2016-06-06 22:45:50