我正在尋找一個鏈接檢查器來蜘蛛我的網站和日誌無效鏈接,問題是我有一個開始登錄頁面是必需的。我想要的是一個鏈接檢查器來運行指令後登錄細節,然後蜘蛛網站的其餘部分。鏈接檢查器(蜘蛛爬行器)
任何想法傢伙將不勝感激。
我正在尋找一個鏈接檢查器來蜘蛛我的網站和日誌無效鏈接,問題是我有一個開始登錄頁面是必需的。我想要的是一個鏈接檢查器來運行指令後登錄細節,然後蜘蛛網站的其餘部分。鏈接檢查器(蜘蛛爬行器)
任何想法傢伙將不勝感激。
我剛剛解決了類似的問題是這樣的:
import urllib
import urllib2
import cookielib
login = '[email protected]'
password = 'secret'
cookiejar = cookielib.CookieJar()
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))
# adjust this to match the form's field names
values = {'username': login, 'password': password}
data = urllib.urlencode(values)
request = urllib2.Request('http://target.of.POST-method', data)
url = urlOpener.open(request)
# from now on, we're authenticated and we can access the rest of the site
url = urlOpener.open('http://rest.of.user.area')
你想看看cookielib模塊:http://docs.python.org/library/cookielib.html。它實現了cookie的完整實現,這將允許您存儲登錄細節。一旦你使用了CookieJar,你只需要從用戶那裏獲取登錄信息(比如從控制檯),並提交一個正確的POST請求。