2009-10-02 94 views
2

我正在尋找一個鏈接檢查器來蜘蛛我的網站和日誌無效鏈接,問題是我有一個開始登錄頁面是必需的。我想要的是一個鏈接檢查器來運行指令後登錄細節,然後蜘蛛網站的其餘部分。鏈接檢查器(蜘蛛爬行器)

任何想法傢伙將不勝感激。

回答

3

我剛剛解決了類似的問題是這樣的:

import urllib 
import urllib2 
import cookielib 

login = '[email protected]' 
password = 'secret' 

cookiejar = cookielib.CookieJar() 
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar)) 

# adjust this to match the form's field names 
values = {'username': login, 'password': password} 
data = urllib.urlencode(values) 
request = urllib2.Request('http://target.of.POST-method', data) 
url = urlOpener.open(request) 
# from now on, we're authenticated and we can access the rest of the site 
url = urlOpener.open('http://rest.of.user.area') 
2

你想看看cookielib模塊:http://docs.python.org/library/cookielib.html。它實現了cookie的完整實現,這將允許您存儲登錄細節。一旦你使用了CookieJar,你只需要從用戶那裏獲取登錄信息(比如從控制檯),並提交一個正確的POST請求。