我們有一個爬行引擎餐飲每月約50萬訪港。我們現在使用curl來獲取網頁。我們最近使用curl的多執行器同時抓取頁面。我們將它設置爲同時抓取20頁。捲曲多抓取問題
現在,在獲取網頁捲曲的過程中,將完全停止,直到所有20頁已被提取,然後纔會移動到下一個20頁。它就像一頁緩慢提取,然後curl將等待爲該頁面加載,直到它進入下一個循環,在該循環中我獲得了下20頁。
是否有任何其他的方式來解決這個?我希望我的問題很清楚。
後來
通過克服我的意思是圖像捲曲同時取20頁。被取出的那些被新的物品瞬間取代以便被取出而無需等待所有20個完成?明確?
所以你正在尋找超時設置? – 2012-01-16 10:21:33
@Pekka - 好的,我會澄清一些問題。 – 2012-01-16 10:33:11
@Pekka:我已經使用'CURLOPT_CONNECTTIMEOUT'和'CURLOPT_TIMEOUT'試過,但一些網頁仍然加載了很長的時間。還沒有調試它還沒有找出問題。 – Ranty 2012-01-16 10:41:32