2011-04-05 81 views
-1

我仍然stucked在屏幕抓取問題...發送頭 鏈接:screen scraping in php problem想與屏幕抓取

這個問題已經在谷歌搜索查詢中使用'&num=100'這降低了不解決,以小的程度。的請求10次。但captcha問題仍然是dere。所以要克服它,我用... sleep(seconds)函數。

現在的問題是我必須自己刮(這些是訂單)。這意味着我不想使用'simple_html_dom.php',因爲在這種情況下錯誤是困難的(對我來說).im被指示去做我。所以我怎麼能做到這一點。我知道的方法:1. file_get_content()2.捲曲。

但它很繁瑣的工作,以獲取搜索烏爾內容和統計排名simultaneously.as使用常規的EXP解析DOM是HELL.read此鏈接convencing urself.link:RegEx match open tags except XHTML self-contained tags

任務來實現的:

  1. 捕獲captcha錯誤(或警告),所以我可以停止furhter執行。
  2. 必須使用headers.so它似乎是真正有效的對Google的有效請求。

    simple_html_dom.php cant catch errors.it當captcha發生錯誤時顯示警告。我該如何捕獲該警告? 請幫助...長期與這個模塊一起工作。請給出建議來解決與此相關的每一個問題。

回答

0

不知道關於第一個問題(驗證碼),但你可以捲曲輕鬆地發送標題,例如:

​​

,並設置用戶代理:

curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (X11; Linux x86_64; rv:2.2a1pre) Gecko/20110324 Firefox/4.2a1pre'); 
+0

謝謝..我正在尋找類似的東西...可以給我發送php.net鏈接列表ol possilble'CURLOPT_ '選項? – 2011-04-05 11:34:03

+0

http://in.php.net/manual/en/function.curl-setopt.php。所有curlopt_選項列表.. – 2011-04-05 11:51:16