2009-10-12 189 views
1

確定還是新的屏幕抓取的東西。PHP的屏幕抓取和會話

我已經設法登錄到我需要的站點,但現在如何重定向到另一個頁面? 我登錄後,我試圖在我需要的頁面上執行另一個GET請求,但它有一個重定向,它將我帶回登錄頁面。

所以我在想,SESSION變量沒有被傳遞,我怎麼能過來呢?

問題:

即使我上傳它仍然重定向我回到登錄頁面,除非我已經在我登錄第2頁URL,但屏幕抓取代碼不允許會話數據傳遞?

我發現這個代碼another screen scraper question here @stack

class Curl { 

    public $cookieJar = ""; 

    public function __construct($cookieJarFile = 'cookies.txt') { 
     $this->cookieJar = $cookieJarFile; 
    } 

    function setup() { 
     $header = array(); 
     $header[0] = "Accept: text/xml,application/xml,application/xhtml+xml,"; 
     $header[0] .= "text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5"; 
     $header[] = "Cache-Control: max-age=0"; 
     $header[] = "Connection: keep-alive"; 
     $header[] = "Keep-Alive: 300"; 
     $header[] = "Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7"; 
     $header[] = "Accept-Language: en-us,en;q=0.5"; 
     $header[] = "Pragma: "; // browsers keep this blank. 

     curl_setopt($this->curl, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US; rv:1.8.1.7) Gecko/20070914 Firefox/2.0.0.7'); 
     curl_setopt($this->curl, CURLOPT_HTTPHEADER, $header); 
     curl_setopt($this->curl, CURLOPT_COOKIEJAR, $cookieJar); 
     curl_setopt($this->curl, CURLOPT_COOKIEFILE, $cookieJar); 
     curl_setopt($this->curl, CURLOPT_AUTOREFERER, true); 
     curl_setopt($this->curl, CURLOPT_FOLLOWLOCATION, true); 
     curl_setopt($this->curl, CURLOPT_RETURNTRANSFER, true); 
    } 

    function get($url) { 
     $this->curl = curl_init($url); 
     $this->setup(); 

     return $this->request(); 
    } 

    function getAll($reg, $str) { 
     preg_match_all($reg, $str, $matches); 
     return $matches[1]; 
    } 

    function postForm($url, $fields, $referer = '') { 
     $this->curl = curl_init($url); 
     $this->setup(); 
     curl_setopt($this->curl, CURLOPT_URL, $url); 
     curl_setopt($this->curl, CURLOPT_POST, 1); 
     curl_setopt($this->curl, CURLOPT_REFERER, $referer); 
     curl_setopt($this->curl, CURLOPT_POSTFIELDS, $fields); 
     return $this->request(); 
    } 

    function getInfo($info) { 
     $info = ($info == 'lasturl') ? curl_getinfo($this->curl, CURLINFO_EFFECTIVE_URL) : curl_getinfo($this->curl, $info); 
     return $info; 
    } 

    function request() { 
     return curl_exec($this->curl); 
    } 
} 

調用類

include('/var/www/html/curl.php'); 
$curl = new Curl(); 

$url = "here.com"; 
$newURL = "here.com/newpage.php"; 

$fields = "usr=user1&pass=PassWord"; 

// Calling URL 
$referer = "http://here.com/index.php"; 

$html = $curl->postForm($url, $fields, $referer); 
$html = $curl->get($newURL); 

echo $html; // takes me back to $url instead of $newURL 

回答

4

以下線不使用 「$ this」 和$ cookieJar沒有在本地範圍:

curl_setopt($this->curl, CURLOPT_COOKIEJAR, $cookieJar); 
curl_setopt($this->curl, CURLOPT_COOKIEFILE, $cookieJar); 

因此,它應該是這樣的:

curl_setopt($this->curl, CURLOPT_COOKIEJAR, $this->cookieJar); 
    curl_setopt($this->curl, CURLOPT_COOKIEFILE, $this->cookieJar); 

如果仍不能解決問題問題嘗試只做崗位:

$curl->postForm($url, $fields, $referer);

,而不是

$curl->get($newURL)

然後檢查cookie.txt文件包含什麼?它是否被創建?讓我們知道結果,因爲很難快速測試您的代碼而不打實際的URL。

如果沒有創建cookie.txt文件,則幾乎可以保證會話不會在請求之間保留。

+0

謝謝你的問題以及cookies.txt文件沒有正確的權限。這樣的新手錯誤。再次感謝 – 2009-10-12 17:33:34

0

也許例如心不是正確的..但是從它的域名是改變容貌..所以here.com會話不會存在there.com

+0

會話應該從here.com傳遞到there.com它是相同的域只是一個不同的頁面,但只是例如我使用。也許我應該改變 – 2009-10-12 17:27:25

0

該網站可能試圖將會話ID存儲在cookie中。儘管你已經通過「cookies.txt」文件設置了curl來使用cookie。所以,我的第一個想法是 - cookies.txt文件裏有什麼?腳本是否有權限創建該文件?

0

這是工作正常使用$ curl-> get($ newURL)而不是$ curl-> postForm($ url,$ fields,$ referer);