URL1:https://duapp3.drexel.edu/webtms_du/
設置會話湊頁
URL2:https://duapp3.drexel.edu/webtms_du/Colleges.asp?Term=201125&univ=DREX
URL3:https://duapp3.drexel.edu/webtms_du/Courses.asp?SubjCode=CS&CollCode=E&univ=DREX
作爲個人編程項目,我要刮我的大學的課程目錄,並提供它作爲一個RESTful API 。
但是,我遇到了以下問題。
我需要刮的頁面是URL3。但是,在我訪問URL2(它設置術語Colleges.asp?Term=201125
)後,URL3僅返回有意義的信息,但URL2只能在訪問URL1後訪問。
我試着監控HTTP數據來回使用Fiddler,我不認爲他們正在使用Cookie。關閉瀏覽器立即重置所有內容,所以我懷疑他們正在使用Session。
如何刮取URL 3?我以編程方式嘗試訪問URL 1和2,然後執行file_get_contents(url3)
但這不起作用(可能是因爲它註冊爲三個不同的會話)。
沒有被設置會話使用Cookie:'ASPSESSIONIDASBRRCCS'是它的名字,但我不明白爲什麼URL2是必要的(可能是我的,我忘了要注意在第一時間周圍) – Grexis 2012-01-06 10:46:03
@Grexis :啊,謝謝你提供的信息。 URL3提供的信息包括課堂舉辦的地點以及誰將參加。這取決於術語(學期),似乎在URL2 – xbonez 2012-01-06 10:51:06
中設置也許值得一提的是,PHP是少數沒有機械化庫的動態語言之一。基於這個原因,perl python或ruby都是更好的選擇。 – pguardiario 2012-01-06 22:47:39