2012-01-07 33 views
0

我需要創建一個腳本,該腳本將登錄到已驗證的頁面並下載PDF。使用捲曲的高級屏幕抓圖

但是,我需要下載的PDF是不是在URL,但在點擊頁面上的特定按鈕input產生。當我檢查HTML源代碼時,它只會給我提供按鈕圖形的URL以及按鈕inputaction="."的某些模糊的name

此外,這兩個網址,其中按鈕和窗體名稱被遮擋,例如:

  • URL = /WebObjects/MyStore.woa/wo/5.2.0.5.7.3
  • 輸入名稱= 0.0.5.7.1.1.11.19.1.13.13.1.1

我怎麼會登陸進入頁面,'點擊'該按鈕,並在腳本中下載PDF文件?

回答

2

嘗試機械化或斜紋。 HttpFox或螢火蟲可以幫助你建立你的查詢。請記住,您也可以從瀏覽器醃製餅乾,稍後用py libs來使用它。如果代碼是由JavaScript生成的,那麼可能會對其進行「反向工程」。如果你可以運行一些JavaScript解釋或使用硒或風車編寫一個真正的瀏覽器腳本。

3

也許Mechanize模塊可以提供幫助。

我認爲用一下,也許javascript.So產生的按鈕,從運行python腳本的JavaScript代碼來看看Spidermonkey該網址。

1

你可以看到,當你點擊按鈕(在Firefox或Chrome開發者工具使用螢火蟲)請求做出什麼。您可以直接請求PDF。

這是很難幫助沒有問題,瀏覽的網頁。

0

作爲橡果說,你應該嘗試監視實際要求,看看你是否能發現一種模式。

如果沒有,那麼你最好的選擇實際上是一個自動化的全功能瀏覽器,將能夠運行JavaScript,所以你可以準確地模仿什麼普通用戶會怎麼做。對Python的維基看看this page的想法,檢查部分Python包裝圍繞網絡「庫」和瀏覽器技術