2011-10-11 57 views
0

我需要將數字存儲庫遷移到新的平臺,但無法訪問舊的平臺,因此我採取了通過網絡檢索對象的方法。是否可以通過GET請求從PDF文檔檢索單個頁面?

某些對象包含其他對象。對於這種類型的大多數對象來說,識別/檢索組件及其元數據是一個簡單的過程。但對於某些PDF文件,似乎所引用的組件實際上是對單個文件內的單個頁面的引用,而不是單獨的頁面。

例如,http://content.wwu.edu/cdm4/document.php?CISOROOT=/wfront&CISOPTR=2711給我一個4頁的對象。 http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=print允許我檢索整個文檔。 http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711檢索一個XML文檔,告訴我組件頁面的標識符,但是當我嘗試捲曲它們時,我只得到零長度的文檔。但是當涉及非PDF文檔時使用相同的方法,我會得到實際的文件 - 這就是爲什麼我認爲只有單個頁面正在被檢索。

如何檢索單個頁面,因爲我必須將這些頁面作爲單個對象存儲在新平臺中?謝謝

回答

0

底線是,它似乎這是唯一可能的,如果有服務器上的東西,將爲您提取單個頁面。

當我打開Wireshark的,我發現,在用戶界面上的操作使用的語法調用調用服務器端PDF應用:

http://content.wwu.edu/cgi-bin/showpdf.exe?CISOROOT=/wfront&CISOPTR=2711&CISOPAGE=3

,其中2711是對象的名稱和3是該文件的頁面。進一步的實驗表明,我可以爲任何可以識別的PDF提取任何頁面。

對於有類似問題的其他人,wireshark是你的朋友。

相關問題