是否可以通過GET請求從PDF文檔檢索單個頁面？

我需要將數字存儲庫遷移到新的平臺，但無法訪問舊的平臺，因此我採取了通過網絡檢索對象的方法。是否可以通過GET請求從PDF文檔檢索單個頁面？

某些對象包含其他對象。對於這種類型的大多數對象來說，識別/檢索組件及其元數據是一個簡單的過程。但對於某些PDF文件，似乎所引用的組件實際上是對單個文件內的單個頁面的引用，而不是單獨的頁面。

例如，http://content.wwu.edu/cdm4/document.php?CISOROOT=/wfront&CISOPTR=2711給我一個4頁的對象。 http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=print允許我檢索整個文檔。 http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711檢索一個XML文檔，告訴我組件頁面的標識符，但是當我嘗試捲曲它們時，我只得到零長度的文檔。但是當涉及非PDF文檔時使用相同的方法，我會得到實際的文件 - 這就是爲什麼我認爲只有單個頁面正在被檢索。

如何檢索單個頁面，因爲我必須將這些頁面作爲單個對象存儲在新平臺中？謝謝

底線是，它似乎這是唯一可能的，如果有服務器上的東西，將爲您提取單個頁面。

當我打開Wireshark的，我發現，在用戶界面上的操作使用的語法調用調用服務器端PDF應用：

，其中2711是對象的名稱和3是該文件的頁面。進一步的實驗表明，我可以爲任何可以識別的PDF提取任何頁面。

對於有類似問題的其他人，wireshark是你的朋友。

2011-10-12 15:31:09

回答