2011-12-24 68 views
1

我正在構建一個需要以編程方式從DOCX,XLSX和PPTX文件中提取所有嵌入文件,圖像和文本的應用程序。當我查看DOCX文件時,我發現它們只是zip包。在包的根目錄中總是有一個名爲[Content_Types] .xml的文件。在這個文件裏我可以找到包含所有文本的Document.xml文件的位置。這是必要的,因爲,據我所知,該文件並不總是保證在同一個地方。這很簡單,但我找不到任何指定如何存儲所有圖像和嵌入文件(單詞或Ole Containers)的文檔。Microsoft DOCX,XLSX和PPTX存檔

它看起來像所有嵌入文件都被添加到嵌入目錄,所有的圖像被添加到媒體目錄。但是,我無法找到任何能夠告訴我的事情。此外,存檔中的任何xml文件都不會顯示存儲的圖像和文件的任何位置信息,因此我仍然認爲它們在嵌入和媒體目錄中始終是。

就像我剛纔提到的,我需要從DOCX,XLSX和PPTX文件中提取所有嵌入文件,圖像和文本。我需要在沒有安裝Office的服務器上執行此操作。如果任何人已經這樣做,並可以指出我正確的方向,我將不勝感激。

感謝,

+1

你拿起規格在http://standards.iso.org/ittf/PubliclyAvailableStandards/index.html你有興趣的ISO/IEC 29500-1:2011 它描述瞭如何將XML和郵編 – rene 2011-12-24 19:48:55

+0

感謝您的鏈接。我剛開始閱讀文檔 - WOW,幾乎有6000頁純粹的快樂。我希望跳到好的部分:-) – Scott 2011-12-24 20:40:17

回答

0

微軟對處理XML稱爲「開放XML SDK」辦公文檔,也支持對服務器的SDK。

我還沒有嘗試過自己,但它可能包含API來提取嵌入對象等元素,而無需親自處理zip文件或ISO文檔。這也會更安全,因爲文件結構可能隨時間而改變。

末爾

相關問題