2010-04-18 65 views

回答

5

所有.doc文件存儲在binary format。打開和操作這些是PAIN的練習。

所有.docx文件實際上是以ZIP格式存儲的XML文件的集合。沒錯,只需將.docx或.xmlx或.pptx的擴展名更改爲.ZIP,就可以像打開其他任何ZIP文件一樣打開文件。 MS甚至有一個稱爲Office Open XML的格式的API。就我個人而言,我認爲OOXML API具有相當陡峭的學習曲線,當我傾向於製作Word文件或以其他方式操作它們時,我只需製作一個示例文件,解壓縮它,然後操作其內部。海事組織的OOXML文件的基礎知識很簡單,足以使用沒有一個大的舊API ...

+0

謝謝你給我一個很好的起點,試驗簡單的單詞文件。我肯定會看到它,現在我有一些想法! – ComethTheNerd 2010-04-18 22:29:53

2

是所有的MS Word文檔序列化爲XML可讀格式?

簡答:沒有。

長答案:每發佈一次,MS都會更改word文檔的格式。因此Word 6.0到95使用格式,Word 97到2002(又名XP)使用另一個,2003另一個,而2007又是另一個。

當然,每個版本都可以以舊格式保存和打開文檔(雖然新功能通常無法保存在這些較舊的格式中)。

截至2003年(.doc)的格式是以前版本的增量升級,並且是基於二進制的。

與Office 2007中引入格式文件(.docx)是基於XML的,並被迫爲ISO標準「ISO/IEC 29500:2008的Office Open XML」,雖然這個詞本身是不是該標準完全兼容。請注意,Word 2007仍然可以以舊的二進制格式保存(並打開)文檔。

希望這會有所幫助。

+0

非常感謝,它確實有幫助,雖然它看起來比我希望的更復雜! – ComethTheNerd 2010-04-18 22:35:10