2011-06-13 150 views
7

我的任務是找到一種方法將大量的.docx文件轉換爲docbook 5.目前,我們在openoffice中打開該文件並保存到docbook。這是一項耗時的工作,但我相信有更好的方法。這些文件將進一步處理到我們自定義的放鬆NG模式。因此,這種轉換不需要完美無缺。我環顧四周,並會繼續調查一些線索,但沒有發現任何有用的東西。將word(.docx)轉換爲docbook

看着Convert doc/docx to semantic HTML他們建議upCast,但這似乎不適合我的需要。

我正在尋找可以從命令行使用的免費功能。我最終想批量處理我們的文件。我已經包含了linux,python和java標籤,因爲這些是我最舒適的環境,但願意爲正確的解決方案而努力。在我出去重新發明車輪之前,我正在嘗試做一些研究。

+0

考慮看openoffice api腳本打開+另存爲? – 2011-06-13 15:27:58

+1

我編輯了你的問題,並從中刪除了很多,你已經在這裏呆了一段時間,但請看看[FAQ],因爲不應該添加簽名,而你的PS是主觀的,幾乎是一個不同的問題。請檢閱我的修改,看看您的問題是否仍然完整。 – Trufa 2011-06-13 15:28:28

+0

這是Trufa,感謝您的編輯。我想我對電子郵件交換比我更熟悉。 @ThorbjørnRavn Andersen,我沒有這可能是一個可行的解決方案。 – matchew 2011-06-13 15:31:23

回答

6

有幾種方法來腳本此,無論是使用OpenOffice的內外部腳本和腳本。請參閱以下鏈接的一些例子:

是一些上面的鏈接不使用Java或Python

,但原則仍然適用,並且腳本通常是sh或足以讓它們可以移植(第一個例子是Ruby,但由於簡單起見,它是我個人的最愛)。

+0

謝謝,由於某種原因,我解決了python解決方案http:///mail.python.org/pipermail/python-announce-list/2006-May/004951.html – matchew 2011-06-13 19:05:09

2

如果冒險從SX獲得考古學家的徽章,答案應包括對Pandoc的引用。這不依賴於開放式辦公。

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx