2011-10-11 114 views
1

我一直在思索寫這個問題很長一段時間。如何將文檔從.doc文件轉換爲文本

我在越南的一家小型新聞公司工作。

我的服務器運行的文件是Ubuntu的最新版本(顯然是PHP/Apache),這意味着像.doc和.docx這樣的格式將無法在本機打開,就我而言知道。

但是,當記者上傳文件時,有一半時間他們以某種微軟格式進行。這意味着我的Linux機器無法打開和選擇關鍵字,這對我來說是非常令人沮喪的;這是因爲像pdf2txt.py這樣的東西不起作用。

解決這個問題的方法是什麼,不會給記者帶來太多不便?我知道,因爲我運行的是Linux服務器,所以我可能不得不運行某種第三方應用程序來爲我做這些工作,這可能會在短期內起作用,但可能會帶來一些安全風險。

摘要:如何讓Linux服務器自動將諸如.doc和.docx之類的任何格式轉換爲PDF格式以供進一步操作?

+0

使用OpenOffice/LibreOffice。它打開MSOffice文件做得不錯。 –

+0

Microsoft Word docx文件是XML,因此您應該能夠相當容易地解析出其元數據。 – Jason

+0

[Doc to PDF with PHP + Openoffice]的可能重複(http://stackoverflow.com/questions/4652038/doc-to-pdf-with-php-openoffice) - 然而LibreOffice更容易,因爲它提供了一個無頭指令開關。 – mario

回答

1

對於oldschool doc文件,請看看catdoc和wv。

對於可以將OpenOffice可以打開的任何東西轉換爲OpenOffice可以保存的任何東西的全能解決方案,是unoconv

+0

謝謝你的答案,最近發生了很多事情,我無法檢查,而是我以前只在非PDF上實現了一個塊,現在我正在研究這個問題。 :) –