2014-12-04 49 views

回答

3

看看apache poi,pdfboxapache tika

它們是用於處理各種文件格式的java庫。您可以直接在您的clojure應用程序中使用他們的Java API。

以下是來自apache tika網站的引用。

阿帕奇提卡™工具包檢測並提取元數據和文本從各種文件 內容 - 從PPT到CSV到PDF - 使用 現有的解析器庫。 Tika將這些解析器統一在一個單獨的界面下,使您可以輕鬆解析一千個不同的文件 類型。 Tika可用於搜索引擎索引,內容分析, 翻譯等等。

以下是來自pdfbox網站的引用。

Apache PDFBox™庫是一個開放源代碼的Java工具,用於在PDF文檔中工作 。該項目允許新的PDF文檔創建,現有文檔的 操作和從文檔中抽取

而且這裏的內容 的能力是從POI網站

報價對於若干年來, Apache POI爲所有項目支持的文件格式提供了基本文本 提取。另外,如 以及(普通)文本一樣,這些提供了對與給定文件(例如標題和作者)相關聯的元數據 的訪問。

+0

謝謝約書亞。 Apache Tika能做到這一點! – 2014-12-05 11:32:33