2013-01-17 65 views
0

假設我想將doc文件連同元數據一起導入到我的HTML文檔中,並相應地將其顯示在div中。因此,doc文件中的所有現有內容(如粗體,斜體,不同大小,字母間距,行高,上劃線,Unerline ..),圖像(其位置和大小),圖形,圖表( JSP會生成必要的圖形以提供類似的圖形或圖表,只需要數據),列表等。如何獲取doc文件元數據

那麼有沒有什麼辦法可以做到這一點?是否有任何標準化的Word API可以提供這些數據?或者任何可以做到的JSP庫?如果沒有,那麼我需要知道什麼才能做到這一點?

回答

1

訪問Apache POI項目:http://poi.apache.org/text-extraction.html以及阿帕奇提卡:http://tika.apache.org/

+0

好,這些只返回文本數據。我也想要元數據...... – SexyBeast