2012-07-09 95 views
0


我所尋找的是一個文本轉換庫,可以轉換Word文件格式,PDF文件文檔格式轉換爲文本

,但保留文本轉換後的格式結構表結構會丟失,文檔變得扭曲

例如

名EMAILID PHONENUMBER是在一個表中,形成轉換後

一排,這些都爲s eparate線,如

EMAILID
PHONENUMBER

我想這些來作爲名字EMAILID PHONENUMBER

目前

我使用Apache的咖喱,它使用Apache POI我怎樣才能做到這一點

可以我解析msword文檔元素如果是的話請分享一個例子

關於

拉雅

+0

究竟會怎麼樣的數據是「格式化'如果您通過將其轉換爲.txt文件來刪除所有格式? – radimpe 2012-07-09 11:45:41

+1

請清楚解釋您的期望和要求。同時讓我們知道您對此要求所做的努力。 – developer 2012-07-09 11:47:32

回答

2

您可以通過使用APACHE POI和PDF閱讀您的.doc .dox內容PDF READ

然後,你可以寫的內容保存到文本文件