2009年9月28日,Apache POI project發佈了3.5版本,正式支持Office 2007中引入的OOXML格式,如DOCX和XLSX。如何使用Apache POI 3.5中的新OOXML支持從DOCX文件中提取純文本?
請提供代碼示例,以純文本形式提取DOCX文件的內容,忽略任何樣式或格式。
我在問這是因爲我一直無法找到涵蓋新OOXML支持的任何Apache POI示例。
2009年9月28日,Apache POI project發佈了3.5版本,正式支持Office 2007中引入的OOXML格式,如DOCX和XLSX。如何使用Apache POI 3.5中的新OOXML支持從DOCX文件中提取純文本?
請提供代碼示例,以純文本形式提取DOCX文件的內容,忽略任何樣式或格式。
我在問這是因爲我一直無法找到涵蓋新OOXML支持的任何Apache POI示例。
這對我有效。請確保您添加需要的jar(升級的xmlbeans等)
public String extractText(InputStream in) throws Exception {
XWPFDocument doc = new XWPFDocument(in);
XWPFWordExtractor ex = new XWPFWordExtractor(doc);
String text = ex.getText();
return text;
}
這是比較通用的
POITextExtractor poitex = ExtractorFactory.createExtractor(中);
return poitex.getText();
我同意。感謝您提供一個涵蓋更多通用文本提取的良好答案。我希望我能接受兩個。 – rcampbell 2009-10-23 12:42:19