2011-12-01 110 views
1

HYPERLINK「目標」標籤提取Apache POI HWPF超鏈接

如何從HWPF文檔中提取超鏈接?我可以從doc文件中獲取段落,並在必要時提取正確的樣式,例如粗體,斜體等。但是,如何從段落中識別並提取超鏈接?

回答

0

.doc格式不存儲在超鏈接是最簡單的方式,因爲你已經注意到...

的超鏈接將是一個單一的CharacterRun,上面有特殊標記。一旦你檢測到它,只需根據引號分割文本。

有一個在Apache的提卡這樣做的一個很好的例子,看看WordExtractorhandleSpecialCharacterRuns方法看到它完成。

+1

超鏈接在我的情況下不是一個CharacterRun。我期望它是,但事實並非如此。在調試過程中,我看到1個超鏈接被分成2個CharacterRuns,而不是1:HYPERLINK「target」,下一次運行給了我「標籤」。我會進一步調查。感謝您的鏈接。 – Diyarbakir

+0

這可能是一個POI錯誤 - 確保您使用POI 3.8 beta 4(或更新的每晚構建) – Gagravarr