2009-07-27 48 views
0

我使用Xpdf提取PDF文件與-raw方法適用文字,但現在我們要的PDF文件,HTML文件轉換爲提取HTML格式化標籤,如大膽<b>,斜體<我>等與文本。 Xpdf與選項確實工作,我也嘗試使用pdf2html這個,但沒有找到它可靠的標籤,如<sup>和<sub>在哪裏丟失。有沒有辦法在Perl中使用Acrobat Reader將多個PDF文件保存爲HTML文件?

我們現在使用Acrobat Reader將PDF文件保存爲HTML文件,該文件爲我們提供了所有HTML格式標籤。

有沒有辦法在Perl中使用Acrobat Reader將多個PDF文件保存爲HTML文件?

謝謝。

+0

你真的需要從Perl做到這一點,或者任何可以控制外部應用程序的東西嗎? – 2009-07-27 18:28:35

回答

2

PDF樣式信息完全是任意的,不能以任何有意義的方式可靠地映射到HTML。我碰到的一個策略是使用-xml選項pdftohtml,然後使用LibXML將一些啓發式應用於輸出,並提供合理的HTML原始文檔近似值。

相關問題