Q

有沒有辦法在Perl中使用Acrobat Reader將多個PDF文件保存爲HTML文件？

2009-07-27 48 views 0 likes

0

我使用Xpdf提取PDF文件與-raw方法適用文字，但現在我們要的PDF文件，HTML文件轉換爲提取HTML格式化標籤，如大膽<b>，斜體<我>等與文本。 Xpdf與選項確實工作，我也嘗試使用pdf2html這個，但沒有找到它可靠的標籤，如<sup>和<sub>在哪裏丟失。有沒有辦法在Perl中使用Acrobat Reader將多個PDF文件保存爲HTML文件？

我們現在使用Acrobat Reader將PDF文件保存爲HTML文件，該文件爲我們提供了所有HTML格式標籤。

有沒有辦法在Perl中使用Acrobat Reader將多個PDF文件保存爲HTML文件？

謝謝。

2009-07-27 Pawan Rao

+0

你真的需要從Perl做到這一點，或者任何可以控制外部應用程序的東西嗎？ – 2009-07-27 18:28:35

A

回答

2

PDF樣式信息完全是任意的，不能以任何有意義的方式可靠地映射到HTML。我碰到的一個策略是使用-xml選項pdftohtml，然後使用LibXML將一些啓發式應用於輸出，並提供合理的HTML原始文檔近似值。

2009-07-27 06:24:55 friedo

相關問題