2012-10-31 38 views

回答

1

要做到這一點的最佳方法是使用OCR。它會識別PDF文件中的文本和圖像,然後將其保存在DOC文件中。我知道一個名爲leadtools的第三方工具包,它應該可以幫助您滿足您的需求,因爲它支持ASP.NET環境。您可以查看他們的Online OCR Demo 此外,您可以查看他們的網站以獲取更多信息,或聯繫他們的支持團隊。

0

PDF是一種表現形式,其中所有內容均按絕對位置放置。沒有段落和其他結構化元素(除非它是標記PDF)。從技術上講,您可以按任何順序輸出每個字符的字符,但在視覺上它看起來像普通文本。因此,要做出正確的轉換,需要進行內容識別或某種OCR(例如ABBYY FineReader)

市場上有一些付費組件允許進行文本提取,有些組件可以將頁面轉換爲圖像(顯然,這不是轉換成文字的理想方法)。