2011-01-19 249 views

回答

1

嘗試在Acrobat中運行「預檢...」並選擇PDF Analysis -> List page objects, grouped by type of object

如果您在結果列表中找到文本對象,則會注意到Text Properties -> * Font部分中存在位置值(以點爲單位)。

+0

是否有可能找到每個單詞的x,y位置和高度,寬度? – raki 2011-01-19 21:28:48

4

Docotic.Pdf Library可以做到這一點。請參閱下面的C#示例:

using (PdfDocument doc = new PdfDocument("your_pdf.pdf", "password_if_need")) 
{ 
    foreach (PdfTextData textData in doc.Pages[0].Canvas.GetTextData()) 
     Console.WriteLine(textData.Position + " " + textData.Text); 
} 
1

TET,從pdflib產品系列的文本提取工具包可以做到這一點。 TET有一個命令行界面,它是我意識到的所有文本提取工具中最強大的。 (它甚至可以處理結紮線...)

幾何
TET提供用於文本精確度量,諸如頁面,字形寬度和文本方向上的位置。頁面上的特定區域可以被排除或包括在文本提取中,例如,忽略頁眉和頁腳或邊距。

相關問題