pdf-parsing

2熱度

1回答

我使用node.js和pdf2json解析器來解析pdf文件。目前它正在使用本地的pdf文件。但我試圖通過node.js的URL/HTTP模塊獲取pdf文件，我想打開這個文件來解析它。有沒有可能解析/使用在線pdf？ let query = url.parse(req.url, true).query; let pdfLink = query.pdf; ... pdfParser.lo

0熱度

1回答

「Smalot PDF解析器」結果是：文字不在同一行

因此，我安裝PDF解析器（http://www.pdfparser.org/）。我檢查了他們的網站並使用了演示。這給了我想要的結果。經過幾個小時的搜索如何使用作曲家，我終於設法讓它工作。現在我遇到了下一個如何從演示中獲得結果的問題。我使用了文檔頁面上給出的示例代碼。它確實提取了文本，但所有文本都在同一行上。當我使用演示時，每個新頁面都以一個新段落開始，每段文本都放在一個單獨的行中。代碼： <?p

1熱度

1回答

無法使用c＃重寫PDFTextStripper.writeString（String text，List <TextPosition> textPositions）方法？

我使用PDFBOX的.NET解析提取從PDF文本非常久遠的那個location.For文本，同時搜索，我發現下面的Java代碼： PDFTextStripper stripper = new PDFTextStripper() { @Override protected void writeString(String text, List<TextPosition> text

0熱度

1回答

如何從使用Smalot/PDFParser的PHP中的PDF文件中提取書籤？

現在我正在使用PHP和Laravel。我的目標是從上傳的PDF文件（使用表單和POST方法）中提取儘可能多的信息，如元數據（作者，標題等），第一頁（封面），每頁內容和可用章節來自書籤）。我目前使用的是smalot的PDF解析器可用here，但文檔只涵蓋了我已經從PDF文件中獲得的一些基本示例。問題：我目前的問題是提取這些書籤，以滿足本章的要求。有誰知道如何使用這個特定的解析器來提取這種類型的內

0熱度

1回答

如何NSLog緩衝區流中包含零的字節緩衝區（NSData/const char *）？

欲的NSLog在流的中途的PDF已壓縮流對象包括零（「」）的含量。不幸的「」的第一個目標流的第一次出現終止控制檯上的輸出... 無法在SO還是在雲中都發現了什麼。試圖在4點不同的方式......在控制檯上 NSString *pdfFilePath = [[NSBundle mainBundle] pathForResource: @"myPDF" ofType: @"pdf"];

0熱度

1回答

從不具有XFA格式的PDF文檔讀取數據

我使用iText讀取包含XFA格式的PDF文檔。我將它轉換爲XML，從XML讀取數據並將其插入到數據庫中。但是如果我在PDF中沒有XFA表單，那麼我怎樣纔能有效地從PDF讀取數據？

1熱度

1回答

從去除收盤</img>標籤

我解析與Jsoup.parse一段HTML的預防Jsoup.parse。其他一切是偉大的，但我應該在PDF轉換後解析這個網站。出於某種原因，Jsoup.parse刪除結束標記和PDF解析器拋出約缺少的結束img標籤例外。 Can't load the XML resource (using TRaX transformer). org.xml.sax.SAXParseException; l

0熱度

1回答

Python：解析PDF和圖像

我想解析一些包含文本，可能包含或不包含圖像的pdf文件。我想提取文本部分作爲字符串進一步處理，並將圖像保存爲jpeg/png或任何其他圖像格式。什麼應該是最合適的模塊？

0熱度

3回答

從PDF中的圖像讀取數據

我正在使用iText java TextExtraction從PDF文件中讀取文本。我使用下面的代碼和它正常工作PDF的英文現在我有PDF包含數據作爲圖像。我想從該圖像讀取數據 public class pdfreader { public static void main(String[] args) throws IOException, DocumentException, Tra

1熱度

1回答

從python中抽取特定標題的PDF數據

我想用python解析PDF文件。我看到了PDFMiner的例子，它無法解釋我的要求。例如，如果我想解析簡歷，它包含各種領域，如總結，經驗和愛好。我有興趣只提取經驗，這個經驗領域將在第一或第二位或在任何地方，我需要確定經驗領域的位置和需要提取數據。我該怎麼做？