pdf-parsing

    2熱度

    1回答

    我使用node.js和pdf2json解析器來解析pdf文件。 目前它正在使用本地的pdf文件。 但我試圖通過node.js的URL/HTTP模塊獲取pdf文件,我想打開這個文件來解析它。 有沒有可能解析/使用在線pdf? let query = url.parse(req.url, true).query; let pdfLink = query.pdf; ... pdfParser.lo

    0熱度

    1回答

    因此,我安裝PDF解析器(http://www.pdfparser.org/)。我檢查了他們的網站並使用了演示。這給了我想要的結果。經過幾個小時的搜索如何使用作曲家,我終於設法讓它工作。現在我遇到了下一個如何從演示中獲得結果的問題。 我使用了文檔頁面上給出的示例代碼。它確實提取了文本,但所有文本都在同一行上。當我使用演示時,每個新頁面都以一個新段落開始,每段文本都放在一個單獨的行中。代碼: <?p

    1熱度

    1回答

    我使用PDFBOX的.NET解析提取從PDF文本非常久遠的那個location.For文本,同時搜索,我發現下面的Java代碼: PDFTextStripper stripper = new PDFTextStripper() { @Override protected void writeString(String text, List<TextPosition> text

    0熱度

    1回答

    現在我正在使用PHP和Laravel。我的目標是從上傳的PDF文件(使用表單和POST方法)中提取儘可能多的信息,如元數據(作者,標題等),第一頁(封面),每頁內容和可用章節來自書籤)。 我目前使用的是smalot的PDF解析器可用here,但文檔只涵蓋了我已經從PDF文件中獲得的一些基本示例。 問題:我目前的問題是提取這些書籤,以滿足本章的要求。有誰知道如何使用這個特定的解析器來提取這種類型的內

    0熱度

    1回答

    欲的NSLog在流的中途的PDF已壓縮流對象包括零(「」)的含量。 不幸的「」的第一個目標流的第一次出現終止控制檯上的輸出... 無法在SO還是在雲中都發現了什麼。 試圖在4點不同的方式......在控制檯上 NSString *pdfFilePath = [[NSBundle mainBundle] pathForResource: @"myPDF" ofType: @"pdf"];

    0熱度

    1回答

    我使用iText讀取包含XFA格式的PDF文檔。 我將它轉換爲XML,從XML讀取數據並將其插入到數據庫中。 但是如果我在PDF中沒有XFA表單,那麼我怎樣纔能有效地從PDF讀取數據?

    1熱度

    1回答

    我解析與Jsoup.parse一段HTML的預防Jsoup.parse。 其他一切是偉大的,但我應該在PDF轉換後解析這個網站。 出於某種原因,Jsoup.parse刪除結束標記和PDF解析器拋出約缺少的結束img標籤例外。 Can't load the XML resource (using TRaX transformer). org.xml.sax.SAXParseException; l

    0熱度

    1回答

    我想解析一些包含文本,可能包含或不包含圖像的pdf文件。我想提取文本部分作爲字符串進一步處理,並將圖像保存爲jpeg/png或任何其他圖像格式。什麼應該是最合適的模塊?

    0熱度

    3回答

    我正在使用iText java TextExtraction從PDF文件中讀取文本。我使用下面的代碼和它正常工作PDF的英文現在我有PDF包含數據作爲圖像。我想從該圖像讀取數據 public class pdfreader { public static void main(String[] args) throws IOException, DocumentException, Tra

    1熱度

    1回答

    我想用python解析PDF文件。我看到了PDFMiner的例子,它無法解釋我的要求。 例如,如果我想解析簡歷,它包含各種領域,如總結,經驗和愛好。 我有興趣只提取經驗,這個經驗領域將在第一或第二位或在任何地方,我需要確定經驗領域的位置和需要提取數據。 我該怎麼做?