pdftotext

    0熱度

    2回答

    我想要捕獲錯誤消息併發送到awk(例如,PDF文件被加密時pdftotext給出「不正確的密碼」消息),以便awk可以打印它。 由於它是下面的命令統計pdf文件中的單詞。然而,對於密碼文件,該命令返回0計數,這與沒有密碼的pdf圖像衝突(也返回0計數)。 pdftotext -q file.pdf - | awk 'BEGIN {w=w+NF; if(w>=30) {print (w-1); ex

    0熱度

    1回答

    我已經使用linux函數將PDF文件列表轉換爲文本。 命令: pdftotext -htmlmeta 這對於我的大部分文件工作做好。 但是對於它們的一小部分,這會返回一個空白的文本文件。 我的unsuccesssfull pdf文件沒有加密,沒有用戶/密碼證實,他們不是隻讀。

    2熱度

    1回答

    我想將PDF轉換到指定的目錄文本 這是我嘗試 import os import subprocess def pdftotext(pdf): # insert your code here basename, _ = os.path.splitext(os.path.basename(pdf)) subprocess.call(['pdftotext', '-e

    14熱度

    2回答

    我在一個文件夾中擁有將近一千種pdf的期刊文章。我需要從整個文件夾中的文章中摘錄所有文章。現在我做了以下內容: dest <- "~/A1.pdf" # set path to pdftotxt.exe and convert pdf to text exe <- "C:/Program Files (x86)/xpdfbin-win-3.03/bin32/pdftotext.exe" s

    1熱度

    1回答

    下正確地處理我的pdftotext舊Linux版本(0.12.4),如果沒有問題,運行,但我想在Windows 7計算機上運行它。 我下載了Windows安裝程序,看起來是最新版本,xpdf-2.03-bin.exe從http://gnuwin32.sourceforge.net/packages/xpdf.htm。 我接受所有的安裝程序默認值。當我運行Windows 7 pdftotext對Li

    1熱度

    1回答

    我想在MacOSX上安裝pdftotext。我更喜歡fink其他軟件包安裝程序。我用: fink install poppler46 思維pdftotext可能被包括在內,但它似乎沒有要(因爲它使用時安裝釀造的poppler是)。 pdftotext是否已經安裝,如果有,在哪裏? 我現在已經走下了安裝Homebrew的路線,但是Fink和Homebrew似乎並不是很愉快地並存。

    0熱度

    1回答

    我的問題是,我有一堆的PDF文件,我想將它們轉換爲文本文件。其中一些是純粹的PDF,而其他的則是掃描頁面。我在Python中編寫程序,所以我使用pdftotext將它們轉換爲TXT。 我使用下面 filename = glob.glob(src) //src is my directory with my files for file in filename: subproc

    3熱度

    3回答

    我正在將文本從PDF讀取到NSString。我使用下面的代碼替換所有空格 NSString *pdfString = convertPDF(path); pdfString=[pdfString stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet]]; pdfStrin

    0熱度

    2回答

    我有一句話,在句子的起始點和結束點之間可以包含任何特殊字符或數字或字母,但不包含任何字。 要對我的觀點更清楚,我已經用一個例子說明如下: 我有這樣一個句子"Today's Market value 0.5 percent" 現在從上面這句話中的「市場價值」和「百分比」,我必須之間沒有得到任何其他的話。 Statements allowed: 1) "Today's Market value* 0

    2熱度

    1回答

    我轉換PDF文件與PDFMiner Python library文本,使用this SO answer提供的代碼段。問題是PDF格式爲三列,我需要閱讀每一行。但是,我得到的文本是無序的:有時混合第一和第二列,有時混第三個......由於文字不遵循任何邏輯順序,我不能分析每一行。那麼,有什麼辦法可以使用PDFMiner獲取PDF文件的每一行? 編輯: PDFMiner配備了一個命令行工具,pdf2t