pdftotext

0熱度

2回答

我想要捕獲錯誤消息併發送到awk（例如，PDF文件被加密時pdftotext給出「不正確的密碼」消息），以便awk可以打印它。由於它是下面的命令統計pdf文件中的單詞。然而，對於密碼文件，該命令返回0計數，這與沒有密碼的pdf圖像衝突（也返回0計數）。 pdftotext -q file.pdf - | awk 'BEGIN {w=w+NF; if(w>=30) {print (w-1); ex

0熱度

1回答

Linux PdfToText函數返回空白文本文件

我已經使用linux函數將PDF文件列表轉換爲文本。命令： pdftotext -htmlmeta 這對於我的大部分文件工作做好。但是對於它們的一小部分，這會返回一個空白的文本文件。我的unsuccesssfull pdf文件沒有加密，沒有用戶/密碼證實，他們不是隻讀。

2熱度

1回答

PDF格式轉換爲文本蟒蛇錯誤

我想將PDF轉換到指定的目錄文本這是我嘗試 import os import subprocess def pdftotext(pdf): # insert your code here basename, _ = os.path.splitext(os.path.basename(pdf)) subprocess.call(['pdftotext', '-e

14熱度

2回答

使用R將PDF文件轉換爲文本文件進行文本挖掘

我在一個文件夾中擁有將近一千種pdf的期刊文章。我需要從整個文件夾中的文章中摘錄所有文章。現在我做了以下內容： dest <- "~/A1.pdf" # set path to pdftotxt.exe and convert pdf to text exe <- "C:/Program Files (x86)/xpdfbin-win-3.03/bin32/pdftotext.exe" s

1熱度

1回答

「pdftotext」錯誤 - 相同的PDF文件的Linux

下正確地處理我的pdftotext舊Linux版本（0.12.4），如果沒有問題，運行，但我想在Windows 7計算機上運行它。我下載了Windows安裝程序，看起來是最新版本，xpdf-2.03-bin.exe從http://gnuwin32.sourceforge.net/packages/xpdf.htm。我接受所有的安裝程序默認值。當我運行Windows 7 pdftotext對Li

1熱度

1回答

在Mac OSX上使用fink安裝poppler Mountain Lion似乎沒有安裝pdftotext實用程序

我想在MacOSX上安裝pdftotext。我更喜歡fink其他軟件包安裝程序。我用： fink install poppler46 思維pdftotext可能被包括在內，但它似乎沒有要（因爲它使用時安裝釀造的poppler是）。 pdftotext是否已經安裝，如果有，在哪裏？我現在已經走下了安裝Homebrew的路線，但是Fink和Homebrew似乎並不是很愉快地並存。

0熱度

1回答

從掃描的pdf文本提取

我的問題是，我有一堆的PDF文件，我想將它們轉換爲文本文件。其中一些是純粹的PDF，而其他的則是掃描頁面。我在Python中編寫程序，所以我使用pdftotext將它們轉換爲TXT。我使用下面 filename = glob.glob(src) //src is my directory with my files for file in filename: subproc

3熱度

3回答

只替換NSString中出現的\ n或\ r

我正在將文本從PDF讀取到NSString。我使用下面的代碼替換所有空格 NSString *pdfString = convertPDF(path); pdfString=[pdfString stringByTrimmingCharactersInSet:[NSCharacterSet whitespaceAndNewlineCharacterSet]]; pdfStrin

0熱度

2回答

正則表達式匹配兩個字符串之間的任何字詞除外

我有一句話，在句子的起始點和結束點之間可以包含任何特殊字符或數字或字母，但不包含任何字。要對我的觀點更清楚，我已經用一個例子說明如下：我有這樣一個句子"Today's Market value 0.5 percent" 現在從上面這句話中的「市場價值」和「百分比」，我必須之間沒有得到任何其他的話。 Statements allowed: 1) "Today's Market value* 0

2熱度

1回答

PDFMiner - 獲取文本行

我轉換PDF文件與PDFMiner Python library文本，使用this SO answer提供的代碼段。問題是PDF格式爲三列，我需要閱讀每一行。但是，我得到的文本是無序的：有時混合第一和第二列，有時混第三個......由於文字不遵循任何邏輯順序，我不能分析每一行。那麼，有什麼辦法可以使用PDFMiner獲取PDF文件的每一行？編輯： PDFMiner配備了一個命令行工具，pdf2t