pdftotext

-1熱度

1回答

我正在使用RStudio版本1.0.153。我有一個大約30個PDF文件夾。我想將它們轉換爲R中的各個對象作爲字符串。我已經有pdftools包，它已成功轉換爲對象，我只是尋找一種方式讓它迭代地瀏覽一個文件夾中的PDF列表，以自動分配給它各自的變量。例如，如果我有30個pdf，命名爲「P1.pdf，P2.pdf，P3.pdf .... P30.pdf」，我如何讓R將它們全部轉換爲使用pdfto

0熱度

1回答

無法在Python 3.6上安裝pdftotext

在Python 3.6中安裝pdftotext時出現錯誤。我也嘗試通過下載zip文件手動安裝軟件包，但仍然收到相同的錯誤。如何正確安裝pdftotext？以下是我在安裝時收到的錯誤消息。在此之前有一些警告，但我無法在此處發佈整個日誌。 pdftotext/pdftotext.cpp(4): fatal error C1083: Cannot open include file: 'popple

0熱度

1回答

即使PDF文件被裁剪後，整個頁面的內容仍然存在

我在pypdf2的幫助下裁剪了一個pdf文件，但是當我嘗試從裁剪的pdf文件中提取文本時，我正在獲取整個pdf頁面的文本。我該如何解決這個問題？裁剪PDF文件看起來是但之後當我運行命令pdftotext out8.pdf out.txt 我得到：內容介紹第一部分一國兩制的故事中的人物關注和努力懶惰控制器聯想機認知易於規範，驚喜，原因了一臺機器過早下結論如何判斷髮生回答問

-1熱度

1回答

使用pdf.js在pdf中以文本格式轉換顯示換行符`\ n`

我使用本教程http://ourcodeworld.com/articles/read/405/how-to-convert-pdf-to-text-extract-text-from-pdf-with-javascript中的代碼將pdf轉換爲文本。看了很多關於這個網站https://mozilla.github.io/pdf.js/關於如何格式化轉換，但找不到任何東西的一些提示。我只是想知道

0熱度

1回答

在php中從pdf中提取文本不適用於所有PDF文件

我從PDF文件中提取文本。這是代碼： <?php require("PdfToText.php"); $file = 'SamplePF' ; $pdf = new PdfToText ("$file.pdf") ; echo ($pdf -> Text) ; ?> 此類對一些PDF文件正常工作。這一類的問題是：它需要從任意的頁/行文本不在頁面序列明智一些的PDF文件。

0熱度

1回答

檢查PDF是否可搜索

我寫了一個bash腳本，從掃描的PDF文件中提取純文本。我有很多PDF文件，但有些是掃描的，有些則不是。所以現在我的主要目標是通過檢查PDF是否已經可以搜索來改進我的腳本，所以不需要OCR提取。我已經試過： pdftext -nopgbrk pdf_file.pdf wordlist 存儲可能OCR'ed文字wordlist，所以後來我可以檢查它是否是空的，並找出是否是一個可搜索的PDF或沒有。

0熱度

1回答

Python子進程調用xpdf的pdftotext不能與編碼一起工作

我試圖運行pdftotext使用python subprocess模塊。 import subprocess pdf = r"path\to\file.pdf" txt = r"path\to\out.txt" pdftotext = r"path\to\pdftotext.exe" cmd = [pdftotext, pdf, txt, '-enc UTF-8'] response

0熱度

1回答

pdftotext查找命令返回沒有這樣的文件或目錄

我使用pdftotext並找到找到PDF文件的內容並將其移動。我可以找到所有這些文件，但是嘗試將mv命令添加到xargs的末尾會爲每個文件返回「沒有這樣的文件或目錄」。我的代碼如下： find ./ -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep -l -Z -i --with-filename --label="{}" --color "T

0熱度

1回答

從PDF頁面獲取文本時出現iTextSharp異常「堆棧爲空」

我試圖循環瀏覽PDF上的每個頁面以查找特定關鍵字。守則適用於其他的PDF很好，除了這one 我的代碼 Using oReader As New pdf.PdfReader(pdfFilename) For pCurrent = oReader.NumberOfPages To 1 Step -1 Dim strategy As pdf.parser.ITextExtract

1熱度

1回答

Pdfbox文本提取異常

我第一次使用PDF Box，我使用它從PDF的某個區域提取文本。我在50個文檔上測試了我的程序，並且在4個文檔上失敗了，並給了我這個例外。有人可以對此有更多的瞭解嗎？或者知道是什麼導致它發生？代碼 PDFTextStripperByArea stripper = new PDFTextStripperByArea(); stripper.setSortByPosition(true);