pdftotext

    -1熱度

    1回答

    我正在使用RStudio版本1.0.153。 我有一個大約30個PDF文件夾。我想將它們轉換爲R中的各個對象作爲字符串。我已經有pdftools包,它已成功轉換爲對象,我只是尋找一種方式讓它迭代地瀏覽一個文件夾中的PDF列表,以自動分配給它各自的變量。 例如,如果我有30個pdf,命名爲「P1.pdf,P2.pdf,P3.pdf .... P30.pdf」,我如何讓R將它們全部轉換爲使用pdfto

    0熱度

    1回答

    在Python 3.6中安裝pdftotext時出現錯誤。我也嘗試通過下載zip文件手動安裝軟件包,但仍然收到相同的錯誤。 如何正確安裝pdftotext? 以下是我在安裝時收到的錯誤消息。在此之前有一些警告,但我無法在此處發佈整個日誌。 pdftotext/pdftotext.cpp(4): fatal error C1083: Cannot open include file: 'popple

    0熱度

    1回答

    我在pypdf2的幫助下裁剪了一個pdf文件,但是當我嘗試從裁剪的pdf文件中提取文本時,我正在獲取整個pdf頁面的文本。我該如何解決這個問題? 裁剪PDF文件看起來是 但之後當我運行命令pdftotext out8.pdf out.txt 我得到: 內容 介紹 第一部分一國兩制 的故事中的人物 關注和努力 懶惰控制器 聯想機 認知易於 規範,驚喜,原因 了一臺機器過早下結論 如何判斷髮生 回答問

    -1熱度

    1回答

    我使用本教程http://ourcodeworld.com/articles/read/405/how-to-convert-pdf-to-text-extract-text-from-pdf-with-javascript中的代碼將pdf轉換爲文本。 看了很多關於這個網站https://mozilla.github.io/pdf.js/關於如何格式化轉換,但找不到任何東西的一些提示。我只是想知道

    0熱度

    1回答

    我從PDF文件中提取文本。這是代碼: <?php require("PdfToText.php"); $file = 'SamplePF' ; $pdf = new PdfToText ("$file.pdf") ; echo ($pdf -> Text) ; ?> 此類對一些PDF文件正常工作。 這一類的問題是: 它需要從任意的頁/行文本不在 頁面序列明智一些的PDF文件。

    0熱度

    1回答

    我寫了一個bash腳本,從掃描的PDF文件中提取純文本。我有很多PDF文件,但有些是掃描的,有些則不是。所以現在我的主要目標是通過檢查PDF是否已經可以搜索來改進我的腳本,所以不需要OCR提取。 我已經試過: pdftext -nopgbrk pdf_file.pdf wordlist 存儲可能OCR'ed文字wordlist,所以後來我可以檢查它是否是空的,並找出是否是一個可搜索的PDF或沒有。

    0熱度

    1回答

    我試圖運行pdftotext使用python subprocess模塊。 import subprocess pdf = r"path\to\file.pdf" txt = r"path\to\out.txt" pdftotext = r"path\to\pdftotext.exe" cmd = [pdftotext, pdf, txt, '-enc UTF-8'] response

    0熱度

    1回答

    我使用pdftotext並找到找到PDF文件的內容並將其移動。我可以找到所有這些文件,但是嘗試將mv命令添加到xargs的末尾會爲每個文件返回「沒有這樣的文件或目錄」。 我的代碼如下: find ./ -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep -l -Z -i --with-filename --label="{}" --color "T

    0熱度

    1回答

    我試圖循環瀏覽PDF上的每個頁面以查找特定關鍵字。守則適用於其他的PDF很好,除了這one 我的代碼 Using oReader As New pdf.PdfReader(pdfFilename) For pCurrent = oReader.NumberOfPages To 1 Step -1 Dim strategy As pdf.parser.ITextExtract

    1熱度

    1回答

    我第一次使用PDF Box,我使用它從PDF的某個區域提取文本。 我在50個文檔上測試了我的程序,並且在4個文檔上失敗了,並給了我這個例外。 有人可以對此有更多的瞭解嗎?或者知道是什麼導致它發生? 代碼 PDFTextStripperByArea stripper = new PDFTextStripperByArea(); stripper.setSortByPosition(true);