pdf-parsing

2熱度

3回答

我試圖從pdf中提取表格document 我嘗試了pdf - > html - >提取表格的路由。我上面轉換爲html時提到的pdf會產生垃圾，也許是因爲字體，文檔不是英文。用x提取PDF和這個解決方案需要從URL上面提到的，這將有表，但不總是在相同的位置未來的PDF工作y座標是不是一種選擇。請幫忙，在此先感謝。

0熱度

1回答

PDFTextStripper與錯誤的編碼

PDFTextStripper stripper = new PDFText2HTML(encoding); String result = stripper.getText(document).trim(); 結果解析包含有類似 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.or

1熱度

1回答

試圖註釋一個PDF文件使用XREF流

我有這個樣本PDF文件： Original file ，我試圖附加文本註釋，這就造成了這一點： Annotated file 但是，MAC OSX上的預覽仍會顯示沒有新註釋的文檔，其中Adobe Reader甚至無法打開註釋文檔，並指出：打開此文檔時出錯。該文件已損壞，無法修復。我很幸運，直到現在註釋其他具有「經典XREF表」而不是編碼的文件的文件。但是，編寫我自己的編碼XREF流似乎不起作

0熱度

1回答

使用Python3.4 PDF文本提取

pdf文件中的文本是文本格式，未掃描。 PDFMiner不支持python3，有沒有其他解決方案？

1熱度

1回答

PDF轉換矩陣具有50個單位的縮放

我試圖突出顯示一些文字寬度爲1000（對應於1個單位的文本空間）和字體大小爲1的文字;變換矩陣是[50 0 0 50 0 0]。結果是文字太大。但這種情況並非如此。正在顯示的文本根本不大;這是一個正常的大小。任何PDF閱讀器我打開文件時沒有突出顯示該單詞的問題，這意味着我在某處丟失了某些東西。目前我正在檢查字體字典中的默認字體和字體數組，字體大小和轉換矩陣。除了我剛纔提到的那些，還有其他方式可

5熱度

1回答

haskell - 解析/閱讀.pdf文件的內容

Haskell有沒有可能解密.pdf文件，讀取內容並返回String？而且，如果有一個，你能給我像例如爲： ... import necessaryPackage ... pdfParsing = ... ... 在此先感謝一個小例子。最好的問候，吉米

0熱度

2回答

使用PDFBox的PDF文本的字體信息

我是Apache PDFBox庫的新手。我要地圖字體信息的PDF段落我已經通過Questios How to extract font styles of text contents using pdfbox? 走了，但它並沒有提供有關該段落寫有字體信息。例如，如果我的網頁包含文本： PARA1：宋體 PARA2：Times New Roman字體那麼我應該能夠得到該PARA1是用宋體，而

2熱度

1回答

Python PDFMiner error：「No/Root object！ - 這真的是PDF嗎？」

我得到這個錯誤「No/Root object！ - 這真的是PDF嗎？」使用我的MAC電腦與Python 2.7和PDFMiner版本20110515. PDF文件沒有損壞，因爲具有相同文件的相同程序在我的PC上運行！此外，我已經嘗試了很多PDF文件，並且所有這些錯誤都存在。任何想法，我應該改變我的MAC不會得到這個錯誤？

7熱度

2回答

尋找關於如何將PDF轉換爲結構化格式的建議

我想對即將進行的拍賣中列出的一些房產做一些分析。不幸的是，進行拍賣的城市不會以結構化的格式發佈信息，而是提供700+ page PDF的拍賣物業。我想知道社區是否有任何想法，我可以如何解析PDF格式的結構化格式插入數據庫或創建屬性的電子表格。這裏的每一頁代表什麼的圖像：這裏還有一個頁面，列出了一些屬性：我熟悉Python和Ruby，所以我沒有任何問題編寫一個解決方案，但是因爲這些列中的「列

2熱度

2回答

CGPDF <...> - 安裝人員在哪裏？

有沒有辦法用CGPDF < ...>來創建PDF對象（例如帶有自定義PDF生產者/消費者/查看者所需參數的PDF字典）...還是必須編寫我自己的解析器並創建新的預告片，外部參照等，以便將新對象添加到PDF中？據我瞭解，CG在創建PDF時將其圖形上下文的所有繪圖調用轉換爲正確的PDF對應文件 - 但我擁有應存儲在PDF中的自定義數據/對象（例如用於註釋，線程等），但顯然CG不能自動創建。我只能找到