pdf-parsing

    2熱度

    3回答

    我試圖從pdf中提取表格document 我嘗試了pdf - > html - >提取表格的路由。我上面轉換爲html時提到的pdf會產生垃圾,也許是因爲字體,文檔不是英文。 用x提取PDF和這個解決方案需要從URL上面提到的,這將有表,但不總是在相同的位置未來的PDF工作y座標是不是一種選擇。 請幫忙, 在此先感謝。

    0熱度

    1回答

    PDFTextStripper stripper = new PDFText2HTML(encoding); String result = stripper.getText(document).trim(); 結果解析包含有類似 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.or

    1熱度

    1回答

    我有這個樣本PDF文件: Original file ,我試圖附加文本註釋,這就造成了這一點: Annotated file 但是,MAC OSX上的預覽仍會顯示沒有新註釋的文檔,其中Adobe Reader甚至無法打開註釋文檔,並指出: 打開此文檔時出錯。該文件已損壞,無法修復。 我很幸運,直到現在註釋其他具有「經典XREF表」而不是編碼的文件的文件。 但是,編寫我自己的編碼XREF流似乎不起作

    0熱度

    1回答

    pdf文件中的文本是文本格式,未掃描。 PDFMiner不支持python3,有沒有其他解決方案?

    1熱度

    1回答

    我試圖突出顯示一些文字寬度爲1000(對應於1個單位的文本空間)和字體大小爲1的文字;變換矩陣是[50 0 0 50 0 0]。結果是文字太大。但這種情況並非如此。正在顯示的文本根本不大;這是一個正常的大小。 任何PDF閱讀器我打開文件時沒有突出顯示該單詞的問題,這意味着我在某處丟失了某些東西。 目前我正在檢查字體字典中的默認字體和字體數組,字體大小和轉換矩陣。除了我剛纔提到的那些,還有其他方式可

    5熱度

    1回答

    Haskell有沒有可能解密.pdf文件,讀取內容並返回String? 而且,如果有一個,你能給我像例如爲: ... import necessaryPackage ... pdfParsing = ... ... 在此先感謝一個小例子。 最好的問候,吉米

    0熱度

    2回答

    我是Apache PDFBox庫的新手。 我要地圖字體信息的PDF段落 我已經通過Questios How to extract font styles of text contents using pdfbox? 走了,但它並沒有提供有關該段落寫有字體信息。 例如,如果我的網頁包含文本: PARA1:宋體 PARA2:Times New Roman字體 那麼我應該能夠得到該PARA1是用宋體,而

    2熱度

    1回答

    我得到這個錯誤「No/Root object! - 這真的是PDF嗎?」使用我的MAC電腦與Python 2.7和PDFMiner版本20110515. PDF文件沒有損壞,因爲具有相同文件的相同程序在我的PC上運行!此外,我已經嘗試了很多PDF文件,並且所有這些錯誤都存在。任何想法,我應該改變我的MAC不會得到這個錯誤?

    7熱度

    2回答

    我想對即將進行的拍賣中列出的一些房產做一些分析。不幸的是,進行拍賣的城市不會以結構化的格式發佈信息,而是提供700+ page PDF的拍賣物業。 我想知道社區是否有任何想法,我可以如何解析PDF格式的結構化格式插入數據庫或創建屬性的電子表格。 這裏的每一頁代表什麼的圖像: 這裏還有一個頁面,列出了一些屬性: 我熟悉Python和Ruby,所以我沒有任何問題編寫一個解決方案,但是因爲這些列中的「列

    2熱度

    2回答

    有沒有辦法用CGPDF < ...>來創建PDF對象(例如帶有自定義PDF生產者/消費者/查看者所需參數的PDF字典)...還是必須編寫我自己的解析器並創建新的預告片,外部參照等,以便將新對象添加到PDF中?據我瞭解,CG在創建PDF時將其圖形上下文的所有繪圖調用轉換爲正確的PDF對應文件 - 但我擁有應存儲在PDF中的自定義數據/對象(例如用於註釋,線程等),但顯然CG不能自動創建。 我只能找到