pdf-parsing

    1熱度

    1回答

    我想使用Apache Tika解析使用ByteArrayInputStream的二進制文件的PDF文件...並開始獲取某些PDF文件的錯誤,對於一些它解析得非常好.. 早些時候我能夠使用Tika解析相同的pdf文件,但是現在當我嘗試使用ByteArrayInputStream時,我開始出現錯誤..我認爲ByteArray存在一些問題這是我正在獲取的錯誤.. org.apache.tika.exce

    0熱度

    1回答

    我需要解決pdf的幫助pdf 在illustrator中構建的pdf,它有4層,每層有一個圖形路徑對象 我不想做的是獲得所有4個圖形路徑並繪製它們另一個pdf文件,它的寬度和高度與本pdf相同,我想將它們繪製在相同的位置。 這是我開始寫代碼: public static List<PDFMask> GetMasksFromPage(PdfPage page) { List<

    1熱度

    1回答

    您好,我試圖解析PDF文件,能夠從PDF中提取文本,但如果PDF是壓縮(使用flatedecode),我得到垃圾字符,所以需要知道如何解壓縮文字,也如何知道使用過濾器?

    5熱度

    2回答

    我必須解析HDFS中Hadoop中Map Reduce程序中的PDF文件。所以我從HDFS獲得PDF文件輸入拆分,它必須被解析併發送到映射類。爲了實現這個InputFormat,我經歷了這個link。這些輸入分裂如何被解析並轉換爲文本格式?

    2熱度

    1回答

    我一直在嘗試一段時間才能提取PDF包中包含的PDF文檔,但沒有成功。我沒有找到任何文檔或示例代碼,但我知道這不是不可能的,因爲Adobe Reader應用程序和PDFExpert應用程序支持它。這是可能的,他們都有自己的解析器,我希望這不會走到那...... 任何暗示將指向我朝着正確的方向將是極大的讚賞 編輯:後很長一段時間我回去研究這個問題,並最終找到了答案。 特別感謝iPDFDev指引我朝着正

    0熱度

    2回答

    如何從pdf文件中提取數據主要是數據表等這些東西是否有任何免費或開源工具可用於直接進行。我必須處理大量文件的

    4熱度

    2回答

    假設我們有一個可點擊的內容頁面的pdf文件。 (我正在談論章​​節和子章節) 如何在C#中解析某個文件,以及應用程序如何識別它正在閱讀的pdf是否有章節/內容等? 這是一個PDF格式的鏈接沒有的內容 https://docs.google.com/open?id=0B1EbI-EMJxmkODE1Mm5WbFpEdXc 我似乎沒有找到的內容可點擊表中的PDF點擊表,但我發現這裏怎麼辦呢 http:

    0熱度

    1回答

    確實,您不能在PDF文件中使用常見的XRef表和XRef流? 我認爲這就是所謂的「混合PDF文檔」! 有什麼想法?

    8熱度

    3回答

    我需要解析PDF文檔。我已經實現瞭解析器,並使用庫iText直到現在它沒有任何問題。 但是,沒有我需要解析另一個文件,它會在文字中間出現非常奇怪的空格。作爲例子,我得到: VO RBER eitung奧夫死Motorr adsaison。 Viele Motorr ADF AHR呃 所有粗體字應連接,但不知何故PDF解析器將空格進言。但是,當我複製並粘貼PDF文件中的內容到一個文本文件我沒有得到這

    4熱度

    1回答

    這似乎是一個老問題,但我沒有找到花半小時尋遍打完一個詳盡的答案。 我使用PDFBox的,我願與每個字符串的座標沿着提取所有文字從一個PDF文件。我使用他們的PrintTextLocations例子(http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTextLocations.html),但那種PDF我在用的(