2011-05-18 69 views
0

我想基於排序RegEx之後拆分PDF:我應該從哪裏開始?

[AZ]的正則表達式來分割龐大的PDF文件[AZ] +(\ S-\ S)[AZ] [AZ] +

由於每個實例後這開始了一個新的'部分',我需要將其分解成它自己的文檔。

我不知道從哪裏開始,或者先看什麼語言。

任何幫助,將不勝感激。

+0

我想你會更好地使用一個庫來分割PDF,因爲PDF的專有結構太複雜了,不能被正則表達式分割。 – 2011-05-18 21:48:37

+0

PHP中的'fread'怎麼樣? – 2011-05-18 22:02:36

+0

沒有機會。 PDF包含多種不同格式的壓縮數據。直接搜索PDF文件的正則表達式是錯誤的方法。 – 2011-05-19 17:42:31

回答

1

在字節流級別拆分PDF不會生成有效的PDF。

現在我們已經擺脫了這種困境,您需要一個庫(Java中的Apache PDFBox,python中的pyPDF),它可以解析PDF並讓您迭代文本,應用您的正則表達式。一旦找到了使用該庫的文本來提取相關的頁面範圍。

0

PDF包含文件結構的alsorts,它不只是一個網頁集合。所以你不能把它分解。