RegEx之後拆分PDF：我應該從哪裏開始？

[AZ]的正則表達式來分割龐大的PDF文件[AZ] +（\ S-\ S）[AZ] [AZ] +

由於每個實例後這開始了一個新的'部分'，我需要將其分解成它自己的文檔。

我不知道從哪裏開始，或者先看什麼語言。

任何幫助，將不勝感激。

我想你會更好地使用一個庫來分割PDF，因爲PDF的專有結構太複雜了，不能被正則表達式分割。 – 2011-05-18 21:48:37

PHP中的'fread'怎麼樣？ – 2011-05-18 22:02:36

沒有機會。 PDF包含多種不同格式的壓縮數據。直接搜索PDF文件的正則表達式是錯誤的方法。 – 2011-05-19 17:42:31

在字節流級別拆分PDF不會生成有效的PDF。

現在我們已經擺脫了這種困境，您需要一個庫（Java中的Apache PDFBox，python中的pyPDF），它可以解析PDF並讓您迭代文本，應用您的正則表達式。一旦找到了使用該庫的文本來提取相關的頁面範圍。

2011-05-18 21:51:14

2011-05-18 22:10:33

PDF包含文件結構的alsorts，它不只是一個網頁集合。所以你不能把它分解。

2011-05-19 06:51:32

回答