2012-04-05 53 views
0

所以我有一張發票,我需要做出報告。平均約250頁。所以我試圖創建一個腳本來提取發票的具體價值並製作報告。這是我的問題:根據列明智地分割文本文件

  1. 該發票是在pdf格式與它跨越兩列。在Linux命令中,我想使用'pdftotext'Linux命令將其轉換成多個文本文件(每個txt文件代表每個pdf頁面)。我該怎麼做
  2. 我認識到'pdftotext'命令將頁面的左邊部分和頁面的右邊部分分開,其間有21個空格。如何將數據的右側(連續讀取至少21個空格後識別)添加到文件末尾
  3. 由於文件很大,並且只有文件的最後幾頁,因此如何刪除所有文件這些文本文件在腳本中(不是手動),直到我讀了一個關鍵字(讓我們只是說關鍵字=開始發票)?

我知道這是很多問題,但我很困惑Linux命令可以做什麼。你們能指導我走向正確的方向嗎?由於

PS:我使用CentOS 5.2

回答

0

什麼:

pdftotext YOUR.pdf | sed 's/^\([^ ]\+\) \{21\}.*/\1/' > OUTPUT 
pdftotext YOUR.pdf | sed 's/.* \{21\}\(.*\)/\1/' >> OUTPUT 

但你應該看看pdftotext-raw-layout選擇了。還有更多的方法可以做到這一點...