2012-02-29 130 views
0

我有一個由6000多行組成的文本,但是我已經從PDF中複製了該文本,並且必須刪除所有換行符,因爲在PDF中末尾有額外換行符的每條可見線。在文本中的數字之前插入換行符

所以現在我結束了類似1. textextexttexttexttext2. texttexttexttexttext3. texttexttexttext4. texttexttexttext ... texttexttext199. texttexttext200. texttexttext

的問題,現在是我該如何把換行符只能與後他們點和空間的數字面前,以獲得:

1. textextexttexttexttext 
2. texttexttexttexttext 
3. texttexttexttext 
4. texttexttexttext 
... texttexttext 
199. texttexttext 
200. texttexttext 

在PHP或Java中使用算法會很好。

+1

http://xkcd.com/208/ – talnicolas 2012-02-29 14:59:36

+1

你不能要求人做你的工作,之前提出的算法中,然後問,如果它是正確的或者是否可以改進。 – 2012-02-29 15:01:42

+1

talnicolas,這就是我現在穿的T恤:P – Joey 2012-02-29 15:02:37

回答

-1

竇更換正則表達式

(\d+\.) 

通過

\n$1 

或者

(?=\d+\.) 

ble換行符聽起來像一個窗口回車+換行組合(CR + LF)(asc 13,asc 10)。也許拿原件+粘貼的文本和替換的\r\n所有實例\n

+0

PDF通常會(除了例外)存儲字形和位置來描述頁面佈局。因此,純文本通常(有例外)丟失。您複製的內容是Acrobat關於原始文本的最佳猜測,而空格,換行符或連字符等內容始終存在問題。 – Joey 2012-02-29 16:04:17

+0

我不確定你在這裏想說什麼。如果您可以從pdf複製文本並將其保存到文本文件,則在Windows計算機上產生的換行符將爲cr + lf。 – horatio 2012-02-29 16:20:07

+0

那又如何?這與他們描述並試圖解決的問題無關。哎呀,它甚至不關於CRLF或任何其他類型的換行*。 – Joey 2012-02-29 19:08:31

相關問題