2016-11-22 59 views
0

我有格式化爲內容的PDF文件如下:Python的正則表達式匹配和替換

00:12從前有一個人...

00:18誰被認爲有...

和列表繼續遵循相同的模式。現在我正在嘗試編寫一個正則表達式程序,它將讀取文件並刪除所有時間戳,並用空格替換線路跳過。換一種說法。我想從中做出一大段。

這是我想出了reg表達式:

transcript.replace(transcript.matches("^[0-9:]+$"),"") 

,這將擺脫所有的數字和冒號,這意味着時間戳。現在我不知道如何更換跳線,我會做類似

transcript.replace(transcript.matches("^[\n]+$"), " ") 

任何幫助,將不勝感激。謝謝!

+0

[多條換行符的Python正則表達式]可能重複(http://stackoverflow.com/questions/31130321/python-regex-over-multiple-newlines) – Guillaume

回答

1

難道你只是檢查一個空行,跳過(或刪除)這些行,並使用你的transcript代碼來處理時間戳?

for line in file: 
    if line == "": #test that this is how a blank line is read 
     line.delete 
    else: 
     transcript.replace(transcript.matches("^[0-9:]+$"),"") 

這可能會返回一個文本塊具有以下外觀

很久以前,有一個人...

誰被認爲有...

你仍然需要將它包裝成連續的段落。這三個點是否出現在每行的末尾,就像在引用的文本中一樣?