0
我有格式化爲內容的PDF文件如下:Python的正則表達式匹配和替換
00:12從前有一個人...
00:18誰被認爲有...
和列表繼續遵循相同的模式。現在我正在嘗試編寫一個正則表達式程序,它將讀取文件並刪除所有時間戳,並用空格替換線路跳過。換一種說法。我想從中做出一大段。
這是我想出了reg表達式:
transcript.replace(transcript.matches("^[0-9:]+$"),"")
,這將擺脫所有的數字和冒號,這意味着時間戳。現在我不知道如何更換跳線,我會做類似
transcript.replace(transcript.matches("^[\n]+$"), " ")
任何幫助,將不勝感激。謝謝!
[多條換行符的Python正則表達式]可能重複(http://stackoverflow.com/questions/31130321/python-regex-over-multiple-newlines) – Guillaume