0
我是新來的python和這個網站,所以先謝謝你,你的理解。這是我第一次嘗試Python腳本。python正則表達式來自大文本文件的特定塊文本
我有我認爲是一個性能問題,試圖解決這個問題,這導致我沒有得到任何數據。
此代碼適用於幾頁文本文件,但是當我嘗試在我的35MB真實數據文本文件上使用它時,它只是點擊CPU並且沒有返回任何數據(現在> 24小時)。
下面是從35MB文本文件中的實際數據的一個片段:
D)dddld
d00d90d
dd
ddd
vsddfgsdfgsf
dfsdfdsf
aAAAAAa
221546
29806916295
Meowing
fs:/mod/umbapp/umb/sentbox/221546.pdu
2013:10:4:22:11:31:4
sadfsdfsdf
sdfff
ff
f
29806916295
What's your cat doing?
fs:/mod/umbapp/umb/sentbox/10955.pdu
2013:10:4:22:10:15:4
aaa
aaa
aaaaa
我試圖複製到一個新的文件:
29806916295
Meowing
fs:/mod/umbapp/umb/sentbox/221546.pdu
2013:10:4:22:11:31:4
29806916295
What's your cat doing?
fs:/mod/umbapp/umb/sentbox/10955.pdu
2013:10:4:22:10:15:4
我的Python代碼是:
import re
with open('testdata.txt') as myfile:
content = myfile.read()
text = re.search(r'\d{11}.*\n.*\n.*(\d{4})\D+(\d{2})\D+(\d{1})\D+(\d{2})\D+(\d{2})\D+\d{2}\D+\d{1}', content, re.DOTALL).group()
with open("result.txt", "w") as myfile2:
myfile2.write(text)
這就像一個魅力,非常感謝你的答案! – Rob