我正在開發一個正則表達式,可以獲取從字幕文件中的文本可以是任何語言的任何編譯有時包含Unicode字符正則表達式接受任何字母任何語言,符號或數字
String str=
"1
00:00:25,690 --> 00:00:44,410
As you can see he is no longer 1 year old, he is 12 years old now.
2
00:00:44,410 --> 00:00:58,120
He helps with the baby girl
";
擷取eaching插槽採用ragex:
((^1\n|(\\n\\d+\n))(\\d{2}:\\d{2}:\\d{2},\\d{3}.*\\d{2}:\\d{2}:\\d{2},\\d{3}))[\\p{P}\\p{L}\\p{P}*-,;'\"\\s]+
但最近發現,字幕文本插槽,可以包含數字,所以如何覆蓋具有任何字符任何語言的任何Unicode字符和之間的任意數字的一切可能性。
嘗試添加\p{N}
但失敗。它現在包括時間和字幕順序以及: 有時是這樣的:blah blah blah.400:00:44,410
是否更新正則表達式以匹配在文本槽中找到的數字,但不是字幕定時數的一部分。
是的,它應該是足夠的。你測試過了嗎? –
是的,但不太可能我會更新問題的結果 – YouYou
@ThomasAyoub我已經更新了問題的狀態後添加''\\ p {N}'' – YouYou