Python的正則表達式可以防止用'\ s'跨越換行符嗎？

執行Python中的正則表達式搜索時，即使不啓用re.MULTILINE，Python的正則表達式可以防止用' s'跨越換行符嗎？

表達A[\s]B將對陣

A 
B

由於換行符匹配\s。

除了將字符串拆分爲行並對其進行操作 - 是否有一種有效的方法可以使表達式在換行符上分隔？

編輯：我知道它可以使用[\t ]或[^\S\r\n]，問題是我不控制輸入在這種情況下，用戶將進入\s並不會期望它spand線。我不想嘗試告訴用戶他們錯了，從他們的角度來看，這是一個錯誤。

所以如果答案是「這是不能沒有拆分線」 - 這樣吧。

請注意，逐行操作文件大約是我測試中的兩倍。

來源

2017-07-24 ideasman42

你問如何只匹配*水平空白*？ –

我這麼認爲，是的。 – ideasman42

使用'[^ \ S \ r \ n]' –

簡短的回答是否定的，Python的正則表達式不能這樣\s不會匹配\n。

你可以做的是在匹配中檢測'\ n'並跳過這些。

def finditer_delimit_newlines(pattern, string, delimit_newlines=True): 
    matches = list(re.finditer(pattern, string)) 
    if not matches: 
     return [] 

    end = matches[-1].start() 
    newline_table = {-1: 0} 
    for i, m in enumerate(re.finditer(r'\n', string), 1): 
     offset = m.start() 
     newline_table[offset] = i 
     if offset > end: 
      break 

    for m in matches: 
     m_start = m.start() 
     m_end = m.end() 
     newline_offset = string.rfind('\n', 0, m_start) 
     newline_end = string.find('\n', m_end) 
     if delimit_newlines: 
      if ((newline_table[newline_offset] + 1) != 
       (newline_table[newline_end] 
       if newline_end != -1 else len(newline_table)) 
      ): 
       continue 
     yield m 


search = """A 
B 

A B""" 

import re 

for delimit_newlines in (False, True): 
    print("Test:", delimit_newlines) 
    for a in finditer_delimit_newlines(r'[A-Z]\s[A-Z]', search, delimit_newlines): 
     print(a)

該測試輸出

Test: False 
<_sre.SRE_Match object; span=(0, 3), match='A\nB'> 
<_sre.SRE_Match object; span=(5, 8), match='A B'> 
Test: True 
<_sre.SRE_Match object; span=(5, 8), match='A B'>

編輯，一場比賽可以捕捉尾隨換行符定期空白的一部分，而它可以檢測到這一點，它可能是簡單的使用類似的方法如果換行符存在，則在有限範圍內重新匹配結果。

來源

2017-07-24 18:07:07 ideasman42

從技術上講，\s僅僅是[ \t\r\n\f]

速記這意味着運行替換所有([^\\]|^)(\\\\)*\\s與$1$2[ \t\r\n\f]的正則表達式模式將沒有任何效果。（不得不捕捉轉義的\s）所以技術上來說，你可以簡化上面這樣的人物類\s只是[ \t]。

當然，正如其他人所說的，在不告訴最終用戶的情況下更改正則表達式的功能是非常糟糕的，並且可能更容易解釋/實現用正則表達式替換字符類[ \t]（as這是對基本規則集的較小更改）。如果最終用戶認爲\s不能捕獲新行，那麼最終用戶可能會以最終用戶期望的相同方式解析文件，以便代碼邏輯與最終用戶邏輯相匹配。

來源

2017-07-24 18:33:32 Tezra

Python的正則表達式可以防止用'\ s'跨越換行符嗎？

回答

相關問題