2017-10-09 90 views
0
<span style='mso-tab-count:1'>         </span> 
<span style='mso-tab-count:1'>   </span> 

上面的底線來自「查看源代碼」頁面,頂行來自Chrome開發者工具源代碼視圖。下面的RegEx匹配底部標籤,它包含一系列空格,但不包括頂部標籤,它們只包含空的空格。在https://regex101.com/r/P9dUP9/2匹配由Chrome devtools源視圖創建的空白區域?

(<span style='mso-tab-count:1'>)\s{2,}(<\/span>) 

見到這對正則表達式測試儀我如何才能讓正則表達式也匹配上線了,我怎麼能知道屏幕上的兩種空白之間的區別,而不復制和粘貼兩者成文本編輯器?

感謝正則表達式新手謝謝你,由於時區差異,我將無法檢查並確認答案再過12小時。

+0

我在網站上轉換表格數據的2500個字符的逗號分隔的列表。該表還包含約2500個空間。但源代碼是由文字處理器生成的,該文字處理器將表格的文件大小擴大到50,000個字符,其中4000個是空格,而16,000個是XML,這似乎與表格無關。我使用正則表達式來清除膨脹和CSS,只留下數據,因爲我不知道如何使用java或jsoup。 – Commata

回答

0

我想這是一個不可打印的控制字符。我的十六進制編輯器告訴我這是\x20,但這並不是我所掌握的。最好的辦法是使用排除如:

(<span style='mso-tab-count:1'>)[^<]{2,}(<\/span>)

(<span style='mso-tab-count:1'>)\W{2,}(<\/span>)

+0

這正是我所需要的。日* NKS! – Commata