我想擦除不是字母,數字或空格之一的字符。我試過[:punct:]
,但它擦除了波蘭語字母。如何將多個正則表達式放入gsub?
鑑於textToClean <- "polish letters: ł Ł; ż Ż ź Ź ą Ą ę Ę ó Ó ń Ń ć Ć 43434 ; ; ;!"
我想作爲輸出: polish letters ł Ł ż Ż ź Ź ą Ą ę Ę ó Ó ń Ń ć Ć 43434
我嘗試這樣做:
textToClean <- "polish letters: ł Ł; ż Ż ą Ą ę Ę ó Ó 43434 ; ; ;!"
gsub("(\\D)(\\S)(\\W)", "", textToClean) # doesn't work properly!
這:
textToClean <- "polish letters: ł Ł; ż Ż ą Ą ę Ę ó Ó 43434 ; ; ;!"
gsub("\\D+\\S+\\W", "", textToClean) # doesn't work properly!
,但它是不好的。
嘗試'「(\\ D + | \\ S + | \\ W)」'。你可以使用'|'在正則表達式中表示匹配這個_or_。 – Benjamin
不起作用。它現在返回空字符串。 –
要使用'[:punct:]'它需要在一個字符類中,即'gsub(「[[:punct:]]」,「」,textToClean)' – James