我想將句子拆分成單詞和結束標記(假設所有其他標點已被刪除)。我寫了一個工作職能分開描述,打破字符串(一個或多個),但我認爲部分:將句子分成單詞和結尾
unlist(c(strsplit(x, "[^[:alnum:]'\"]", perl = T), substring(x, nchar(x), nchar(x))))
的是,可以在不使用字符串,只是分裂的空間之間的更好地實現一粒粒工作使用an或|結束標記各種聲明,但不知道我會如何實現這一點。任何方向與此將不勝感激。
breaker <- function(string) {
FUN <- function(x) {
unlist(c(strsplit(x, "[^[:alnum:]'\"]", perl = T), substring(x,
nchar(x), nchar(x))))
}
lapply(string, FUN)
}
#EXAMPLES
x <- "I'm liking it!"
breaker(x)
y <- c("I'm liking it!", "How much do you like it?", "I'd say it's awesome.")
breaker(y)
更多使用scan_tokenizer()和MC_tokenizer()雄辯。謝謝喬希。這也增加了我對正則表達式的理解。我感謝你的時間。 – 2012-01-10 19:27:38