因此,我有一個文檔語料庫,我需要找到所有文檔中所有大寫字母(即該字中的每個字符都是大寫字母)的所有單詞在R.我不知道如何找到。我已經看過R中的文本挖掘'tm'包,並且沒有可以找到這種功能的函數。如何找到R中所有的大寫單詞
輸入字符串:"Russia Is THE BiggEST cOUNTRY"
輸出要求:"THE"
如何做到這一點使用 「TM」 包?
因此,我有一個文檔語料庫,我需要找到所有文檔中所有大寫字母(即該字中的每個字符都是大寫字母)的所有單詞在R.我不知道如何找到。我已經看過R中的文本挖掘'tm'包,並且沒有可以找到這種功能的函數。如何找到R中所有的大寫單詞
輸入字符串:"Russia Is THE BiggEST cOUNTRY"
輸出要求:"THE"
如何做到這一點使用 「TM」 包?
嘗試使用正則表達式。
sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"
您可以使用gregexpr和regmatches:
unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"
abc <- "Russia Is THE BiggEST cOUNTRY"
隨着stringr(如果你想找到帽所有這些單詞(載體)不只是第一個):
s = "Russia Is THE BiggEST cOUNTRY IN the WORLD"
library(stringr)
unlist(str_match_all(s, "\\b[A-Z]+\\b"))
[1] "THE" "IN" "WORLD"
這隻會找到一個工作d,例如用'string < - 「來試試俄羅斯是BiggEST COUNTRY」' – Cath