因此，我有一個文檔語料庫，我需要找到所有文檔中所有大寫字母（即該字中的每個字符都是大寫字母）的所有單詞在R.我不知道如何找到。我已經看過R中的文本挖掘'tm'包，並且沒有可以找到這種功能的函數。如何找到R中所有的大寫單詞

輸入字符串："Russia Is THE BiggEST cOUNTRY"

輸出要求："THE"

如何做到這一點使用「TM」包？

2016-09-14 J. Tang

嘗試使用正則表達式。

sub('.*(\\b[A-Z]+\\b).*','\\1',string) 
#[1] "THE"

2016-09-14 12:08:43

這隻會找到一個工作d，例如用'string < - 「來試試俄羅斯是BiggEST COUNTRY」' – Cath

您可以使用gregexpr和regmatches：

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc))) 
[1] "THE"

數據

abc <- "Russia Is THE BiggEST cOUNTRY"

2016-09-14 12:19:55

隨着stringr（如果你想找到帽所有這些單詞（載體）不只是第一個）：

s = "Russia Is THE BiggEST cOUNTRY IN the WORLD" 
library(stringr) 
unlist(str_match_all(s, "\\b[A-Z]+\\b")) 
[1] "THE" "IN" "WORLD"

2016-09-14 12:27:37

如何找到R中所有的大寫單詞