2016-03-03 76 views
-1

我的詞彙數據是這樣的:詞彙組匹配文本

C# 
C++ 
Windows 7 
Windows Azure 
Programming 
Programming C 

我想它們分成多個大類。是否有任何選項可以將軟件工程術語匹配到R中更抽象的組?

實施例的地方:

C++ 
C# 
Programming C 

他們列表至C

與窗口一樣。

回答

0

這裏有一個方法使用一些GitHub包我維護...但你需要調整它是更普遍的。

dat <- readLines(n = 6) 
C# 
C++ 
Windows 7 
Windows Azure 
Programming 
Programming C 

if (!require("pacman")) install.packages("pacman") 
pacman::p_load_gh(
    "trinker/textshape", 
    "trinker/gofastr", 
    "trinker/termco",  
    "trinker/hclustext" 
) 

ds <- data_store(gsub("[^[:alpha:] ]", " ", dat), stopwords = c("programming", "program")) 
myfit <- hierarchical_cluster(ds) 
plot(myfit, 2) 
ca <- assign_cluster(myfit, k = 2) 

split(dat[as.numeric(names(ca))], ca) 

## $`1` 
## [1] "C#"   "C++"   "Programming C" 
## 
## $`2` 
## [1] "Windows 7"  "Windows Azure"