比賽接近相似字/詞

python
r

2017-06-04 129 views 0 likes

我有以下的數據框與列的X和Y，比賽接近相似字/詞

X         Y 
1 SAN DIEGO       FOND DU LAC 
2 THE RIO GRANDE      RIO GRANDE 
3 RIO GRANDE       RIO GRANDE 
4 WEST TENNESSEE      TENNESSEE 
5 EP De SAN JOAQUIN     De SAN JOAQUIN 
6 SOUTHERN VIRGINIA     VIRGINIA 
7 SOUTHERN VIRGINIA     SOUTHWESTERN VIRGINIA 
8 EN COLOMBIA       COLOMBIA 
9 THE EP De NORTHERN CALIFORNIA  De NORTHERN CALIFORNIA 
10 FLORIDA        NEW JERSY

我想不匹配的行，1〜10行2-9匹配或接近的比賽，並都還好。我的預期數據幀是

X         Y 
1 SAN DIEGO       FOND DU LAC 
10 FLORIDA        NEW JERSY

來源

2017-06-04 Philip Munyua

回答

在R我們通過在每列中的空間分割字符串，檢查是否存在單詞之間任何intersect，找到list的lengths和子集的數據集，其中長度爲0

df1[!lengths(Map(intersect, strsplit(df1$X, "\\s+"), strsplit(df1$Y, "\\s+"))),] 
#   X   Y 
#1 SAN DIEGO FOND DU LAC 
#10 FLORIDA NEW JERSY

而是由每列分裂，我們也可以遍歷列，做split

df1[!lengths(do.call(Map, c(intersect, unname(lapply(df1, strsplit, split="\\s+"))))),] 
#  X   Y 
#1 SAN DIEGO FOND DU LAC 
#10 FLORIDA NEW JERSY

或者另一種選擇是stringdist

library(stringdist) 
i1 <- with(df1, stringdist(X, Y, method = "qgram")) 
df1[i1 %in% tail(sort(i1), 2),] 
#   X   Y 
#1 SAN DIEGO FOND DU LAC 
#10 FLORIDA NEW JERSY

來源

2017-06-04 05:34:17 akrun

相關問題

1. 比賽最接近值對
2. 值與最近的比賽
3. Python詞組相似度比較
4. 類似Netflix的比賽
5. 比賽比賽
6. mysql中的詞相似性/相似性
7. 需要幫助創建比賽接近「龐」（Pygame）
8. 查詢近似相等
9. 的Javascript比賽（）和無效的量詞
10. Solr模糊搜索近似詞
11. Lucene近似搜索中詞的順序
12. C＃比較相似的字符串
13. Python字符串比較相似性
14. Eratosthenes的篩接近複雜性近似
15. 字符串比較接近Java中
16. 將Unicode字符轉換爲ASCII（.NET）中最接近的（最相似的）字符
17. Elasticsearch單詞相似性
18. 匹配的詞很接近
19. 詞在DB - 通過詞彙字典（語義相似）
20. 比賽
21. 近似字符串匹配
22. MySQL的 - 加入比賽和非比賽
23. 紅寶石比較兩個字符串的相似百分比
24. 近似匹配（all.equal的模擬相同）？
25. 是否直接在同義詞之間存在相似度？
26. 斯卡拉連接四場比賽
27. 的Javascript比賽
28. AWK +在比賽
29. 比賽SQL列
30. 與比賽