與參考表模糊匹配

我試圖將非標準醫療診斷描述與ICD10參考表描述相匹配以獲得ICD10代碼。這將是模糊匹配。例如，與參考表模糊匹配

我想匹配「瞬時缺血性發作」到「暫時性腦缺血發作，未指明」（ICD10代碼G45.9）。或「不可避免的噁心，嘔吐」改爲「噁心嘔吐，未說明」（ICD10代碼R11.2）。

什麼是做這種類型的模糊匹配的最佳方式，使用R或Python？

我查看了R中的stringdist包，以獲得各種'字符串距離'度量，並取得了不同的成功。我也在考慮使用bag-of-word技術，但在我的情況下使用它時我不知道如何使用它。因爲我比文字文件比較小字符串。

謝謝

2016-04-28 san134

這個問題的答案是否有幫助？ http://stackoverflow.com/questions/36921346/r-which-rows-have-longest-partial-string-match-between-two-vectors – Zelazny7

你能舉一個你想要實現的例子嗎？我不確定你有多少列以及你想要什麼結果。 –

我發現fuzzywuzzy搜索fuzzy match Python。我沒有使用它的經驗，但它似乎可能會這樣做。

「像老闆模糊字符串匹配。它使用的Levenshtein距離，以幫助計算在一個簡單的序列之間的差異使用包」。

你的問題是類似this one，其中有答案，可能是有關您的問題。具體來說，評分匹配有多強的概念將會很有用。

這裏也一個標籤上的計算器（fuzzy-comparison）可能會產生更多的線索。

2016-04-28 18:18:33

回答