2016-04-28 72 views
0

我試圖將非標準醫療診斷描述與ICD10參考表描述相匹配以獲得ICD10代碼。這將是模糊匹配。例如,與參考表模糊匹配

我想匹配「瞬時缺血性發作」到「暫時性腦缺血發作,未指明」(ICD10代碼G45.9)。或「不可避免的噁心,嘔吐」改爲「噁心嘔吐,未說明」(ICD10代碼R11.2)。

什麼是做這種類型的模糊匹配的最佳方式,使用R或Python?

我查看了R中的stringdist包,以獲得各種'字符串距離'度量,並取得了不同的成功。我也在考慮使用bag-of-word技術,但在我的情況下使用它時我不知道如何使用它。因爲我比文字文件比較小字符串。

謝謝

+0

這個問題的答案是否有幫助? http://stackoverflow.com/questions/36921346/r-which-rows-have-longest-partial-string-match-between-two-vectors – Zelazny7

+0

你能舉一個你想要實現的例子嗎?我不確定你有多少列以及你想要什麼結果。 –

回答

0

我發現fuzzywuzzy搜索fuzzy match Python。我沒有使用它的經驗,但它似乎可能會這樣做。

「像老闆模糊字符串匹配。它使用的Levenshtein距離,以幫助計算在一個簡單的序列之間的差異使用包」。

fuzzywuzzy on github

你的問題是類似this one,其中有答案,可能是有關您的問題。具體來說,評分匹配有多強的概念將會很有用。

這裏也一個標籤上的計算器(fuzzy-comparison)可能會產生更多的線索。