2017-05-29 70 views
0

我正在嘗試解決以下問題。 給定一個特定的代碼片段,我需要回饋代碼片段的頂級評論評論,這裏我們想給出所有給予類似代碼片段的評論。如何測量用編程語言編寫的代碼片段之間的相似度

我試圖將它形成爲一個機器學習問題。我認爲我們可以使用KNN算法,但在這裏我不確定應該如何度量兩個代碼片段之間的相似度?它是否有任何預先存在的相似性度量?我試着在谷歌搜索,但沒有發現任何有用的鏈接

請幫助包含認爲評論可能是相似的有效手段兩個字符串之間

+0

您是否試過[FAISS](https://github.com/facebookresearch/faiss)或[nmslib](https://github.com/searchivarius/nmslib)庫? – fzk

回答

0

編輯距離。 n-gram 餘弦距離可能是有用的,也就是說,您可以提取n-gram(例如3個字符段),構建向量來計算這些n-gram並計算餘弦距離。

另一個將是Jaccard相似度(如上)。

相關問題