2011-05-17 99 views
0

任何人都可以幫助選擇算法。相關性百分比(搜索字符串在源字符串中更「左」)

比較兩個字符串並給出一個相關性百分比(如果更多的發現,更多的排名)。 也許合併兩種算法 例如: 尋找"chocolate white quills" 我們有記錄

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] 
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] 
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16/120 CT] 

其結果必然是這樣的:

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1 
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2 
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16/120 CT] | 0,4 

像你可以看到它是不強的比較,必須使用 我現在使用JaroWinkler 現在結果是這樣的

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,3775 
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,3769 
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16/120 CT] | 0,3728 

回答

0

對於任何文本排序,您需要明確您要測量的內容。在你的例子中

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1 
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2 
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16/120 CT] | 0,4 

爲什麼第一項排名低於第二項?我理解爲什麼最下面的評分最高,因爲它包含了字符串中沒有中間字符串的所有項目。提供一些更多細節,我們會盡力提供幫助。

+0

我一直在尋找短語「巧克力白羽毛球」 它的第一行中它創建「更多左側」行 在最後一個字符串搜索字符串中創建的行中。這就是爲什麼我需要這種排序。 如果我在行中發現我的搜索字符串「更靠左」。我必須在「頂部」顯示這一行,其他一定要低一些 – Katya 2011-05-19 07:15:45