2012-04-18 49 views
0

我有一個相當大的類別表與1500個類別(一些單數其他包含多個單詞),我正在尋找最佳方式來匹配新產品的這些類別的標題。類別匹配 - 正則表達式與全文搜索

我一直在尋找使用正則表達式和循環遍歷關鍵詞的產品描述,但是當試圖一次添加超過1000個產品時,這不會非常有效,我也一直在尋找全文搜索(FREETEXT和包含),但自由文本搜索似乎帶來了大量的結果,因爲它匹配產品說明中的任何和所有單詞。

有沒有人在嘗試通過其描述來自動化產品的類別方面做過類似的事情,並且可以提供一些建議或指導?

回答

1

所以我明白這個問題是,給出一個描述告訴我這個描述適用於什麼類別?

做這種工作的一種常見方法是建立一個Naive Bayesian Classification進程,並將所有的描述都放在這裏。

這樣的分類通常發生在兩個階段。

階段1:已知描述/類別對用於「訓練」分類器。階段2:一旦分類器被訓練完畢,您就可以給它未知的數據,然後它將返回描述符合給定類別的概率。

這種方法的分類通常是相當準確的,但由於我們正在處理的統計數據,錯誤通常都爬在

+0

謝謝,我會樸素貝葉斯分類讀了 – user1186144 2012-04-18 16:08:09