我設置了一個樸素貝葉斯分類器,試圖確定兩個五個字符串屬性記錄之間的相同性。我只準確地比較每對屬性(即,使用java .equals()方法)。我有一些訓練數據,包括TRUE和FALSE情況,但現在我們只關注TRUE情況。應該向「樸素貝葉斯分類器」提供「欺騙性」培訓案例
假設有一些TRUE培訓案例,所有五個屬性都不相同。這意味着每個比較器都會失敗,但是經過一些人類評估後,記錄實際上被確定爲「相同」。
這個訓練案例應該輸入樸素貝葉斯分類器嗎?一方面,考慮到NBC分別處理每個變量的事實,這些情況不應該完全破壞它。然而,當然,喂足夠的這些情況對分類器的表現並不會有好處。我知道,看到很多這樣的情況意味着需要更好的比較器,但我想知道暫時要做什麼。另一個考慮是反面是不可能的;也就是說,兩個記錄之間的所有五個屬性都不可能是相同的,並且它們仍然是「不同的」記錄。
這是一個優惠問題,還是有一個明確的公認的做法來處理這個問題?
在我看來,一個學習算法應該只適用於有能力做出正確區分的情況。如果存在算法無法檢測到的TRUE情況,那麼您應該改進它。如果問題來自人爲輸入,您可以嘗試通過刪除所有特殊字符並將所有字母更改爲大寫或小寫來標準化。您還可以使用更細緻的比較,並嘗試排除常見拼寫錯誤或拼寫錯誤。 –