應該爲訓練集標記句子還是整個評論？

我是分析領域的新成員。也許這個問題對你來說很愚蠢。我正在使用R進行審查分類。我必須將評論分爲50個不同的類別。我手動爲模型的培訓目的標記數據。我有點困惑如何標記審查？應該爲訓練集標記句子還是整個評論？

我在這裏做的是，
首先我將單個評論轉換成句子，然後給這些句子一個特定的類別。我在這裏做什麼？

或者我必須給類別標記的審查而不打破句子？如果審查屬於多於一個類別，那麼該怎麼辦？

您需要在訓練之前從文本中生成特徵，現在您生成了哪些特徵？ –

我正在使用一袋文字 –

每個評論可能有多個標籤。無論您用於分類器的功能如何，都不會影響您的標籤處理。

你的標記評論（培訓或評估）應該是這樣的：

ID  Content     Tags 
review#1, "content of the review#1", Mexican food,spicy 
review#2, "content of the review#2", American food,apple pie,dessert

其中「墨西哥食物」，「辣」，「蘋果派」，「點心」和「美式食物」都可能的標籤。對於每個評論，您只需提供那些適用的標籤。默認情況下，我們會假設其他標籤不適用。

在培訓時，您應該選擇一個適用於multi-label的分類器。

2016-12-14 01:35:26 greeness

回答