2016-12-12 21 views
0

我是分析領域的新成員。也許這個問題對你來說很愚蠢。我正在使用R進行審查分類。我必須將評論分爲50個不同的類別。我手動爲模型的培訓目的標記數據。我有點困惑如何標記審查?應該爲訓練集標記句子還是整個評論?

我在這裏做的是,
首先我將單個評論轉換成句子,然後給這些句子一個特定的類別。我在這裏做什麼?

或者我必須給類別標記的審查而不打破句子?如果審查屬於多於一個類別,那麼該怎麼辦?

+0

您需要在訓練之前從文本中生成特徵,現在您生成了哪些特徵? –

+0

我正在使用一袋文字 –

回答

1

每個評論可能有多個標籤。無論您用於分類器的功能如何,都不會影響您的標籤處理。

你的標記評論(培訓或評估)應該是這樣的:

ID  Content     Tags 
review#1, "content of the review#1", Mexican food,spicy 
review#2, "content of the review#2", American food,apple pie,dessert 

其中「墨西哥食物」,「辣」,「蘋果派」,「點心」和「美式食物」都可能的標籤。對於每個評論,您只需提供那些適用的標籤。默認情況下,我們會假設其他標籤不適用。

在培訓時,您應該選擇一個適用於multi-label的分類器。