2013-04-26 58 views
0

我剛開始與nltk,我正在跟蹤這本書。第六章是關於文本分類,我對某些東西有點困惑。在例子(名稱和電影評論)中,分類器被訓練爲在兩個明確定義的標籤(男女之間和pos-neg)之間進行選擇。但如果你只有一個標籤,如何訓練。列車nltk分類器只有一個標籤

假設我有一堆電影劇情輪廓,而我只對從科幻類型中釣出電影感興趣。我可以訓練一個分類器只識別科幻地塊,如f.i.如果分類置信度> 80%,則將其置於科幻小組中,否則,忽略它。

希望有人能澄清,謝謝你,

+0

您通常應該在> .5而不是.8分類爲正值。 – 2013-04-26 08:29:58

回答

0

你可以簡單地訓練二元分類科幻不是科幻區分

對電影情節是如此訓練標記爲科幻以及所有其他類型的選擇。例如,爲其他流派設置具有相同大小的代表性樣本可能是個好主意,例如,不是所有的都是浪漫喜劇類型類型。

+0

我明白了。實際上比我想象的更加明顯,謝謝。 – devboell 2013-04-26 08:02:31

0

我看到兩個問題

  1. 如何培養體系?
  2. 系統可以包含「科幻」和「其他」嗎?

2的答案是肯定的。擁有80%置信度閾值的想法也是有道理的,只要你看到你的數據,特徵和算法80%是一個很好的門檻。 (如果不是,如果不是所有的科幻電影都被歸類爲科幻電影,或者降低它,如果太多的非科幻電影被歸類爲科幻電影,您可能會考慮降低它。)

1的答案取決於你所擁有的數據,你可以提取的功能等.Jared的方法似乎是合理的。像Jared一樣,我也要強調足夠的和有代表性的數據的重要性。

+0

P.S.順便提一句,請注意他們將「男性」和「女性」稱爲兩個標籤。 「Pos」和「Neg」是另外兩個標籤,所以我們總共討論了四個標籤/類/類別! – arturomp 2013-04-26 07:50:54

+0

謝謝amp,我接受Jared的答案只是因爲他早一點,但你的答案都是有道理的。雖然我不明白你的P.S.,因爲在本書中它們被視爲單獨的例子。 – devboell 2013-04-26 08:02:06

+0

不用擔心!起初,我讀了你的問題,就好像所有的標籤都是在一個例子中一樣,在這種情況下,我們會談論四個標籤。隨着你的澄清,說有兩個標籤是有道理的。 – arturomp 2013-04-26 15:06:15