您只是在考慮孤立的單個屬性,例如電影類型,並且您已經定義了特徵提取等功能,它需要一個文件作爲輸入,並返回一個字典/ FEATURESET,看起來像{「類型」:「科幻」}。每個文件可能屬於一個或多個類別箱。如何在Python中表示類標籤,用於在NLTK中訓練具有非二進制特徵值的多標籤分類器?
語境問題可以在這裏找到第6.1節:http://nltk.org/book/ch06.html
你會如何表現的實例和相應的類標籤的列表中進行訓練與非二進制特徵值?
理想地,Python實現也將很容易地在模型規格(如XML的DTD)表示這樣以後添加額外的屬性,發現它們之間的依賴關係將是一個簡單的任務。
我不知所措。你在問關於文件的特徵表示嗎?還是你不確定適當的Python數據結構? – 2013-04-29 19:34:14
我不確定適當的Python數據結構在選擇和提取後表示要素。 – Sean 2013-04-29 19:37:55
@SeanBethard:一個事物列表通常用一個列表來表示。簡單值與字典之間的映射。你做的所有其他課程。 – 2013-04-29 19:43:48