我有這樣一個類似的列表:類別中的一個熱編碼
list = ['Opinion, Journal, Editorial',
'Opinion, Magazine, Evidence-based',
'Evidence-based']
其中逗號類別例如之間分割。意見和期刊是兩個不同的類別。真正的名單要大得多,並且有更多可能的類別。我想使用單熱編碼來轉換列表,以便它可以用於機器學習。例如,從該列表中我想以產生含有像數據的稀疏矩陣:
list = [[1, 1, 1, 0, 0],
[1, 0, 0, 0, 1],
[0, 0, 0, 0, 1]]
理想情況下,我想用scikit-learn's one hot encoder作爲我相信這將是最有效的。
響應於@nbrayns評論:
的想法是從文本轉換類別的列表給矢量wherby如果它屬於該類別將被分配1,否則爲0。對於上面的例子,該標題將是:
headings = ['Opinion', 'Journal', 'Editorial', 'Magazine', 'Evidence-based']
什麼值應該是1,什麼應該是0? – nbryans
@nbryans編輯了這個問題。 – user7347576