2
我只是遵循代碼here(對sklearn 0.17稍作修改)。在那個例子中,數據只是列表或numpy數組。現在我想在磁盤上準備一個玩具訓練數據集,並使用datasets.load_files
加載它進行多標籤分類。但是,只需遵循load_files
慣例,然後將同一文件複製到多個文件夾中,就不會爲dataset.target
生成列表(又名。標籤集)。準備一個多標記分類的訓練數據集
那麼準備多標記分類數據集的正確方法是什麼?
謝謝@maxymoo,這是一個很好的觀點。我抓取和存儲多個文件,所以也許我只會使用標籤列表命名每個文檔,不再使用文件夾結構,並編寫一個函數來分析文件名並讀取內容... – treslumen
如果您正在爬網,您可能會想要考慮使用像mongodb或postgres這樣的數據庫,從長遠來看,您可能會爲此感到高興,而不是有大量文件在浮動。你也可以在數據庫上做一些可以方便使用的預處理。 – maxymoo