2

我一直在尋找使用AWS機器學習來爲我的項目實施分類程序。我有大約40,000個文件的訂單,這些文件有幾個純文本功能。例如:名稱(< 200個字符)和說明(潛在的數百/數千字)。使用AWS機器學習的文本文檔分類

簡而言之,我期待根據內容爲每個文檔分配類別(0或更多)。

我已閱讀AWS ML教程並查看了一些其他來源,但可用材料似乎處理數字,布爾值,日期時間或其他非文本的要素字段。

AWS Machine Learning是否能夠對基於文本字段(或可能僅用於)文本字段的文檔執行多類別分類?如果是這樣,是否有任何參考資料可用於這個特定的途徑?

回答

-1

主要不需要「文本字段」,首先必須從語料庫(文本)中創建矢量空間模型(VTM),而不是使用tf-idf來加載VTM,並且可以使用數字字段。

您確定要使用AWS ML來訓練只有40.000文檔的語料庫嗎?