我試圖用knime-labs深度學習插件對knime進行分類。如何使用Knime對文本進行分類

我在我的數據庫中有大約16.000個產品，但是我有大約700個我知道它的類別。

我試圖儘可能使用一些DM（數據挖掘）技術進行分類。我已經下載了一些插件，現在我有一些深度學習工具作爲一些文本工具。

這是我的工作流程，我會用它來解釋我在做什麼：

我改造產品名稱爲載體，不是運用進去。我培訓了DL4J學習者DeepMLP。（我不是很瞭解這一切，這是我認爲我得到最好結果的那個）。比我嘗試在相同的數據集中應用模型。

我想我會得到預測類的結果。但是我得到一個帶有output_activations的列，它看起來有一對雙打。當對這個列進行排序時，我會得到一些相關的日期。但我期待着上課。

下面是結果表格的打印結果，在這裏您可以看到帶有輸入的輸出。

在列選擇它變得只是converted_document和選擇des_categoria作爲標籤列（學習節點配置）。在Predictor節點中，我檢查了「Append SoftMax Predicted Label？」

的nom_produto是，我試圖用它來預測des_categoria列，它的產品類別中的文本列。

我真的很關於DM和DL的新手。如果你能幫我解決一下我想要做的事情會很棒。 PS：我也嘗試將它應用到未分類的數據（17,000個產品）中，但我得到了相同的結果。

2016-12-05 wviana

我不會用這個工作流的回答，因爲它不會是一個簡單的工作流。但是，一定要在KNIME服務器上找到文本挖掘示例，即使用文字包的方法。

任務

產品映射到類別應該是一個直接的數據挖掘的任務，因爲這解釋了目標變量的信息是準窮盡的方式提供。根據要訓練的類別數量，可能需要超過700個實例才能學習。

一些資源

這裏有一些資源，只有第一個是真正專門從事文本挖掘：

首先，你將不得不預處理你的產品標籤了一下。使用KNIME的文本分析預處理節點爲目的，那就是你已經改變了產品標籤後Strings to Document：

Case Convert，Punctuation Erasure和Snowball Stemmer;
您可能不需要Stop Word Filter，但是，可能會有類似「產品」的準停止詞，您可能需要使用Dictionary Filter手動刪除該詞;
要小心不要使用以下任何一項而不先測試它們的影響：N Chars Filter（g可能是一個有用的詞），Number Filter（數字可能指示數量，這可能對分類有用）。

如果您遇到有關節點的任何故障（例如Punctuation Erasure可能會非常棘手驚人的感謝標記生成器），你可以用正則表達式轉換Strings to Document之前總是適用String Manipulation。

你可以根據700個訓練實例建立一個查找表。本書Data mining techniques以及資源（2）詳細介紹了這種方法。如果任何模型執行比查找表更糟糕的情況，則應放棄該模型。

查找表或k-nn應該適合你，那麼沒有別的東西可以添加。

如果其中任何一種方法失敗，您可能需要分析失敗的具體情況。另外，訓練集大小可能太低，因此您可以手動分類另外幾百或幾千個實例。

如果在增加訓練集大小之後，仍然在處理不好的模型，那麼可以使用分類器（請參閱信息檢索參考的第13章）一起嘗試一攬子文字處理方法。這裏沒有空間詳細說明單詞方法和樸素貝葉斯包，但是您會發現上面的資源對此有用。

最後一個註釋。就我個人而言，我發現KNIME的Naive Bayes節點表現不佳，可能是因爲它沒有實現拉普拉斯平滑。但是，KNIME的R Learner和R Predictor節點將允許您使用R的e1071包，如資源（3）所示。

2017-03-15 00:27:35 g3o2