深入學習chatbot培訓

我們正在努力爲客戶服務創建一個智能聊天機器人。我們有一個客戶服務問題和答案的語料庫，每個會話都有標記的意圖。我們正在探索使用深度學習來訓練我們的模型，但我們遇到以下幾個問題：深入學習chatbot培訓

1 - 如何使用特徵工程來訓練文本數據的模型。具體來說，你如何將語言轉化爲矢量？
2 - 如何使用用作意圖識別深度學習分類器輸入的非單詞特徵？你如何適應例如客戶產品名稱？ 3 - 如何選擇具有文本輸入的Deep Learning的神經網絡架構？ 4 - 如何處理我們沒有足夠數據的情況？使用貝葉斯技術？

來源

2017-02-14 m0100434

您可以在此處提問您的問題以獲取更多答案：http：//stats.stackexchange.com/。你需要做自然語言處理（NLP），網上有很多例子。嘗試使用谷歌搜索'NLP特徵提取'。祝你好運！ – Hugo

酷..偉大的開始！

在你跳轉到執行之前，我會建議請做一些基本的學習。

無論如何，這裏是你的問題的答案。！

特徵工程：顧名思義，在您的數據中有些東西可能會降低模型的準確性。像小字符，大寫字母，數字，特殊字符，行尾等特殊字符混合在一起，等特性工程給出更高的精度！但是又需要一切取決於你有什麼類型的數據！

語言成矢量：任何類型的語言，最後它是文本（在這裏你的情況）。我們可以給字或字符的矢量表示。這個向量表示可以通過一個熱矢量或使用預先構建的方法（如word2vec或手套）來獲取。

一個熱點矢量： - 假設你的訓練數據集有100個單詞。然後爲每個單詞創建k維向量。其中k是單詞的總數。由他們的角色位置來表示。並根據排序及其二氧順序創建矢量與保持爲0

ex: [1 0 0 0 0 ....] - word1 
    [0 1 0 0 0 ....] - word2 
    [0 0 0 0 0 ...1] - word100

非Word功能的索引位置1和休息：遵循相同的規則來字的功能客戶端產品名稱： - 創建一個熱載體，因爲它們通常不用於文本。他們在現實生活中沒有意義。

如何選擇NN： - 這取決於你想達到什麼。神經網絡可用於許多目的。

沒有足夠的數據： - 它再次取決於您的數據。！如果你的數據有更常見的模式，並且未來的數據也會出現這些模式！那麼使用NN仍然可以。否則我不建議使用NN。

祝您好運！

來源

2017-07-10 10:06:46

深入學習chatbot培訓

回答

相關問題