2017-02-14 128 views
1

我們正在努力爲客戶服務創建一個智能聊天機器人。我們有一個客戶服務問題和答案的語料庫,每個會話都有標記的意圖。我們正在探索使用深度學習來訓練我們的模型,但我們遇到以下幾個問題:深入學習chatbot培訓

1 - 如何使用特徵工程來訓練文本數據的模型。具體來說,你如何將語言轉化爲矢量?
2 - 如何使用用作意圖識別深度學習分類器輸入的非單詞特徵?你如何適應例如客戶產品名稱? 3 - 如何選擇具有文本輸入的Deep Learning的神經網絡架構? 4 - 如何處理我們沒有足夠數據的情況?使用貝葉斯技術?

+0

您可以在此處提問您的問題以獲取更多答案:http://stats.stackexchange.com/。 你需要做自然語言處理(NLP),網上有很多例子。嘗試使用谷歌搜索'NLP特徵提取'。 祝你好運! – Hugo

回答

0

酷..偉大的開始!

在你跳轉到執行之前,我會建議請做一些基本的學習。

無論如何,這裏是你的問題的答案。 !

特徵工程:顧名思義,在您的數據中有些東西可能會降低模型的準確性。像小字符,大寫字母,數字,特殊字符,行尾等特殊字符混合在一起,等特性工程給出更高的精度!但是又需要一切取決於你有什麼類型的數據!

語言成矢量:任何類型的語言,最後它是文本(在這裏你的情況)。我們可以給字或字符的矢量表示。這個向量表示可以通過一個熱矢量或使用預先構建的方法(如word2vec或手套)來獲取。

一個熱點矢量: - 假設你的訓練數據集有100個單詞。然後爲每個單詞創建k維向量。其中k是單詞的總數。由他們的角色位置來表示。並根據排序及其二氧順序創建矢量與保持爲0

ex: [1 0 0 0 0 ....] - word1 
    [0 1 0 0 0 ....] - word2 
    [0 0 0 0 0 ...1] - word100 

非Word功能的索引位置1和休息:遵循相同的規則來字的功能 客戶端產品名稱: - 創建一個熱載體,因爲它們通常不用於文本。他們在現實生活中沒有意義。

如何選擇NN: - 這取決於你想達到什麼。神經網絡可用於許多目的。

沒有足夠的數據: - 它再次取決於您的數據。 !如果你的數據有更常見的模式,並且未來的數據也會出現這些模式!那麼使用NN仍然可以。否則我不建議使用NN。

祝您好運!