酷..偉大的開始!
在你跳轉到執行之前,我會建議請做一些基本的學習。
無論如何,這裏是你的問題的答案。 !
特徵工程:顧名思義,在您的數據中有些東西可能會降低模型的準確性。像小字符,大寫字母,數字,特殊字符,行尾等特殊字符混合在一起,等特性工程給出更高的精度!但是又需要一切取決於你有什麼類型的數據!
語言成矢量:任何類型的語言,最後它是文本(在這裏你的情況)。我們可以給字或字符的矢量表示。這個向量表示可以通過一個熱矢量或使用預先構建的方法(如word2vec或手套)來獲取。
一個熱點矢量: - 假設你的訓練數據集有100個單詞。然後爲每個單詞創建k維向量。其中k是單詞的總數。由他們的角色位置來表示。並根據排序及其二氧順序創建矢量與保持爲0
ex: [1 0 0 0 0 ....] - word1
[0 1 0 0 0 ....] - word2
[0 0 0 0 0 ...1] - word100
非Word功能的索引位置1和休息:遵循相同的規則來字的功能 客戶端產品名稱: - 創建一個熱載體,因爲它們通常不用於文本。他們在現實生活中沒有意義。
如何選擇NN: - 這取決於你想達到什麼。神經網絡可用於許多目的。
沒有足夠的數據: - 它再次取決於您的數據。 !如果你的數據有更常見的模式,並且未來的數據也會出現這些模式!那麼使用NN仍然可以。否則我不建議使用NN。
祝您好運!
您可以在此處提問您的問題以獲取更多答案:http://stats.stackexchange.com/。 你需要做自然語言處理(NLP),網上有很多例子。嘗試使用谷歌搜索'NLP特徵提取'。 祝你好運! – Hugo