編輯:我試圖分類新的用戶審查預定義的標記集。每個評論可以有多個與之關聯的標籤。谷歌預測API - 建築分類器培訓數據
我映射我的數據庫用戶評論到15個大類,下面的例子顯示文本,推理映射類
USER_REVIEWS | 類別
「最佳pizza
以往,我們真的很喜歡這個地方,our kids
...」 | 「食物,家庭」
「The ATV tour was extreme
and the nature was beautiful
...」|「 「積極的,家庭」
pizza:food
our kids:family
The ATV tour was extreme:active
nature was beautiful:nature
編輯: 我試過2訓練數據的方法:
第一類包括像這樣在一個文件中的所有類別:
"food","Best pizza ever, we really loved this place, our kids..."
"family","Best pizza ever, we really loved this place, our kids..."
第二種方法是在訓練數據分割到15頁單獨的文件,像這樣:
family_training_data。 CSV:以上的
"true" , "Best pizza ever, we really loved this place, our kids..."
"false" , "The ATV tour was extreme and the nature was beautiful ..."
非是決定性的,而錯過標註大部分的時間。
下面是想出了一些問題,當我嘗試:
- 我的一些評論很長(超過300個字),我應該限制對我的訓練數據文件的話,所以它會匹配平均評論字數(80)?
- 是否最好將數據與15個訓練數據文件分開,其中TRUE/FALSE選項意味着:(是特定類別的評論文本)還是將所有類別混合到一個訓練數據文件中?
- 我如何訓練模型尋找同義詞或相關的關鍵字,因此它可以標記的「
motorbike
騎是偉大的」爲active
雖然訓練數據已經爲ATV
騎
如上所述,Iv'e嘗試了一些方法,沒有任何好的結果。
問題:什麼培訓數據格式會給出最好的結果?
您提出了一系列非常廣泛的問題;我認爲這超出了StackOverflow的應用範圍。就目前而言,我認爲我不能回答這個問題。你想要解決什麼具體問題?什麼構成「好成績」? 「最佳結果」的標準是什麼?爲什麼你要訓練一個模型到一個詞典,當這通常是一個有針對性的任務? – Prune
謝謝你的回覆,我會盡力詳細說明。我試圖解決的問題是將評論分類到預定義的標籤,目前我得到的結果(大多數情況下)沒有定論,或者缺少標籤,好的結果會被標記爲正確的80%時代。由於我不是建立培訓數據的專家,因此我帶着許多不確定性來到這裏。 –
請檢查我的編輯:) –