2

編輯:我試圖分類新的用戶審查預定義的標記集。每個評論可以有多個與之關聯的標籤。谷歌預測API - 建築分類器培訓數據

我映射我的數據庫用戶評論到15個大類,下面的例子顯示文本,推理映射類


USER_REVIEWS | 類別
「最佳pizza以往,我們真的很喜歡這個地方,our kids ...」 | 「食物,家庭」
The ATV tour was extreme and the nature was beautiful ...」|「 「積極的,家庭」

pizza:food
our kids:family
The ATV tour was extreme:active
nature was beautiful:nature


編輯: 我試過2訓練數據的方法:

第一類包括像這樣在一個文件中的所有類別:

"food","Best pizza ever, we really loved this place, our kids..." 
"family","Best pizza ever, we really loved this place, our kids..." 

第二種方法是在訓練數據分割到15頁單獨的文件,像這樣:

family_training_data。 CSV:以上的

"true" , "Best pizza ever, we really loved this place, our kids..." 
"false" , "The ATV tour was extreme and the nature was beautiful ..." 

非是決定性的,而錯過標註大部分的時間。


下面是想出了一些問題,當我嘗試:

  1. 我的一些評論很長(超過300個字),我應該限制對我的訓練數據文件的話,所以它會匹配平均評論字數(80)?
  2. 是否最好將數據與15個訓練數據文件分開,其中TRUE/FALSE選項意味着:(是特定類別的評論文本)還是將所有類別混合到一個訓練數據文件中?
  3. 我如何訓練模型尋找同義詞或相關的關鍵字,因此它可以標記的「motorbike騎是偉大的」爲active雖然訓練數據已經爲ATV
紀錄

如上所述,Iv'e嘗試了一些方法,沒有任何好的結果。
問題:什麼培訓數據格式會給出最好的結果?

+0

您提出了一系列非常廣泛的問題;我認爲這超出了StackOverflow的應用範圍。就目前而言,我認爲我不能回答這個問題。你想要解決什麼具體問題?什麼構成「好成績」? 「最佳結果」的標準是什麼?爲什麼你要訓練一個模型到一個詞典,當這通常是一個有針對性的任務? – Prune

+0

謝謝你的回覆,我會盡力詳細說明。我試圖解決的問題是將評論分類到預定義的標籤,目前我得到的結果(大多數情況下)沒有定論,或者缺少標籤,好的結果會被標記爲正確的80%時代。由於我不是建立培訓數據的專家,因此我帶着許多不確定性來到這裏。 –

+0

請檢查我的編輯:) –

回答

1

面臨類似問題後,這裏是我關於你的問題的見解:

  1. 根據沃森自然語言分類documentation最好是限制輸入文字少於60個字的長度,所以我想利用你的平均80分的話會產生更好的效果
  2. 你可以去任何一種方式,但單獨的文件會產生更明確的結果
  3. 創建AA代名詞圖,所建議的將是一個良好的開端,沃森旨在回答更復雜的認知方案。

沃森指導其他一些幫助提示:

  • 限制輸入文本的長度少於60個字。
  • 將班級數量限制爲幾百個班級。支持更大的 數量的類可能會包含在服務的更高版本中。
  • 當每個文字記錄只有一個班級時,請確保每個班級都是 與至少5 - 10條記錄相匹配,以提供足夠的 該班級的培訓。
  • 可能很難決定是否包含多個 類的文本。驅動多個類的兩個常見原因:
    • 當文本模糊時,標識單個類並不總是清晰的。
    • 當專家以不同的方式解讀文本時,多個類 支持這些解釋。
  • 但是,如果你的訓練許多文本 數據包括多個類,或者一些文本有三個以上的 類,你可能需要調整的類。例如,查看 這些類是否是分層的。如果它們是分層的,則 包括葉節點作爲類。
2

我將從我可以用給定信息回答的部分開始。也許我們可以從那裏改進你的問題。

問題3:無法訓練模型來識別沒有支持上下文的新詞彙單詞。這不僅僅是「摩托車」不在訓練集中,而且「騎乘」也不在訓練集中,並且評論中的其他詞語與運輸無關。您尋求的認知信息根本不在您提供的數據中。

問題2:這取決於你正在考慮的訓練方法。您可以將每個標記作爲具有真/假值的單獨特徵列。這在功能上等同於15個單獨的數據文件,每個文件都有一個真/假值。單文件方法爲您稍後擴展到類別之間的某種上下文支持提供了機會。

問題1:長度本身並不特別相關,除了剪掉非生產性詞語有助於集中訓練 - 你不會從偶然相關性中獲得幾乎虛假的分類。你有辦法以編程方式縮小大小嗎?你可以將它應用於你想要分類的新輸入嗎?如果不是,那麼我不確定這是否值得。


開放性問題

你有什麼經驗證據表明,80%的準確率可能與給定的數據?如果訓練數據不包含準確標記數據所需的理論信息,那麼您就沒有機會獲得所需的模型。

您選擇的應用程序是否有足夠的智能將評論分解爲單詞?是否有任何語序或語義的認識 - 你需要嗎?

+0

我沒有證據顯示80%是可能的,這只是我的目標,我正在尋找鍊金術(http://www.alchemyapi.com/products/demo/alchemylanguage),特別是在靈感分類部分。將認知信息添加到我的訓練數據的正確方法是什麼? –

+0

沒有*一個*適當的方式;它取決於您想要添加的認知信息以及您正在構建的系統的設計。感謝鍊金術鏈接;這是一個可愛的,複雜的系統。意識到這是一個複雜的發佈產品的展示片。偉大的靈感,但一個大項目。 – Prune

+0

我承認我覺得這個討論是錯誤的(不屬於SO)並且缺乏重點。我的問題是,我不知道你想要什麼作爲你發佈的結果。你已經提出了幾個特定於實現的問題,但是當我詢問關於這個系統的更高層次的概念時,我得到了另一個問題,而不是一個確切的答案。那麼......這個項目在什麼階段?該項目的目標是什麼?您的可用資源和時間表有哪些?你有什麼樣的目標,目標,要求和規格?這有助於我提供有用的反饋。 – Prune