谷歌預測API - 建築分類器培訓數據

編輯：我試圖分類新的用戶審查預定義的標記集。每個評論可以有多個與之關聯的標籤。谷歌預測API - 建築分類器培訓數據

我映射我的數據庫用戶評論到15個大類，下面的例子顯示文本，推理映射類

USER_REVIEWS | 類別
「最佳pizza以往，我們真的很喜歡這個地方，our kids ...」 | 「食物，家庭」
「The ATV tour was extreme and the nature was beautiful ...」|「「積極的，家庭」

pizza:food
our kids:family
The ATV tour was extreme:active
nature was beautiful:nature

編輯： 我試過2訓練數據的方法：

第一類包括像這樣在一個文件中的所有類別：

"food","Best pizza ever, we really loved this place, our kids..." 
"family","Best pizza ever, we really loved this place, our kids..."

第二種方法是在訓練數據分割到15頁單獨的文件，像這樣：

family_training_data。 CSV：以上的

"true" , "Best pizza ever, we really loved this place, our kids..." 
"false" , "The ATV tour was extreme and the nature was beautiful ..."

非是決定性的，而錯過標註大部分的時間。

下面是想出了一些問題，當我嘗試：

我的一些評論很長（超過300個字），我應該限制對我的訓練數據文件的話，所以它會匹配平均評論字數（80）？
是否最好將數據與15個訓練數據文件分開，其中TRUE/FALSE選項意味着:(是特定類別的評論文本）還是將所有類別混合到一個訓練數據文件中？
我如何訓練模型尋找同義詞或相關的關鍵字，因此它可以標記的「motorbike騎是偉大的」爲active雖然訓練數據已經爲ATV騎

紀錄

如上所述，Iv'e嘗試了一些方法，沒有任何好的結果。
問題：什麼培訓數據格式會給出最好的結果？

來源

2015-10-14 Shlomi Schwartz

您提出了一系列非常廣泛的問題;我認爲這超出了StackOverflow的應用範圍。就目前而言，我認爲我不能回答這個問題。你想要解決什麼具體問題？什麼構成「好成績」？「最佳結果」的標準是什麼？爲什麼你要訓練一個模型到一個詞典，當這通常是一個有針對性的任務？ – Prune

謝謝你的回覆，我會盡力詳細說明。我試圖解決的問題是將評論分類到預定義的標籤，目前我得到的結果（大多數情況下）沒有定論，或者缺少標籤，好的結果會被標記爲正確的80％時代。由於我不是建立培訓數據的專家，因此我帶着許多不確定性來到這裏。 –

請檢查我的編輯:) –

面臨類似問題後，這裏是我關於你的問題的見解：

根據沃森自然語言分類documentation最好是限制輸入文字少於60個字的長度，所以我想利用你的平均80分的話會產生更好的效果
你可以去任何一種方式，但單獨的文件會產生更明確的結果
創建AA代名詞圖，所建議的將是一個良好的開端，沃森旨在回答更復雜的認知方案。

沃森指導其他一些幫助提示：

限制輸入文本的長度少於60個字。

將班級數量限制爲幾百個班級。支持更大的數量的類可能會包含在服務的更高版本中。

當每個文字記錄只有一個班級時，請確保每個班級都是與至少5 - 10條記錄相匹配，以提供足夠的該班級的培訓。

可能很難決定是否包含多個類的文本。驅動多個類的兩個常見原因：

當文本模糊時，標識單個類並不總是清晰的。

當專家以不同的方式解讀文本時，多個類支持這些解釋。

但是，如果你的訓練許多文本數據包括多個類，或者一些文本有三個以上的類，你可能需要調整的類。例如，查看這些類是否是分層的。如果它們是分層的，則包括葉節點作爲類。

來源

2015-10-25 14:10:48

我將從我可以用給定信息回答的部分開始。也許我們可以從那裏改進你的問題。

問題3：無法訓練模型來識別沒有支持上下文的新詞彙單詞。這不僅僅是「摩托車」不在訓練集中，而且「騎乘」也不在訓練集中，並且評論中的其他詞語與運輸無關。您尋求的認知信息根本不在您提供的數據中。

問題2：這取決於你正在考慮的訓練方法。您可以將每個標記作爲具有真/假值的單獨特徵列。這在功能上等同於15個單獨的數據文件，每個文件都有一個真/假值。單文件方法爲您稍後擴展到類別之間的某種上下文支持提供了機會。

問題1：長度本身並不特別相關，除了剪掉非生產性詞語有助於集中訓練 - 你不會從偶然相關性中獲得幾乎虛假的分類。你有辦法以編程方式縮小大小嗎？你可以將它應用於你想要分類的新輸入嗎？如果不是，那麼我不確定這是否值得。

開放性問題

你有什麼經驗證據表明，80％的準確率可能與給定的數據？如果訓練數據不包含準確標記數據所需的理論信息，那麼您就沒有機會獲得所需的模型。

您選擇的應用程序是否有足夠的智能將評論分解爲單詞？是否有任何語序或語義的認識 - 你需要嗎？

來源

2015-10-19 21:40:40 Prune

我沒有證據顯示80％是可能的，這只是我的目標，我正在尋找鍊金術（http://www.alchemyapi.com/products/demo/alchemylanguage），特別是在靈感分類部分。將認知信息添加到我的訓練數據的正確方法是什麼？ –

沒有*一個*適當的方式;它取決於您想要添加的認知信息以及您正在構建的系統的設計。感謝鍊金術鏈接;這是一個可愛的，複雜的系統。意識到這是一個複雜的發佈產品的展示片。偉大的靈感，但一個大項目。 – Prune

我承認我覺得這個討論是錯誤的（不屬於SO）並且缺乏重點。我的問題是，我不知道你想要什麼作爲你發佈的結果。你已經提出了幾個特定於實現的問題，但是當我詢問關於這個系統的更高層次的概念時，我得到了另一個問題，而不是一個確切的答案。那麼......這個項目在什麼階段？該項目的目標是什麼？您的可用資源和時間表有哪些？你有什麼樣的目標，目標，要求和規格？這有助於我提供有用的反饋。 – Prune

谷歌預測API - 建築分類器培訓數據

回答

相關問題