2017-02-22 44 views
-1

好的,我承認 - 這是一個糟糕的問題。 )但是,因爲我真的需要一些洞察力,如果你可以等到某種靈魂首先回答它。理解Tensorflow RNN中的數據集問題教程

我已經安裝併成功運行了RNN教程。我對此非常感興趣 - 儘管我對代碼有很好的感覺。不幸的是,the TensorFlow RNN tutorial沒有定義(至少對我來說),以瞭解需要幾個關鍵項目:

  1. 有什麼訓練和驗證集之間的邏輯區別?具體地,在在 'ptb.train.txt' 和 'ptb.valid.txt'

    例如文件內容條款,ptb.train.txt包含:

    there is no asbestos in our products now 
    

    然而,無論是asbestos也不in our products出現在ptb.valid.txt中,因此尚不清楚正在訓練什麼以及正在驗證的內容。

  2. 我的'測試困惑'報告爲121.236。這是什麼意思?再一次,我真的很想知道'ptb.test.txt'文件 - 這是對什麼來衡量?

    另一個典型例子:ptb.test.txt包含:

    the offers were to work as a writer not an editor 
    

    無論這個「序列」,也不是接近子集出現在任一ptb.train.txtptb.valid.txt文件。也許我完全不在基地,但我認爲其意圖是匹配這樣的序列。這是不正確的?報告的困惑與此有何關係?

  3. 最後(再次NOOB在這裏),即使是這個簡單的例子也需要很長時間才能訓練。有沒有辦法保存'訓練好的'系統,以便我可以針對不同的測試數據集運行它?

    更新 我相信問題#3是answered in this SO question

+0

確定downvoted ... – fabrizioM

回答

0
  1. 還有,你需要學習瞭解過程的幾個要素。機器學習算法正在對給定數據集進行訓練。這些算法可能會「記住」您的整個數據集,因此他們會始終爲您提供正確的數據集答案。 正確答案是您的問題的預期結果。如果模型記住所有的火車數據,它將不會對新的輸入數據做出很好的反應,所以他的預測能力不會很好。要訓​​練的模型具有較好的預測能力,你在火車驗證,其中驗證子集不用於訓練,但用於控制該模型沒有記憶的火車數據集拆分數據集。

  2. 的困惑是一個具體的指標進行評估有多好模型

  3. 是的,你可以查閱文檔:https://www.tensorflow.org/programmers_guide/variables

+0

我想補充更多的具體信息是什麼,我不明白的問題。從你的回答中,我發現我的問題真的錯過了這個印記。考慮到文件的內容,以及與此有關的困惑如何,我不'看'如何驗證或測試序列。 – JoeG

0
  • 訓練集是優化模型。
  • 驗證數據集將檢查模型是否爲正在擬合過度擬合的訓練數據。
  • 你已經訓練模型,並覺得這是很好的預成型使用測試數據集檢查從您的驗證數據集調整模型過細成果的基礎上,並造成你的模型高估後適合現實世界的數據。

而且,這些問題都屬於在https://stats.stackexchange.com/ :)