聲明:我也是新手,在很多方面可能都是錯誤的。
我是一名在tensorflow深度學習的新手。我嘗試了一個 seq2seq模型示例代碼。
我想了解:
什麼是圖層,圖層的大小和批量 大小的數字,我可以理解,要能測試滿意的精度seq2seq模型 開始的最小值?
我認爲這隻能取決於您的實驗。找出適用於您的數據集的內容。我聽到了幾條建議:如果可以,請不要選擇自己的架構 - 找到經過嘗試和測試的其他人。似乎更深層的網絡比更廣泛的更好,如果你要選擇它們也是如此。如果你有記憶,我也認爲更大的批量更好。我聽說最大化網絡規模,然後正規化,所以你不要過度使用。
我有這樣的印象,這些都是很大的問題,沒有人真正知道答案(可能是非常錯誤的!)。我們都喜歡選擇圖層大小/圖層數量的巧妙方式,但沒有人確切知道如何改變這些東西影響訓練。
此外,最小的基礎設施設置需要的內存和CPU的能力,在幾個小時的最長時間內訓練這個深度的學習模型。
根據您的模型,這可能是一個不合理的要求。似乎有些模型訓練數百甚至上千小時(在GPU上)。
我的經驗 被訓練seq2seq模型來構建一個神經網絡與2層尺寸900和批量大小的花了3天左右到4GB的RAM訓練,3GHz的英特爾酷睿i5單核 處理器。花了大約1天的時間在8GB RAM,3GHz Intel i5 單核處理器上訓練。這對最快的培訓有幫助 - 更多 內存容量,多個CPU內核或CPU + GPU組合內核?
我相信GPU最能幫助你。我看過一些使用CPU的東西(異步的演員評論員或其他什麼東西?他們沒有使用鎖定),看起來CPU好一些,但我認爲GPU會給你帶來巨大的加速。