如何訓練神經網絡玩乒乓球遊戲？

我最近開始研究神經網絡，並且我知道後向傳播的概念。本文采用Back Propagation來訓練神經網絡。

這個神經網絡中有五個輸入神經元。

隱藏層中有十個神經元，輸出層中有一個神經元會輸出槳的位置（py）。

從此時開始我有些疑惑就一目瞭然了。

由於後傳播是一種監督式學習方法，它應該有一些期望的輸出，我們從中迭代減去當前輸出以找到輸出中的錯誤並計算梯度下降。

2015-10-06 Behroz

首先，我想阻止你使用這篇論文作爲教育工具。代碼記錄不完善，而且文件本身並沒有很多信息。

這種設計有一些缺點。例如，您只能獲得一個數據點來針對每個球進行訓練，並且由於當我們收集該數據點時，球始終位於遊戲板的邊緣，因此我們並不瞭解球何時移動實際上是在地圖周圍彈跳。

我建議保持跟蹤網絡播放時的所有值。稍後，您可以使用原始遊戲狀態和球進入的實際位置來訓練網絡。這樣，即使網絡成功阻擋球，網絡也可以進行有效訓練，並從遊戲中的所有點獲取數據。

2015-10-06 18:35:31 Giewev

回答