我想了解本文解釋如何訓練神經網絡玩乒乓遊戲。 https://cloud.github.com/downloads/inf0-warri0r/neural_pong/README.pdf如何訓練神經網絡玩乒乓球遊戲?
我最近開始研究神經網絡,並且我知道後向傳播的概念。本文采用Back Propagation來訓練神經網絡。
這個神經網絡中有五個輸入神經元。
- x座標球(BX)
- y中的球(由)的x方向上的球(BVX)在y方向上的球的
- 速度的
- 速度的座標(bvy )
- 槳的位置(py)。
隱藏層中有十個神經元,輸出層中有一個神經元會輸出槳的位置(py)。
從此時開始我有些疑惑就一目瞭然了。
由於後傳播是一種監督式學習方法,它應該有一些期望的輸出,我們從中迭代減去當前輸出以找到輸出中的錯誤並計算梯度下降。
現在我不明白的是,在這種情況下,期望的輸出是什麼。它可以是球擊中牆壁的位置和槳的位置之間的距離,我們應該保持零?
我知道控制槳將被硬編碼以便與球同步移動,但我們在訓練時如何隨機移動另一槳?我們應該在輸入「py」中給出什麼值?
在遊戲中的什麼點應提供所有五個輸入bx,by,bvx,bvy和py?我們是否應該只在球擊中牆時纔給出這些輸入並執行一個神經網絡迭代的時代?