2017-05-08 58 views
0

儘管我可以設法讓示例和自己的代碼運行,但我對OpenAI gym API背後的真實語義/期望更加好奇,特別是Env.reset()OpenAI健身房:什麼時候需要重置?

何時重置預期/必需?在每集結尾?或者僅在創建環境之後?

我寧願覺得它在每集之前都有意義,但我一直沒能明確地閱讀!

回答

1

您通常在整個劇集之後使用重置。所以這可能是在你達到終端狀態後,或者你達到你最大的時間步長(由你設置)後。我通常也會在訓練開始時重置它。因此,如果您處於您的起始狀態'A'並且您想要達到'Z'狀態,那麼您將運行從'A' - >'B' - >'C'...的時間步驟,那麼當您到達終端狀態「Z」時,您將使用重置開始新的劇集,這會將您帶回「A」。

for episode in range(iterations): 
    state = env.reset() // first state 
    for time_step in range(1000): //max amount of iterations 
     action = take_action(state) 
     observation, reward, done, _ = env.step(action) 
     if done: 
      break // takes you to the next episode where the environment is reset