1
我在開放式健身房的mountain car problem中實施DQN。這個問題很特殊,因爲積極的回報非常稀少。所以我想到了這個paper by google deep mind中提出的優先體驗重播。優先體驗在深度Q-learning中重播
但是也有一些困惑我某些事:
- 我們如何存儲回放存儲器。我得到那我是過渡的優先事項,有兩種方式,但這是什麼P(我)?
- 如果我們按照給定的規則不會P(i)每次添加樣本都會改變。
- 當它說「我們根據此概率分佈進行抽樣」時,它意味着什麼。什麼是分配。
- 最後我們如何從中抽樣。我知道如果我們將它存儲在一個優先級隊列中,我們可以直接進行採樣,但實際上我們將它存儲在一棵總和樹中。
在此先感謝
仍然沒有得到它。根據s不會批量更改。如果使用 –
我們稱每個樣本的檢索函數爲優先隊列也不是一個好主意。我的意思是,如果你有一個大小爲32的小批量,那麼你應該調用該函數32次。堆並不合適,因爲這給了你在每一步中最有可能的機會,並且沒有機會選擇其他體驗,但是使用總和樹所有體驗都有機會被選中,並且它們也可以被有效更新。 –
謝謝。我成功地理解並實施了它。只是最後一件事情,我們是否使用sum樹來引入一點點隨機性,否則我無法看到它是如何更好的優先級隊列 –