- 我試圖採用多層NN以實現部分可觀測馬爾可夫過程的概率函數..
- 我想投入到NN是:目前的狀態,選擇的動作,導致狀態; 輸出是[0,1]中的概率(在當前狀態下執行所選動作將導致結果狀態的概率)
- 在訓練中,我將前面提到的輸入饋送到NN中,並且我教它對於已經發生的每種情況,輸出= 1.0。
問題:
對於幾乎所有的測試情況下,輸出概率接近0.95 ..沒有產量爲0.9下!即使對於幾乎不可能的結果,它也給出了很高的概率。增強學習POMDP
PS:我認爲這是因爲我教過它只發生過病例,但並不是沒有發生的。 但是我不能在每集中教導它輸出= 0.0對於每一個未發生的行動!
如何解決這個問題?或者可能是另一種使用NN或實現概率函數的方式?
感謝