增強學習POMDP

問題：
對於幾乎所有的測試情況下，輸出概率接近0.95 ..沒有產量爲0.9下！即使對於幾乎不可能的結果，它也給出了很高的概率。增強學習POMDP

PS：我認爲這是因爲我教過它只發生過病例，但並不是沒有發生的。但是我不能在每集中教導它輸出= 0.0對於每一個未發生的行動！

如何解決這個問題？或者可能是另一種使用NN或實現概率函數的方式？

感謝

2010-05-01 Betamoo

問題是，所有可能的以下狀態的總和必須等於1.如果你這樣構建你的網絡，那是不能保證的。我腦海中出現了兩種可能的替代方案，我假設了離散狀態。

從數學的角度來看，這兩個實際上大致相當。在連續變量的情況下，你將不得不假設分佈（例如多變量高斯）並且使用該分佈的參數（例如均值和協方差stdev）作爲輸出。

2010-05-03 12:54:48 bayer

當安裝了NN你可能想以適應更廣泛的數據，在訓練中有沒有你想安裝到接近0的概率任何數據？如果我不懷疑你可能會得到糟糕的結果。作爲第一步，我會嘗試在訓練數據集中選擇一些不同的東西。

另外你如何訓練神經網絡？你有沒有嘗試過使用其他方法？如何激活功能，也許嘗試使用一些不同的。

有了神經網絡，我認爲在選擇模型時會有一些試驗和錯誤來幫助你。（對不起，如果這一切都不夠具體。）

2010-05-01 16:39:51 shuttle87

回答