2
  • 我試圖採用多層NN以實現部分可觀測馬爾可夫過程的概率函數..
  • 我想投入到NN是:目前的狀態,選擇的動作,導致狀態; 輸出是[0,1]中的概率(在當前狀態下執行所選動作將導致結果狀態的概率)
  • 在訓練中,我將前面提到的輸入饋送到NN中,並且我教它對於已經發生的每種情況,輸出= 1.0。

問題:
對於幾乎所有的測試情況下,輸出概率接近0.95 ..沒有產量爲0.9下!即使對於幾乎不可能的結果,它也給出了很高的概率。增強學習POMDP

PS:我認爲這是因爲我教過它只發生過病例,但並不是沒有發生的。 但是我不能在每集中教導它輸出= 0.0對於每一個未發生的行動!

如何解決這個問題?或者可能是另一種使用NN或實現概率函數的方式?

感謝

回答

2

問題是,所有可能的以下狀態的總和必須等於1.如果你這樣構建你的網絡,那是不能保證的。我腦海中出現了兩種可能的替代方案,我假設了離散狀態。

  1. 進行預測時,請針對每個可能的以下狀態運行網絡。之後,通過除以所有概率的總和來歸一化。
  2. 每個可能的下列狀態使用一個輸出。然後,您可以使用softmax圖層(如分類中所示),然後解釋範圍從0到1的值,並將其總計爲1作爲概率。

從數學的角度來看,這兩個實際上大致相當。在連續變量的情況下,你將不得不假設分佈(例如多變量高斯)並且使用該分佈的參數(例如均值和協方差stdev)作爲輸出。

0

當安裝了NN你可能想以適應更廣泛的數據,在訓練中有沒有你想安裝到接近0的概率任何數據?如果我不懷疑你可能會得到糟糕的結果。作爲第一步,我會嘗試在訓練數據集中選擇一些不同的東西。

另外你如何訓練神經網絡?你有沒有嘗試過使用其他方法?如何激活功能,也許嘗試使用一些不同的。

有了神經網絡,我認爲在選擇模型時會有一些試驗和錯誤來幫助你。 (對不起,如果這一切都不夠具體。)