0

Conveyor layout. A and B entry points and C and D exit points. There is a crossroad at position X如何用神經網絡實現尋路和擁塞檢測?

這是一個傳送帶系統。箱子在A處進入系統並朝C離開系統。對於B-> D也是如此。

路徑A-> C上的框比框B-> D具有更高的優先級。盒子可以在每個廣場停下來等待。如果在A2和B2上有一個框,則A2中的一個應該先經過X.

如果在C2,C1,A2和B2上有框,那麼B2中的框應該穿過X並在A2框上等待,直到C1爲空。否則它會阻塞路徑B-> D。

如何用神經網絡解決這個問題? 因此,我想輸入每個塊的當前狀態,因此我想從哪裏到哪裏下一個盒子應該移動。

例如: 系統狀態:存在於A1BOX 結果:A1,A2

我不知道,如果神經網絡是此問題的一個很好的工具,但我只是好奇。 感謝您的輸入:)

回答

1

你在找什麼是一個政策,映射到行動。

雖然您可以使用神經網絡來存儲您的策略,但您需要某種方式與環境進行交互以收集數據。

你所描述的是一個典型的強化學習問題。我建議你看看Q-learning。對於狀態空間的大小,可以很容易地將您的策略​​存儲在表中,但是如果需要,神經網絡也很容易與Q學習相結合(儘管在使用非線性逼近方案時不能保證收斂)。