Автор: Траян Можно ли сказать, что Ваш агент функционирует в рамках формализма дискретного марковского процесса принятия решений (MDP)?... ...в чем главная фишка Вашего подхода.
|
|
Я не теоретик марковских процессов. Но судя по тому, что нашел, действительно,
процесс похож. Более того, он более похож на PoMDP (частично наблюдаемый).
Однако в (Po)MDP информация о среде считается известной (состояния и вероятности переходов) и наилучший очередной шаг агента рассчитывается через условные вероятности.
Я же исхожу из того, что информация ни о количестве состояний, ни о графе переходов агенту априорно неизвестны.
А известно лишь что: 1) среда дискретна, тактируема и детерминирована; 2) наблюдаемое значение, награда и новое состояние определяются исключительно текущим состоянием и действием агента (как в MDP!) причем однозначно со 100% вероятностью (уже не как в MDP).
То есть предложенная модель в чем-то проще, а в чем-то сложнее MDP. Но цель агента такая же - максимизация награды.
Фишка в том, что комбинация алгоритмов создания модели среды + обучения позволяет агенту достигать цели и справляться с комбинаторной стеной (по крайней мере, в "благоприятных" средах).
Буду рад любой информации на эту тему.
Если кто-то такую задачу
в такой постановке уже решил, значит я изобрел велосипед, и тему можно закрыть. Если еще нет, то есть о чем говорить дальше.
Нет там никакой стены. Существующие в RL алгоритмы (скажем, Q-learning) прекрасно с таким справляются (иначе бы Альфазеро не могла играть в го/шахматы, где выигрыш может быть получен хоть через сотню шагов). А на подходе уже вещи на порядки (!) более совершенные. |
|
Все так, но все эти Альфы-... во-первых достаточно мощны (я-то тестирую своего агента на ноутбуке), а во-вторых они "знают", во что они играют! То есть "правила игры" (в прямом и переносном смысле) в них вшиты, что сокращает высоту "стены"