Автор: daner Я могу только добавить, что ваш алгоритм это грубое, в общих чертах, описание алгоритма "обучение с подкреплением" (ОП). Если я правильно вас понял (ЕСЛИ) то задача о которой вы здесь говорите (в плане "интереса" во время обучения) это известная проблема ОП |
|
Не прошло и пары лет как я понял что я должен был вам ответить.
Очень простая но ключевая разница. В ОП подкрепление формируется средой. А у меня... скорее Агентом. Агент находит в среде подврепление в зависимости от своей обученности, т.е. насколько агент способен предсказать реакцию среды на свои действия.
Агент пробует среду в рамках своего интереса, таким образом постепенно обучаясь законам среды, от простых к сложным. Самые первые законы выяснить довольно легко, так для человеческого ребенка один из первых законов - если направить свой палец в свой глаз - будет больно. Мы все с вами проводили этот интереснейший, в своё время, эксперимент.