GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.4 (4)<< < Пред.   Поиск:  
 Автор Тема: На: Самообучаемый агент в среде, являющейся операционным автоматом
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 22 апр 19 12:30
Изменено: 22 апр 19 12:36
Цитата:
Автор: Львович

А вот нейронная сеть, скорее всего, с таким преобразованием справится! Но ей потребуется 60000 обучающих изображений (а может и больше). И не факт, что 10000 тестовых «пройдут» без ошибок, там много других проблем. Это лишь доказывает, что нейронная сеть, несмотря на «похожесть» внутренней структуры, все же работает не «по-человечески».

Надуманно. Посчитайте количество букв в азбуке и число символов в тетради-прописи. Человек учится медленнее нейронных сетей. Потом посмотрите труднораспознаваемые символы MNIST (те самые 1-3%) ошибок нейросети. А еще попробуйте попросить распознать эти плохие цифры первоклассника, который еще не умеет писать, то есть не знает принципы рукописания. Вот смеху-то будет.
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 22 апр 19 12:40
Изменено: 22 апр 19 12:43
Чтобы далеко бегать не пришлось, ниже по ссылке приведены 52 примера плохо распознаваемых цифр и неправильные ответы нейросети: http://gotai.net/forum/default.aspx?postid=266813#266813
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 22 апр 19 21:54
Цитата:
Автор: Траян
Можно ли сказать, что Ваш агент функционирует в рамках формализма дискретного марковского процесса принятия решений (MDP)?...
...в чем главная фишка Вашего подхода.

Я не теоретик марковских процессов. Но судя по тому, что нашел, действительно, процесс похож. Более того, он более похож на PoMDP (частично наблюдаемый).
Однако в (Po)MDP информация о среде считается известной (состояния и вероятности переходов) и наилучший очередной шаг агента рассчитывается через условные вероятности.
Я же исхожу из того, что информация ни о количестве состояний, ни о графе переходов агенту априорно неизвестны.
А известно лишь что: 1) среда дискретна, тактируема и детерминирована; 2) наблюдаемое значение, награда и новое состояние определяются исключительно текущим состоянием и действием агента (как в MDP!) причем однозначно со 100% вероятностью (уже не как в MDP).
То есть предложенная модель в чем-то проще, а в чем-то сложнее MDP. Но цель агента такая же - максимизация награды.
Фишка в том, что комбинация алгоритмов создания модели среды + обучения позволяет агенту достигать цели и справляться с комбинаторной стеной (по крайней мере, в "благоприятных" средах).
Буду рад любой информации на эту тему.
Если кто-то такую задачу в такой постановке уже решил, значит я изобрел велосипед, и тему можно закрыть. Если еще нет, то есть о чем говорить дальше.
Цитата:

Нет там никакой стены. Существующие в RL алгоритмы (скажем, Q-learning) прекрасно с таким справляются (иначе бы Альфазеро не могла играть в го/шахматы, где выигрыш может быть получен хоть через сотню шагов). А на подходе уже вещи на порядки (!) более совершенные.

Все так, но все эти Альфы-... во-первых достаточно мощны (я-то тестирую своего агента на ноутбуке), а во-вторых они "знают", во что они играют! То есть "правила игры" (в прямом и переносном смысле) в них вшиты, что сокращает высоту "стены"
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 22 апр 19 22:37
Цитата:
Автор: Михайло
...Человек учится медленнее нейронных сетей...

Это зависит а) от задачи, б) от программно-аппаратной платформы нейронной сети
Цитата:

...А еще попробуйте попросить распознать эти плохие цифры первоклассника, который еще не умеет писать, то есть не знает принципы рукописания. Вот смеху-то будет.

Так и я - о том же! И ключевое слово здесь "принципы рукописания". Именно это позволяет человеку распознавать "точнее".
И это натолкнуло меня на мысль, предложить моему агенту распознавать не пиксели, а движение пера! Может быть когда-нибудь доберусь...
В любом случае, спасибо за наводку и респект за практическую работу!
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 23 апр 19 4:10
Изменено: 23 апр 19 4:42
Цитата:
Автор: Львович
Однако в (Po)MDP информация о среде считается известной (состояния и вероятности переходов) и наилучший очередной шаг агента рассчитывается через условные вероятности.

Это не так. Вероятности переходов изначально считаются неизвестными, существуют лишь предположения о том, какими они могут быть.

Цитата:
Автор: Львович
Я же исхожу из того, что информация ни о количестве состояний, ни о графе переходов агенту априорно неизвестны.

Цитата:
Автор: Львович наблюдаемое значение, награда и новое состояние определяются исключительно текущим состоянием и действием агента (как в MDP!) причем однозначно со 100% вероятностью (уже не как в MDP).

Понятно. Судя по всему Ваш агент использует некий классификатор сред (автоматов).

Цитата:
Автор: Львович
Все так, но все эти Альфы-... во-первых достаточно мощны (я-то тестирую своего агента на ноутбуке), а во-вторых они "знают", во что они играют!


Это не так. Ничего они изначально не знают. Той же АльфаЗеро пофиг чему учиться - шахматам, го, Доте или Старкрафту - она изначально tabula rasa.
Весь прикол и необычность этой программы как раз и заключается в том, что она (самостоятельно пройдя курс самообучения) при всем при том прекрасно обыгрывает даже специализированные программы, вроде того же СтокФиша. В кои изначально закладывается куча априорных знаний и эвристик.

Но даже АльфаЗеро с ее Q-learning-ом - уже вчерашний день в RL, там на подходе еще более интересные, мощные и совершенные алгоритмы.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 23 апр 19 4:34
Изменено: 23 апр 19 4:43
Цитата:
Автор: Львович
Буду рад любой информации на эту тему.

В 60-70е годы прошлого века был такой популярный метод изучения конструкции неизвестных автоматов (как детерминированных, так и вероятностных), когда их представляли в виде черных ящиков.

https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%81%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BF%D0%BE_%D1%81%D1%82%D1%80%D0%B0%D1%82%D0%B5%D0%B3%D0%B8%D0%B8_%D1%87%D1%91%D1%80%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D1%89%D0%B8%D0%BA%D0%B0

Напахано там было на десятки книг, сотни диссертаций и тысячи статей. И в общем-то, почти все что можно из этого подхода выжали.

[Ответ][Цитата]
гость
188.170.73.*
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 23 апр 19 5:05
Т.>> там на подходе еще более интересные, мощные и совершенные алгоритмы.

Л.> Буду рад любой информации на эту тему.

вот-вот, выкладывайте..
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 23 апр 19 9:07
Изменено: 23 апр 19 9:08
Цитата:
Автор: Львович

И это натолкнуло меня на мысль, предложить моему агенту распознавать не пиксели, а движение пера!

Можно и нейронную сеть обучить движению пера, определенно по сравнению с MNIST будет больше инфы и соответственно будет больше процент правильного распознавания. Но не всегда такие задачи реально требуются от разработчиков, так как не всегда имеется возможность получать и хранить инфу о трекинге пера.

Просто для развлечения сойдет...
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 24 апр 19 0:30
Цитата:
Автор: Траян
В 60-70е годы прошлого века был такой популярный метод изучения конструкции неизвестных автоматов (как детерминированных, так и вероятностных), когда их представляли в виде черных ящиков.

Но, как я понимаю, задача машинного обучения в среде "черного ящика" тогда не ставилась и не решалась? То есть еще есть над чем поработать.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 24 апр 19 9:56
Цитата:
Автор: Львович
Но, как я понимаю, задача машинного обучения в среде "черного ящика" тогда не ставилась и не решалась?

Ставилась, пусть и не под таким названием. Копали по этой теме очень глубоко и серьезно, на самом фундаментальном уровне.

Цитата:
Автор: Львович
То есть еще есть над чем поработать.

Это Ваша жизнь - Вам и решать на что ее потратить.
[Ответ][Цитата]
 Стр.4 (4)1  2  3  [4]<< < Пред.