GotAI.NET - Форум - Искусственный интеллект

Все темы | Новая тема

Стр.4 (4)

<< < Пред.

Поиск:

Автор

Тема: На: Самообучаемый агент в среде, являющейся операционным автоматом

Михайло
Сообщений: 2366

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 22 апр 19 12:30

Изменено: 22 апр 19 12:36

Цитата:

Автор: Львович

А вот нейронная сеть, скорее всего, с таким преобразованием справится! Но ей потребуется 60000 обучающих изображений (а может и больше). И не факт, что 10000 тестовых «пройдут» без ошибок, там много других проблем. Это лишь доказывает, что нейронная сеть, несмотря на «похожесть» внутренней структуры, все же работает не «по-человечески».

Надуманно. Посчитайте количество букв в азбуке и число символов в тетради-прописи. Человек учится медленнее нейронных сетей. Потом посмотрите труднораспознаваемые символы MNIST (те самые 1-3%) ошибок нейросети. А еще попробуйте попросить распознать эти плохие цифры первоклассника, который еще не умеет писать, то есть не знает принципы рукописания. Вот смеху-то будет.

[Ответ][Цитата]

Михайло
Сообщений: 2366

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 22 апр 19 12:40

Изменено: 22 апр 19 12:43

Чтобы далеко бегать не пришлось, ниже по ссылке приведены 52 примера плохо распознаваемых цифр и неправильные ответы нейросети: http://gotai.net/forum/default.aspx?postid=266813#266813

[Ответ][Цитата]

Львович
Сообщений: 303

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 22 апр 19 21:54

Цитата:

Автор: Траян
Можно ли сказать, что Ваш агент функционирует в рамках формализма дискретного марковского процесса принятия решений (MDP)?...
...в чем главная фишка Вашего подхода.

Я не теоретик марковских процессов. Но судя по тому, что нашел, действительно, процесс похож. Более того, он более похож на PoMDP (частично наблюдаемый).
Однако в (Po)MDP информация о среде считается известной (состояния и вероятности переходов) и наилучший очередной шаг агента рассчитывается через условные вероятности.
Я же исхожу из того, что информация ни о количестве состояний, ни о графе переходов агенту априорно неизвестны.
А известно лишь что: 1) среда дискретна, тактируема и детерминирована; 2) наблюдаемое значение, награда и новое состояние определяются исключительно текущим состоянием и действием агента (как в MDP!) причем однозначно со 100% вероятностью (уже не как в MDP).
То есть предложенная модель в чем-то проще, а в чем-то сложнее MDP. Но цель агента такая же - максимизация награды.
Фишка в том, что комбинация алгоритмов создания модели среды + обучения позволяет агенту достигать цели и справляться с комбинаторной стеной (по крайней мере, в "благоприятных" средах).
Буду рад любой информации на эту тему.
Если кто-то такую задачу в такой постановке уже решил, значит я изобрел велосипед, и тему можно закрыть. Если еще нет, то есть о чем говорить дальше.

Цитата:

Нет там никакой стены. Существующие в RL алгоритмы (скажем, Q-learning) прекрасно с таким справляются (иначе бы Альфазеро не могла играть в го/шахматы, где выигрыш может быть получен хоть через сотню шагов). А на подходе уже вещи на порядки (!) более совершенные.

Все так, но все эти Альфы-... во-первых достаточно мощны (я-то тестирую своего агента на ноутбуке), а во-вторых они "знают", во что они играют! То есть "правила игры" (в прямом и переносном смысле) в них вшиты, что сокращает высоту "стены"

[Ответ][Цитата]

Львович
Сообщений: 303

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 22 апр 19 22:37

Цитата:

Автор: Михайло
...Человек учится медленнее нейронных сетей...

Это зависит а) от задачи, б) от программно-аппаратной платформы нейронной сети

Цитата:

...А еще попробуйте попросить распознать эти плохие цифры первоклассника, который еще не умеет писать, то есть не знает принципы рукописания. Вот смеху-то будет.

Так и я - о том же! И ключевое слово здесь "принципы рукописания". Именно это позволяет человеку распознавать "точнее".
И это натолкнуло меня на мысль, предложить моему агенту распознавать не пиксели, а движение пера! Может быть когда-нибудь доберусь...
В любом случае, спасибо за наводку и респект за практическую работу!

[Ответ][Цитата]

Траян
Сообщений: 1063

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 23 апр 19 4:10

Изменено: 23 апр 19 4:42

Цитата:

Автор: Львович
Однако в (Po)MDP информация о среде считается известной (состояния и вероятности переходов) и наилучший очередной шаг агента рассчитывается через условные вероятности.

Это не так. Вероятности переходов изначально считаются неизвестными, существуют лишь предположения о том, какими они могут быть.

Цитата:

Автор: Львович
Я же исхожу из того, что информация ни о количестве состояний, ни о графе переходов агенту априорно неизвестны.

Цитата:

Автор: Львович наблюдаемое значение, награда и новое состояние определяются исключительно текущим состоянием и действием агента (как в MDP!) причем однозначно со 100% вероятностью (уже не как в MDP).

Понятно. Судя по всему Ваш агент использует некий классификатор сред (автоматов).

Цитата:

Автор: Львович
Все так, но все эти Альфы-... во-первых достаточно мощны (я-то тестирую своего агента на ноутбуке), а во-вторых они "знают", во что они играют!

Это не так. Ничего они изначально не знают. Той же АльфаЗеро пофиг чему учиться - шахматам, го, Доте или Старкрафту - она изначально tabula rasa.
Весь прикол и необычность этой программы как раз и заключается в том, что она (самостоятельно пройдя курс самообучения) при всем при том прекрасно обыгрывает даже специализированные программы, вроде того же СтокФиша. В кои изначально закладывается куча априорных знаний и эвристик.

Но даже АльфаЗеро с ее Q-learning-ом - уже вчерашний день в RL, там на подходе еще более интересные, мощные и совершенные алгоритмы.

[Ответ][Цитата]

Траян
Сообщений: 1063

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 23 апр 19 4:34

Изменено: 23 апр 19 4:43

Цитата:

Автор: Львович
Буду рад любой информации на эту тему.

В 60-70е годы прошлого века был такой популярный метод изучения конструкции неизвестных автоматов (как детерминированных, так и вероятностных), когда их представляли в виде черных ящиков.

https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%81%D1%82%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BF%D0%BE_%D1%81%D1%82%D1%80%D0%B0%D1%82%D0%B5%D0%B3%D0%B8%D0%B8_%D1%87%D1%91%D1%80%D0%BD%D0%BE%D0%B3%D0%BE_%D1%8F%D1%89%D0%B8%D0%BA%D0%B0

Напахано там было на десятки книг, сотни диссертаций и тысячи статей. И в общем-то, почти все что можно из этого подхода выжали.

[Ответ][Цитата]

гость
188.170.73.*

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 23 апр 19 5:05

Т.>> там на подходе еще более интересные, мощные и совершенные алгоритмы.

Л.> Буду рад любой информации на эту тему.

вот-вот, выкладывайте..

[Ответ][Цитата]

Михайло
Сообщений: 2366

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 23 апр 19 9:07

Изменено: 23 апр 19 9:08

Цитата:

Автор: Львович

И это натолкнуло меня на мысль, предложить моему агенту распознавать не пиксели, а движение пера!

Можно и нейронную сеть обучить движению пера, определенно по сравнению с MNIST будет больше инфы и соответственно будет больше процент правильного распознавания. Но не всегда такие задачи реально требуются от разработчиков, так как не всегда имеется возможность получать и хранить инфу о трекинге пера.

Просто для развлечения сойдет...

[Ответ][Цитата]

Львович
Сообщений: 303

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 24 апр 19 0:30

Цитата:

Автор: Траян
В 60-70е годы прошлого века был такой популярный метод изучения конструкции неизвестных автоматов (как детерминированных, так и вероятностных), когда их представляли в виде черных ящиков.

Но, как я понимаю, задача машинного обучения в среде "черного ящика" тогда не ставилась и не решалась? То есть еще есть над чем поработать.

[Ответ][Цитата]

Траян
Сообщений: 1063

На: Самообучаемый агент в среде, являющейся операционным автоматом

Добавлено: 24 апр 19 9:56

Цитата:

Автор: Львович
Но, как я понимаю, задача машинного обучения в среде "черного ящика" тогда не ставилась и не решалась?

Ставилась, пусть и не под таким названием. Копали по этой теме очень глубоко и серьезно, на самом фундаментальном уровне.

Цитата:

Автор: Львович
То есть еще есть над чем поработать.

Это Ваша жизнь - Вам и решать на что ее потратить.

[Ответ][Цитата]

Стр.4 (4): 1 2 3 [4]

<< < Пред.

Форум: Проблемы искусственного интеллекта