GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.3 (4)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Самообучаемый агент в среде, являющейся операционным автоматом
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 19 апр 19 9:07
Изменено: 19 апр 19 9:13
Цитата:
Автор: гость


Л.> это описано в теории RL

Говоря про наличие в среде 'правильного пути' на который агент просто 'натаскивается', ...

Говоря про пример среды, в которой есть правильный путь, я говорю лишь про один из примеров автоматной среды, на которой я отлаживал агента. Это, действительно, удобная среда для отладки, так как она уже не тривиальна, но достаточно проста и в то же время имеет тупики, которые "тестируют" память агента и "обратное распространение ошибки".
И не более того! Я тестировал агента и в (принципиально) других средах, постараюсь позже показать результаты.
Цитата:

> Мы должны награждать агента только в тех ситуациях, когда точно знаем, что это приближает к цели.
хочу сказать, что если методологически 'мы' как носители внедряемой в агента цели принципиально важны, то агент не будет 'универсальным' (формирующим собственные цели, систему оценок и ценностей, приоритетов и предпочтений).

Хочу сказать, что 'мы' не внедряем цели в агента. Агент изначально запрограммированна максимизацию некоторой целевой функции, а 'мы' лишь только связываем цели со значениями этой функции. Подробнее здесь
Цитата:

действие агента может (и должно) получить внутреннее поощрение (подкрепление) если оно, cкажем, привело к снижению ошибки прогноза - вертим игрушку в руках не просто так, а запоминая ее виды

Верно! Но это относится к более сложным (составным) агентам, когда, например, вышестоящий агент поощряет нижестоящего за более достоверную информацию.
Цитата:

универсальный агент это агент с комплексными механизмами обучения - через эволюцию, через подражание, через самоорганизацию карт, через подкрепление, через учителя (прецеденты) и самообучение...

Похоже, мы просто используем разные понятия. Возможно на gotai принято называть (считать) "универсальным" только сильный ИИ (сравнимый с человеческим). Я же вкладываю в понятие "универсальность" - возможность максимизировать награду для любых сред с полной априорной неизвестностью их устройства и поведения.
Цитата:

> Лучше поощрить только тогда, когда цель будет достигнута.
опять же, это не общий случай - в более общем случае цели не столь конкретны, а задаются в более абстрактном виде - даже если выход из лабиринта не обнаружен, но агент условно эффективно обследовал его, то как это не поощрить?

как бы в условиях многозадачного и 'трансферабельного' RL имеет смысл поощрять действия имеющие большую вероятность стать общими, общеполезнымим, даже если текущая операционная траектория еще не привела к успеху в отношении данной цели. ВЫ сами по-моему имеете в виду нечто подобное, когда уточняете сами себя, поминая проблему распределения вознаграждения 'в самом конце' по промежуточным действиям (какое действие было решающим?) - нужно предусмотреть режим переключения на отложенные задачи и подкреплять промежуточное действие, способствующее улучшению видов на отложенную задачу.

Ключевой момент против этих рассуждений: агент ничего не знает о мире до начала взаимодействия с ним. НИЧЕГО! А все вышеописанное подразумевает, что агент это как-то знает (либо запрограммирован, либо обучен). Но это уже другая задача. Я ей планирую заняться на следующем этапе.
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 19 апр 19 10:33
Изменено: 19 апр 19 10:37
Цитата:
Автор: Львович
... и "обратное распространение ошибки".
....
Хочу сказать, что 'мы' не внедряем цели в агента.
...
Агент изначально запрограммированна максимизацию некоторой целевой функции, а 'мы' лишь только связываем цели со значениями этой функции.
...
Я же вкладываю в понятие "универсальность" - возможность максимизировать награду для любых сред с полной априорной неизвестностью их устройства и поведения.
...
агент ничего не знает о мире до начала взаимодействия с ним. НИЧЕГО!

1. Если "изначально запрограммированна максимизацию некоторой целевой функции, а 'мы' лишь только связываем цели со значениями этой функции.", то это задание алгоритма (логики) "максимизации" и есть обратная сторона задания цели. Другими словами, любой пред-заданный алгоритм не может быть универсальным (в полном смысле) что называется - по определению или априори.
2. "обратное распространение ошибки" практически на каждом шаге тоже говорит о том, что агенту сразу же говорят о среде, т.е. он о ней знает практически уже до получения результата, заранее.

Все это было бы иначе и можно было бы говорить о неком реальном уровне универсальности самого принципа, если бы не было пошагового вознаграждения, а лишь "да/нет" по какому-то конечному (в крайнем случае, при больших задачах, промежуточному, но не по-шаговому) результату и без всяких "алгоритмов обратного распространения ошибки" или готовых деревьев решений. Конечно речь идёт о том, что в процессе неизбежны пробы и ошибки до получения требуемого конечного результата в задаваемых условиях изначально не известной среды, т.е. пошагового можно "говорить" лишь "да/нет" (достигнут или нет именно конечный результат).
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 19 апр 19 10:42
Цитата:
Автор: rrr3

любой пред-заданный алгоритм не может быть универсальным (в полном смысле) что называется - по определению или априори.

Опять запелась песенка... От алгоритмов никто не требует решения произвольных задач. Все задачи известны заранее: максимизация денег, максимизация удовольствия, минимизация количества ошибок и т.д. Это не универсальные задачи, а очень узкий ФЕНОМЕНАЛЬНЫЙ круг задач.

Если вам это непонятно, да и бог с вами, наука проходит мимо вас, а вы мимо нее.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 19 апр 19 11:19
Цитата:
Автор: rrr3
1. Если "изначально запрограммированна максимизацию некоторой целевой функции, а 'мы' лишь только связываем цели со значениями этой функции.", то это задание алгоритма (логики) "максимизации" и есть обратная сторона задания цели. Другими словами, любой пред-заданный алгоритм не может быть универсальным (в полном смысле) что называется - по определению или априори.

Неужели непонятно, что мы говорим об универсальности только для задач максимизации целевой функции? Если задача сформулирована без задания целевой функции, алгоритм бессилен...
Цитата:

2. "обратное распространение ошибки" практически на каждом шаге тоже говорит о том, что агенту сразу же говорят о среде, т.е. он о ней знает практически уже до получения результата, заранее.

Скажу более: у агента есть рецепторы и он воспринимает ими среду на каждом шаге. Но эти знания - только про то, что произошло "здесь и сейчас" и при этом очень ограниченные (тип есть стена справа или нет). И уж тем более они нечего не говорят о том, ведет путь в тупик или нет.
Цитата:

Все это было бы иначе и можно было бы говорить о неком реальном уровне универсальности самого принципа, если бы не было пошагового вознаграждения, а лишь "да/нет" по какому-то конечному (в крайнем случае, при больших задачах, промежуточному, но не по-шаговому) результату ...

Это влияет лишь на скорость обучения, но не на его принципиальную возможность.
Цитата:

и без всяких "алгоритмов обратного распространения ошибки" или готовых деревьев решений. Конечно речь идёт о том, что в процессе неизбежны пробы и ошибки до получения требуемого конечного результата в задаваемых условиях изначально не известной среды, т.е. пошагового можно "говорить" лишь "да/нет" (достигнут или нет именно конечный результат).

Я специально поставил "обратного распространения ошибки" в кавычки, потому что это не то, что используется в нейронных сетях, а это лишь механизм, позволяющий запомнить, что "в этом направлении через несколько шагов тупик и туда ходить больше не надо".
А "пробы и ошибки" легко использовать, когда попытки повторяются с какого-то "начала" и можно построить делево вариантов. В автоматной же среде нет никакого "начала" и агент никогда не может быть уверен, что он "уже проходил по этому месту". Если его лишить еще и органов чувств и (хотя бы редких) вознаграждений, то получаем непреодолимую комбинаторную стену. Попробуйте на досуге!
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 19 апр 19 11:32
Изменено: 19 апр 19 12:05
Я высказал Вам своё мнение. Вижу, что Вы его не только не поняли, но и не желаете понимать и продолжаете упорствовать. У меня нет потребности Вас в чем-то переубеждать. Продолжайте в том же духе.
(Есть правда момент, где я не точно выразился, "обратное..." (или иной алгоритм или деревья решений и т.п.) и пошаговые вознаграждения говорят о цели (а не о среде, как я выразился, не столько о среде, сколько о алгоритме достижения цели) о пути её достижения заранее, задолго до достижения...)

Удачи!

Пока понаблюдаю не оппонируя.

p.s. "Объём" разнонаправленной (изменяемые по ходу исследования цели) комбинаторной стены преодолеваемой без вознаграждений и "обратных алгоритмов", системами с равным количеством и качеством сенсоров и эффекторов в одинаковых средах - один из важных критериев "сильности", " общности", "универсальности" и т.п. систем... Другим важным критерием может быть количество независимых целей, которые может достигать такая система так, что достижение одной цели (обученности) не мешает другой.
Но как бы там ни было, это все косвенные показатели. Принципиальную ущербность теста Тьюринга никто не отменял!
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 19 апр 19 12:22
Изменено: 19 апр 19 12:23
Львович, знаешь, что хочу сказать? Все это брехня: никто на форуме не поддержит, даже я. )) Выкладывать сюда идеи, мысли - бесполезная затея, в ответ будут только потоки сознания. Надо либо наукой заниматься (а значит изучать опыт предшественников), либо играть в казино на деньги. Остальные пути бессмысленны.

Ну не заработает твой алгоритм на видео и аудио- данных, так как он не обладает обобщающими свойствами, присущим линейным и окололинейным системам с пороговыми нелинейностями.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 19 апр 19 20:40
Цитата:
Автор: Михайло
Выкладывать сюда идеи, мысли - бесполезная затея, в ответ будут только потоки сознания. Надо либо наукой заниматься (а значит изучать опыт предшественников), либо играть в казино на деньги. Остальные пути бессмысленны.

Спасибо за поддержку!
Вот только "опыт предшественников" редко позволяет найти что-то реально новое. И в этом отношении его лучше изучить уже после того, как придумал и сделал свое. Чем я сейчас и занимаюсь.
Цитата:

Ну не заработает твой алгоритм на видео и аудио- данных, так как он не обладает обобщающими свойствами, присущим линейным и окололинейным системам с пороговыми нелинейностями.

Ага, особенно на сжатых данных . А про "окололинейные системы с пороговыми нелинейностями" можно чуть подробнее или ссылки?
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 19 апр 19 22:38
Цитата:
Автор: Львович


Спасибо за поддержку!
Вот только "опыт предшественников" редко позволяет найти что-то реально новое. И в этом отношении его лучше изучить уже после того, как придумал и сделал свое. Чем я сейчас и занимаюсь.

Просто изучать науку - это сложно. Заниматься галиматьей - легко.

Цитата:
Автор: Львович

Ага, особенно на сжатых данных . А про "окололинейные системы с пороговыми нелинейностями" можно чуть подробнее или ссылки?

Логистическая регрессия, перцептрон, нейронные сети ))
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 20 апр 19 0:06
Цитата:
Автор: Михайло
Ну не заработает твой алгоритм на видео и аудио- данных, так как он не обладает обобщающими свойствами, присущим линейным и окололинейным системам с пороговыми нелинейностями.

Так я уже на трех листах прошу пример минимальной сложности с формальными критериями определения "работает/не работает", но пока предлагают только "управлять государством", "писать музыку" и что-то сделать с аудио/видео данными...
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 20 апр 19 0:41
Так ты позаботься о том, чтобы мы знали, что у тебя за алгоритм. Бог с ним, с кодом. Ты хотя бы сигнатуру алгоритма выдай. Что на входе и что на выходе? Какие типы данных?

Не всякие задачи подойдут под твою сигнатуру. Нам самим лень анализировать.
[Ответ][Цитата]
гость
188.170.72.*
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 20 апр 19 1:14

Л.> удобная среда для отладки,

нисколько не подвергая сомнению грандиозность ваших достижений, нельзя просто не поделиться возможно ошибочным впечатлением, что вы не просто ищете под фонарем, но вы специально положили ключи под фонарь чтобы их было по-легче триумфально обнаружить..

> на максимизацию некоторой целевой функции .. лишь

у вас получается не совсем так - вы же проектируете среду так, чтобы распределение вознаграждений предопределяло поведение агента (т.е. вы неявно (почти явно) задаете требуемое поведение - пределом обучения является детерминированное поведение).

> вкладываю в понятие "универсальность"

тем самым вводя знакомящихся с вашей работой в заблуждение - и среда не универсальна (да еще с пошаговым вознаграждением), и тип обучения не универсальный, и логика обучения не универсальна (максимизация вознаграждения это не единственная 'рациональная' логика - можно минимизировать отклонение накопленного вознаграждения от необходимого минимума с учетом запаса (логика нормализации)). ПО смыслу универсальный агент (или агент+среда) это когда агент допускает преобразования, которые дают частные случаи. Cкажем, 'более универсальным' выглядел бы агент, который не просто максимизирует награду, а соотносит награду с удовлетворением внутренних требований (условная (суб)оптимизация). Внешний и внутренний критерии. По типам критериев двукритериальность. Осложнения того рода, что улучшения по одному критерию нельзя добиться без ухудшения по другому. Абстрагируясь от внутреннего критерия (критериев) и скаляризируя внешний, получаем частный ваш случай (плюс упрощая тип среды и режим вознаграждения).

> Ключевой момент против

против по-моему не получилось.. Задав логику максимизации внешней награды вы тем самым предопределили то, что агент узнает о среде (как он ее 'поймет'). ВЫ как бы принудительно откалибровали ценности - и получается что агент неявно УЖЕ знает среду (просто делает это знание явным при обучении, освоении среды). Я же имею в виду
желательность (если уж 'универсальность') ослабления этой прямой зависимости между оценками агента полезности и величинами внешних наград.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 20 апр 19 11:13
Цитата:
Автор: Михайло

Так ты позаботься о том, чтобы мы знали, что у тебя за алгоритм. Бог с ним, с кодом. Ты хотя бы сигнатуру алгоритма выдай. Что на входе и что на выходе? Какие типы данных?

Не всякие задачи подойдут под твою сигнатуру. Нам самим лень анализировать.

Да, возможно данные не очень внятно описаны...
Итак:
входные данные - любые дискретные данные, закодированные двоичным кодом
выходные данные - тоже любые дискретные данные, закодированные двоичным кодом
награда - тоже дискретная величина, но закодированная "количественным" кодом 1=1, 2=11, 3=111, дополняется нулями так, чтобы она могла принимать от 0 до максимального значения.
В описанной в начале темы среде на вход подается три двоичных сигнала от датчиков стен, выходные сигнал интерпретируются средой как команды поворота и перемещения и просто перемещения. Вознаграждение =1 если движение не в стену, иначе =0. Конкретно эта среда имеет единственную замкнутую последовательность шагов, с вознаграждением =1 на каждом шаге.
Это позволяет оценивать эффективность и динамику обучения по доле собранного вознаграждения за период и по количеству шагов до выхода на идеальную последовательность.
Но наличие идеального пути не является необходимым требованием для агента. Просто при иных условиях нужны какие-то иные способы оценки эффективности (так как идеальный путь не будет найден никогда).
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 21 апр 19 0:06
Цитата:
Автор: Львович

Итак:
входные данные - любые дискретные данные, закодированные двоичным кодом
выходные данные - тоже любые дискретные данные, закодированные двоичным кодом
награда - тоже дискретная величина, но закодированная "количественным" кодом 1=1, 2=11, 3=111, дополняется нулями так, чтобы она могла принимать от 0 до максимального значения.

Итак, Ваш алгоритм можно натянуть на задачу классификации...
Есть такая задача распознавания рукописных символов, MNIST называется.
На входе двумерный массив пикселей 28х28, каждый пиксель - это число от 0 до 255. На выходе - целое число от 0 до 9.
Алгоритм имеет возможность обучиться на 60000 примерах и затем показать себя на оставшихся 10000 тестовых примерах.

То, что там закодировано двоичным кодом - это все раскодировать или закодировать, не проблема. Что касается награды, то тут может быть всего два значения: 0 - ответ неверный, 1 - ответ верный. Хотя методы обучения работают не с наградами, а с правильными ответами. По этим правильным ответам каждый алгоритм сам для себя вычисляет награду/наказание. Это удобнее в случае задач регрессии, когда можно вычислить отклонение от правильного ответа.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 21 апр 19 23:24
Цитата:
Автор: Михайло
Итак, Ваш алгоритм можно натянуть на задачу классификации...
Есть такая задача распознавания рукописных символов, MNIST называется.
На входе двумерный массив пикселей 28х28, каждый пиксель - это число от 0 до 255. На выходе - целое число от 0 до 9.
Алгоритм имеет возможность обучиться на 60000 примерах и затем показать себя на оставшихся 10000 тестовых примерах.

Натянуть-то можно… Вот только получить результат – вряд ли. И вот почему.
Я представил хоть и универсального агента, но все же ориентированного на определенные условия:
1) «автоматную» среду, то есть вреду, в которой можно выделить состояния и переходы между ними, вызываемые, прежде всего, действиями агента;
2) в потоке входной (и выходной) информации есть понятия «до» и «после», а вот понятия «повторить (на следующем примере)» нет;
3) среда/задача содержит обучающую информацию не только по конечной цели, но и по промежуточным целям, которым необходимо обучиться для (и до) достижения конечной цели.
В задаче «распознавания рукописных символов» ничего этого нет.
И при этом вознаграждение агент (возможно) будет получать один раз за 28*28*8+4=6276 шагов – добро пожаловать к комбинаторной стенке
И причина этого – в универсальности. Мой агент не знает, что «стоит» за последовательность ю битов и будет пытаться найти в них «автоматные» зависимости, которых там нет в принципе!
Человек легко справляется с такой задаче лишь потому, что обладает априорной дополнительной информацией (о взаимном расположении пикселей, о том, что «пишут линиями», о перемещениях и масштабе изображений и т.п.), которую он получил, рассматривая до этого массу других объектов. Но если «лишить» его этой информации, то он станет совершенно беспомощен. А лишить его очень просто – достаточно показывать не исходную картинку, а преобразованную, где каждый пиксел «переехал» в другое (фиксированное) место. А если еще и переставить пикселы яркости…
А вот нейронная сеть, скорее всего, с таким преобразованием справится! Но ей потребуется 60000 обучающих изображений (а может и больше). И не факт, что 10000 тестовых «пройдут» без ошибок, там много других проблем. Это лишь доказывает, что нейронная сеть, несмотря на «похожесть» внутренней структуры, все же работает не «по-человечески».
В любом случае это хороший пример для понимания различий в агентах и задачах для них.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 22 апр 19 7:15
Цитата:
Автор: Львович
Я представил хоть и универсального агента, но все же ориентированного на определенные условия:
1) «автоматную» среду, то есть вреду, в которой можно выделить состояния и переходы между ними, вызываемые, прежде всего, действиями агента;

Можно ли сказать, что Ваш агент функционирует в рамках формализма дискретного марковского процесса принятия решений (MDP)?

Цитата:
Автор: Львович
И при этом вознаграждение агент (возможно) будет получать один раз за 28*28*8+4=6276 шагов – добро пожаловать к комбинаторной стенке

Нет там никакой стены. Существующие в RL алгоритмы (скажем, Q-learning) прекрасно с таким справляются (иначе бы Альфазеро не могла играть в го/шахматы, где выигрыш может быть получен хоть через сотню шагов). А на подходе уже вещи на порядки (!) более совершенные.

Вообще не понятно, в чем главная фишка Вашего подхода. В чем его отличие/преимущество по сравнению с уже существующими.
[Ответ][Цитата]
 Стр.3 (4)1  2  [3]  4<< < Пред. | След. > >>