GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.1 (4)След. > >>   Поиск:  
 Автор Тема: Самообучаемый агент в среде, являющейся операционным автоматом
Львович
Сообщений: 303
Самообучаемый агент в среде, являющейся операционным автоматом
+4
Добавлено: 14 апр 19 3:16
Привет всем!
Наконец-то я довел до рабочего состояния самообучающегося агента для априорно неизвестной частично наблюдаемой автоматной среды.
Смысл в том, что агент считает среду детерминированным операционным автоматом, о котором он кроме этого факта ничего более априорно не знает: ни количество состояний, ни граф переходов, ни связи состояний с наградой, ни с наблюдением. Более того среда является лишь частично наблюдаемой, то есть в каждом состоянии она хоть и формирует какой-то сигнал, наблюдаемый агентом, но разные состояния вполне могут выдавать одинаковые сигналы.
В качестве одного из тестовых примеров такой среды я использовал замкнутый лабиринт, в котором агент может а) продолжить движение на одну клетку в предыдущем направлении, б) повернуть направо или налево и сделать шаг в этом новом направлении. Агент вознаграждается, есть шаг не направлен в стену. В таком лабиринте существует единственный "правильный" путь обхода лабиринта, когда агент получает вознаграждение на каждом шаге. В любых других вариантах агент рано или поздно хоть раз упрется в стену и не получит на этм шаге вознаграждение.
Агент также "наблюдает" три сигнала, соответствующие наличию стены перед собой, справа и слева от себя.
При этом в самом агенте нет никакой информации ни о том, что означают входные сигналы, ни какие действия соответствуют выходным сигналам.
Пример лабиринта (и агента в нем). Замкнутость организована путем принудительного переноса агента в левый верхний угол при попадании на *.

+-+-+-+-+-+
| |* |
+ +-+-+ +-+
| > |
+ +-+-+-+-+
| |
+-+-+-+-+-+

Этот лабиринт имеет 14 (клеток) х 4 (возможных направления) = 56 состояний. В каждом состоянии есть 3 двоичных наблюдаемых сигнала и 3 варианта действия. Полный перебор дает порядка 3^56 вариантов.В силу особенностей реализации на каждый шаг агенту требуется 4 внутренних такта.
Агент демонстрирует следующую динамику обучения:

200 * 71
400 * 73
600 * 77
800 * 84
1000 * 78
1200 * 84
1400 * 88
1600 * 87
1800 * 89
2000 * 84
2200 * 84
2400 * 83
2600 * 83
2800 * 94
3000 * 100

Слева номер такта, справа - процент полученного вознаграждения за предыдущие 200 тактов.
Я тестировал и на других лабиринтах, и на других задачах, но это отдельная история.
Устройство агента не раскрою, скажу лишь, что это не нейронная сеть, хотя и используется обучение с подкреплением.
Не "велосипед" ли это? Кто-то решал подобные задачи? Какие получил результаты? Как оценить эффективность агента? В каких еще средах можно его потестировать?
[Ответ][Цитата]
Кусаюсь
Сообщений: 974
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 4:08
Еще какой. Треугольник Паскаля называется.
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 4:41
Привет, Львович! Вас очень давно с нами не было. Мы соскучились.

Цитата:
Автор: Львович
Кто-то решал подобные задачи?
Здесь подобные задачи, насколько я помню, решал Траян, Vpolevoj и ваш покорный слуга.

Цитата:
Автор: Львович
Устройство агента не раскрою
Из стыда или из жадности? Если из первого - то не стесняйтесь, тут и не такое показывали. А если из второго, тогда не понятна цель открытия топика. Поэксплуатировать участников вслепую, как своих рабов, а потом опять исчезнуть, тайно захватить мир и всех уничтожить? А где же наше вознаграждение?
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 5:10
Цитата:
Автор: Львович

В каких еще средах можно его потестировать?

Ну как, в каких? Сделайте несколько дверей в лабиринте, которые будут открываться/закрываться:
1. по циклическому таймеру,
2. случайно,
3. по некоторой зависимости от состояния (положения и действий) агента.
[Ответ][Цитата]
гость
185.227.68.*
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 5:26
Цитата:
Автор: Львович

Привет всем!
Наконец-то я довел до рабочего состояния самообучающегося агента для априорно неизвестной частично наблюдаемой автоматной среды.
......................

Не "велосипед" ли это? Кто-то решал подобные задачи? Какие получил результаты? Как оценить эффективность агента? В каких еще средах можно его потестировать?
На каком ЯП пишете код? Где код?
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 7:44
Цитата:
Автор: Андрей

Привет, Львович! Вас очень давно с нами не было. Мы соскучились.

Здесь подобные задачи, насколько я помню, решал Траян, Vpolevoj и ваш покорный слуга.

Приятно удивлен, что меня помнят.
Спасибо за ссылки. Правда "похожесть" этих работ в основном в том, что агент перемещается по клеткам. Взаимодействовать с абсолютно неизвестным операционным автоматом, получая от него лишь "частичные" сигналы, в указанных ссылках никто не пытался.
Цитата:

Из стыда или из жадности? Если из первого - то не стесняйтесь, тут и не такое показывали. А если из второго, тогда не понятна цель открытия топика. Поэксплуатировать участников вслепую, как своих рабов, а потом опять исчезнуть, тайно захватить мир и всех уничтожить? А где же наше вознаграждение?

Ну, до захвата мира еще далеко...Я отдаю себе отчет, что в этом агенте сейчас нет даже функции "строить планы", так как он постоянно взаимодействует со средой. А без этого сильный ИИ невозможен.
Если в общем, то в агенте на каждом шаге выполняются две процедуры 1) строится модель "мира" (диаграмма состояний среды) и 2) выбирается путь с наибольшей наградой.
При этом вторая процедура ограничивает количества вариантов перовой (иначе получаем комбинаторный взрыв), а первая процедура "поставляет" более точную информацию о вариантах для второй.
Обращаю внимание, что агенту совершенно плевать, что стоит за эффекторами и откуда приходят рецепторы. Например я "скармливал" ему текст (с целевой функцией предсказания следующего символа). Но результат этого эксперимента требует отдельного осмысления...
Здесь же мне интересно обсудить, в том числе, требования к среде для ИИ. Понятно, что в "белом шуме" никакой ИИ ничему не научится, но как формально сформулировать эти требования?
Также интересна среда, в которой максимальная награда недостижимы в принципе. Должен ли агент бесконечно продолжать свои поиски (ведь он-то этого не знает).
Так как агент универсален, хотелось бы "посадить" его в среды, которые использовали другие форумчане и сравнить результаты.

[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 8:12
Цитата:
Автор: Михайло
Ну как, в каких? Сделайте несколько дверей в лабиринте, которые будут открываться/закрываться:
1. по циклическому таймеру,
2. случайно,
3. по некоторой зависимости от состояния (положения и действий) агента.

Вообще-то я имел ввиду принципиально другие среды, например игры, тексты, распознавание объектов,...
B желательно, чтобы они описывались детерминированным графом переходов. В недетерминированных средах оценить эффективность обучения вообще непонятно как. Есть идеи?
В этом отношении "двери по таймеру" просто сильно увеличивают количество состояний (кратно периоду таймера), так как "плавающий" переход в диаграмме состояний равносилен кратному размножению всех состояний на период таймера.
Случайное открывание - это вообще бесконечный автомат. И как я выше писал, в нем непонятно как оценивать эффективность агента.
А вот "по действию агента" это интересная идея! При этом количество состояний всего лишь удваивается. И действие агента фактически переводит среду из одного набора состояний в другой.
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 9:37
Изменено: 14 апр 19 9:41
Цитата:
Автор: Львович
Как оценить эффективность агента?

1. Много раз обсуждалась невозможность достаточно однозначно опрелять содержание (а соответственно значит и диапазон эффективности) чёрного ящика лишь по внешним проявлениям (т.е. по тесту Тьюринга).
2. В описании сказано... Система всегда возвращается в исходную точку, плюс к этому имеется некая логика (дерево решений или комплексы алгоритмов, или что-то в этом роде) построения модели ("диаграммы состояний"). Кроме этого добавляется пошаговая награда.
3. Сильные системы в природе подвержены сну. Есть основания считать, что это имеет отношение не только к биологической составляющей "сильности", а является вынужденной её необходимостью. В данной системе этого нет.
4. И т.д.
В итоге с достаточно большой вероятностью - эффективность предлагаемой системы (подхода) такая же, как и эффективность иных "слабых" систем, какими бы навороченными они ни были.

Пример предположительно аналогичного подхода из тех, что светились на данном форуме
http://www.gotai.net/forum/default.aspx?page=1&threadid=204270
[Ответ][Цитата]
Михайло
Сообщений: 2366
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 12:02
Цитата:
Автор: Львович

Полный перебор дает порядка 3^56 вариантов.

Реальные (жизненные) задачи обладают очень удивительным феноменом. В этих задачах 3^56-2^12 вариантов можно отбросить еще до чтения формулировки задачи. Представляете себе? Еще не прочитали задачу, но уже есть догадка, что ответ должен быть простой. В реальных задачах наблюдаются сильные ассиметрии вариантов решений, при чем эти закономерности (эвристики) едины для многих реальных задач.
Однако многие почитатели сильных интеллектов ошибочно считают, что интеллект должен быть универсальным, иначе это не интеллект. В итоге они безнадежно вязнут в проблеме комбинаторного взрыва. Они не принимают во внимание ФЕНОМЕН РЕАЛЬНЫХ ЗАДАЧ. Они попросту не в курсе этого явления.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 12:38
Цитата:
Автор: Михайло


Реальные (жизненные) задачи обладают очень удивительным феноменом. В этих задачах 3^56-2^12 вариантов можно отбросить еще до чтения формулировки задачи. Представляете себе? Еще не прочитали задачу, но уже есть догадка, что ответ должен быть простой. В реальных задачах наблюдаются сильные ассиметрии вариантов решений, при чем эти закономерности (эвристики) едины для многих реальных задач.

Полностью согласен! Это можно назвать контекстом задачи. Очевидные, но не прописанные в явном виде в условиях ограничения. Тот же лабиринт предполагает как минимум смежное расположение ячеек. Поэтому 3^56 это про некоторый гиперлабиринт, в котором любой шаг может перебрасывать в любую клетку, да еще в любой ориентации.
Однако в описанном примере у агента есть "глаза" и сначала он обучается ими "пользоваться", что потом резко сокращает количество (хороших) перебираемых вариантов. Я пробовал отключать "глаза" - обучение идет в сотни раз медленнее, но если есть хотя бы один "глаз" обучение идет, хотя и медленнее - требует около 20 тыс тактов.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 14 апр 19 22:49
Изменено: 14 апр 19 22:51
Цитата:
Автор: rrr3


1. Много раз обсуждалась невозможность достаточно однозначно опрелять содержание (а соответственно значит и диапазон эффективности) чёрного ящика лишь по внешним проявлениям (т.е. по тесту Тьюринга).

Содержание - да, а эффективность - почему нет? Нужны лишь соотвентсвующие тесты. Конечно, нельзя протестировать все возможные ситуации. Но хоть какие-то?

Цитата:

2. В описании сказано... Система всегда возвращается в исходную точку, плюс к этому имеется некая логика (дерево решений или комплексы алгоритмов, или что-то в этом роде) построения модели ("диаграммы состояний"). Кроме этого добавляется пошаговая награда.

Это догадки об устройстве агента? В этом отношениии все RL агенты похожи . Да, в данном случае среда (система?) такова, что в ней существует единственный замкнутый путь, на каждом шаге которого присутствует (положительная) награда. И время "выхода" агента на этот путь можно (в какой-то степени) считать скоростью/эффектвностью обучения. Я отлаживал агента на трех лабиринтах, пока он не стал уверенно обучаться в каждом. Я понимаю, что прохождение даже ста лабиринтов ничего не говорит об абсолютной универсальности и эффективности, поэтому и задал этот вопрос.
Цитата:

3. Сильные системы в природе подвержены сну. Есть основания считать, что это имеет отношение не только к биологической составляющей "сильности", а является вынужденной её необходимостью. В данной системе этого нет.

Есть основания считать , что полное копирование природы для достижения таких же и даже лучших результатов не обязательно. Самолеты не машут крыльями, а летают быстрее птиц...
Однако внутренняя обработка информации в агенте без взаимодействия с вешним миром (сон и т.п) - это интересная идея. Потому что при непосредственном взаимодействии с миром на это обычно не хватет ресурсов. Это отдельная большая тема для отдельно обсуждения (может уже где-то обсуждают ?).
Цитата:

4. И т.д.
В итоге с достаточно большой вероятностью - эффективность предлагаемой системы (подхода) такая же, как и эффективность иных "слабых" систем, какими бы навороченными они ни были.

Вообще-то я и не позиционировал агента как сильный ИИ, я представляю его как (сравнительно) универсальный ИИ, способный обучаться в априорно незвестных средах, которые можно описать как операционный автомат, да и то с определенными ограничениями.
Цитата:

Пример предположительно аналогичного подхода из тех, что светились на данном форуме
http://www.gotai.net/forum/default.aspx?page=1&threadid=204270

За ссылку спасибо! Посмеялся. Постараюсь так себя не вести
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 15 апр 19 0:14
Цитата:
Автор: Львович
Содержание - да, а эффективность - почему нет?

Потому, что эффективность определяется не только внешними условиями (а точнее, не столько), а прежде всего содержанием "внутренностей". Зная внутренности, можно с большой долей вероятности предсказывать эффективность в тех или иных условиях внешней среды.
Цитата:

Это догадки об устройстве агента?

Это не догадки, а данное Вами описание системы.
Цитата:
Я понимаю, что прохождение даже ста лабиринтов ничего не говорит об абсолютной универсальности и эффективности, поэтому и задал этот вопрос.

Вопрос универсальности не так прост, как может показаться на первый взгляд. Любое неизменное решение не универсально полностью. Не до-понимание (не до-оценка) этого - одна из типичнейших ошибок ИИстроителей. Выход в перманентной изменяемости, подстраиваемости возможных решений. Потому в "сильных" системах, которые многими называются "универсальными" главное не в универсальности конкретного решения (или их системы), а в возможности постоянного отражения свойств внешней среды (другими словами, корректировка условий "задачи").

По поводу крыльев. Полностью согласен. Просто надо отличать крылья от перьев, костей и мяса. Сон в данном случае не перья и кости... на мой не просвещенный взгляд.

Более подробно поделиться своими мнениями - нет времени.

Удачи!
[Ответ][Цитата]
Разум_Возмущёный
Сообщений: 488
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 15 апр 19 2:58
Изменено: 15 апр 19 3:23
Цитата:
Автор: Львович
Наконец-то я довел до рабочего состояния самообучающегося агента для априорно неизвестной частично наблюдаемой автоматной среды...

А в чем смысл моделирования сего "агента"?
Что вы пытаетесь этим доказать или опровергнуть?
И какая под всем этим теоретическая база?
Или это просто суходрочка по принципу Атоса (с) Дерусь потому что дерусь?
Цитата:

В таком лабиринте существует единственный "правильный" путь обхода лабиринта, когда агент получает вознаграждение на каждом шаге.

Сказанное, противоречит вашему же первоначальному утверждению, что среда заведомо неизвестна. Если вы "в режиме бога" выдаете вознаграждение, то можно считать что структура среды частично раскрыта. Это классическое обучение с учителем. Требуется только "идти на запах".

P.S. Если не будете жульничать и выдавать желаемое за действительное, то на первых же шагах упретесь в комбинаторную стену и потерпите фиаско.
[Ответ][Цитата]
Разум_Возмущёный
Сообщений: 488
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 15 апр 19 3:34
Изменено: 15 апр 19 3:37
Здесь единственное, что представляет интерес - это сам алгоритм адаптации. Определение степени его оптимальности. Как он осуществляет механизм обобщающей Индукции от частных опытов к общей модели и дальнейшей Дедукции по имплементации модели на конкретную частную ситуацию.
[Ответ][Цитата]
гость
188.170.74.*
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 15 апр 19 3:46

л.> Как оценить эффективность агента?

определиться с критерием эффективности, возможно, различить внешнй и внутренний критерии. В примере показано, агент имеет тенденцию обучаться в смысле увеличения суммы вознаграждения (избегания невознаграждения). а внешним критерием может быть обнаружение выхода из лабиринта (если он есть), степень обследованности лабиринта, - можно скомбинировать как-то внешний и внутренний критерии типо стоимость обследования. Критерии могут конфликтовать - если среда 'неистощаемая', то агент может начать получать вознаграждения просто циклически перемещаясь в малой обследованной области. В реалистической среде может оказаться имеющим смысл несколько раз удариться лбом о стену (нежадно) (или пойти по пути с невознаграждением) - но откроется новый сектор среды.
ТОлкать к обследованию может истощаемость среды.

> Должен ли агент бесконечно продолжать свои поиски

если накопленная сумма дисконтируется (обесценивается) со временем, то у агента может быть встроенная задача не максимизировать сумму наград, а поддерживать необходимый минимум суммы - накапливать те ценности (включая знания о среде), которые могут быть легко трансформированы в необходимое.
[Ответ][Цитата]
 Стр.1 (4): [1]  2  3  4След. > >>