GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.2 (4)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Самообучаемый агент в среде, являющейся операционным автоматом
Траян
Сообщений: 1063
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 15 апр 19 4:18
Львович - это тот самый Львович, который еще на Айкоме был?

Который еще в 2007-ом тестил мою СПИ (с Алхимиком, Инексом и еще кем-то, забыл уже)?
[Ответ][Цитата]
гость
188.170.73.*
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 15 апр 19 4:24
Л.> как (сравнительно) универсальный ИИ

тут тоже не очень понятно зачем специализированного на максимизации суммы внешних вознаграждений агента называть УИИ.. Есть основания 'более' универсальным считать агента с мотивацией к обучению по минимизации ошибки прогноза, как бы с автоматической балансировкой новизны и предсказуемости - даже в неистощаемой среде такой агент будет ее обследовать (для такого агента главное быть в состоянии обучения чему-то, переключаясь на освоение нового).
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 15 апр 19 9:14
Цитата:
Автор: Траян

Львович - это тот самый Львович, который еще на Айкоме был?

Который еще в 2007-ом тестил мою СПИ (с Алхимиком, Инексом и еще кем-то, забыл уже)?

Ох, давно это было… И на аикоме что-то обсуждал… В любом случае на готаи я под этим ником, действительно, где-то с 2007года. Даже сохранились старые посты.
Потом решил, что лучше заняться практическим делом, а не трепом, и вот только сейчас получил ощутимый результат. А учитывая, что это мое хобби, а не работа, потребовалось столько лет…
Зато теперь у меня есть «свой» ИИ, с которым можно изучать разные среды, рецепторы, эффекторы и т.д.
По крайней мере те задачи, которые я подсовываю агенту (и в той формулировке) я бы сам ни за что не решил.
[Ответ][Цитата]
mss
Сообщений: 2659
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 15 апр 19 11:30
Цитата:
Автор: Львович
По крайней мере те задачи, которые я подсовываю агенту (и в той формулировке) я бы сам ни за что не решил.


Это что задача про лабиринт не решаемая? Минос бы с вами согласился но Тэзей нет.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 15 апр 19 22:08
Друзья!
Без обид. Но я не буду отвечать на вопросы типа:
-В чем смысл? Зачем это надо?
- Как это устроено? Какова теоретическая база? Код в студию! И т.п. ( кроме того, что уже описал).
И перестаньте пугать меня комбинаторным взрывом. Комбинаторный взрыв – это первое с чем сталкивается разработчик подобных систем. Но в том-то и смысл самообучающихся систем, что они за счет обучения могут существенно сокращать объем перебора.

Здесь у меня интерес получить подтверждение (или опровержение) практической значимости алгоритма агента. И в зависимости от результата он будет или опубликован или отправлен в утиль.
Понимаю, что, не видя самого алгоритма, вроде бы не о чем говорить. Однако этот алгоритм (а тем более код) достаточно сложен, чтобы только по его виду что-то сказать о его эффективности.
Поэтому я и предлагаю уже результаты его работы, более того прошу у вас новые задачи, на которых его можно погонять.
И я готов обсуждать:
- «автоматные» и близкие к ним среды, соотношение реальных и «автоматных» сред, оценку их сложности, критерии возможности обучения, проблемы поведения и обучения в них агентов и даже комбинаторный взрыв ;
- среды с наличием пути с максимальной наградой и без такового, особенности поведения и обучения в них агентов;
- условия эффективного обучения, требование постепенности, требования к среде и к учителю для повышения эффективности обучения;
- алгоритмы назначения вознаграждения (в среде), политики назначения вознаграждения для повышения эффективности обучения;
- требования к сенсорам; влияние количества и качества сенсоров на эффективность обучения;
- оценку эффективности (обучения) агентов, методы измерения эффективности;
- дальнейшее развитие ИИ: идеальное мышление (без взаимодействия со средой); абстрактное мышление (но это, наверное, лучше делать в отдельных ветках).
Все более-менее конкретные предложения я готов пробовать на своем агенте и сообщать результаты.
Было бы также интересно сравнить моего агента с другими в одинаковых средах. Давайте согласуем среду и запустим каждый у себя в ней своего агента и сравним результаты.
Но пока я не увидел, чтобы кто-то вообще работал с «автоматной» средой (PoMDP не предлагать, там стохастическая среда и другие принципы).
Всем, кому интересно, приглашаю к обсуждению, остальных прошу не беспокоить.
[Ответ][Цитата]
гость
188.170.80.*
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 16 апр 19 1:39
освоение автоматной дискретной среды это круто, но как пошлешь такого агента собирать грибы, искать малолетнего потеряшку или даже выпустишь его на поле боя? а если награда векторна и разные компоненты имеют ситуационно зависимую ценность? (не все можно купить). Для переменных сред оценивать эффективность обучения или обучаемость как таковую (вкупе со способностью к ориентации в неопределенном)?
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 17 апр 19 2:04
Изменено: 17 апр 19 2:07
Цитата:
Автор: гость

а если награда векторна и разные компоненты имеют ситуационно зависимую ценность? (не все можно купить). Для переменных сред оценивать эффективность обучения или обучаемость как таковую (вкупе со способностью к ориентации в неопределенном)?

У каждого вектора есть скалярная величина - длина (в какой-либо интерпретации). И даже если компоненты вектора варьируются, то для любой конкретной ситуации они все же определены. "Награда" всегда связана со степенью достижения цели. Если эту степень достижения определить нельзя, то обучение невозможно.
Если среда меняется "сама по себе", то да, это уже не автоматная среда, и "работать" в ней существенно сложнее. Однако если изменения медленны и/или повторяются, то "автоматный" подход может оказаться полезным и агент сможет воспользоваться предыдущим опытом.
При всем при том, даже неизменяемая среда может оказаться "необучающей", например тривиальная среда, которая не выдает ни наблюдаемых сигналов, ни вознаграждения.
[Ответ][Цитата]
rrr3
Сообщений: 11857
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 17 апр 19 2:40
Цитата:
Автор: Львович
Если эту степень достижения определить нельзя, то обучение невозможно.

Если вести речь за СИИ, то как раз таки он отличается тем, что может и нужен там, где необходимо "решать задачи" без определения (без возможности заведомо определить) промежуточных "степеней приближения", только да/нет достижение конечной цели.
Конечно же здесь встает вопрос соответствия величины комбинаторной стены необходимой для "решения" данной задачи и возможностями комбинаторики системы.
В более (чем самые примитивные СИИ) продвинутых системах СИИ, уменьшение комбинаторики достигается тем, что в комбинаторику для решения заданной задачи включаются уже как бы пред-подготовленные компоненты. Эти компоненты формируются за счет наличия предварительного отражения свойств среды (входящей в описание задачи) и своих способностей системы (например, эффекторов) еще до постановки конкретной задачи.

Когда есть пошаговая оценка приближения, СИИ не нужен, эффективнее обычные алгоритмические подходы. В целях же обучения навыкам можно (а порой и необходимо) процесс заранее делить на этапы, но не пошаговые, а на более объемные "куски" дабы уменьшить величину комбинаторной стены преодолеваемой "за раз".
[Ответ][Цитата]
гость
188.170.74.*
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 17 апр 19 3:04

Л.> "Награда" всегда связана со степенью достижения цели.

насколько оправдана постановка (в смысле 'УИИ') когда среда 'все знает' про цели агента (чтобы дозировать награду)?
При скаляризации теряем информацию об ориентации вектора - если существенны ограничения на минимальные значения проекций, то нельзя сводить дело к скалярной логике (cкалярным сравнениям). - Стоит ли высоко вознаграждать более высокую степень приближения к цели но при рискованном перерасходе важных ресурсов? (напролом или в обход?). Мы можем двигаться в тупике, cокращая расстояние до цели, но все равно упремся в непреодалимый барьер.
КАк бы оценивать лучше не голую ситуацию целедостижения, а как продвижение к данной цели сказывается на других задачах-целях - если среда награждает движение к данной цели, то 'универсальный' агент не должен ли добавить внутренние компоненты вознаграждения в общее вознаграждение если продвижение к некоторой цели поспособствовало продвижению в других задачах - и переключиться на эти отложенные задачи раз появился шанс прогресса в них? НЕ должно ли (для 'УИИ') рассматривать собственные интересы агента против принуждения среды?
[Ответ][Цитата]
Андрей
Сообщений: 3943
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 17 апр 19 4:27
Цитата:
Автор: Львович
у меня интерес получить подтверждение (или опровержение) практической значимости алгоритма
Это мне напомнило сюжет фильма "Ex Machina", где создатель ИИ призывает на помощь ботана, чтобы с его помощью понять, а что же он создал. Это, кажется, лишено смысла. Если у Вас есть техническое задание, по которому Вы работали, тогда Вам никто не нужен - Вы сами можете определить соответствует то, что Вы создали, техническому заданию или не соответствует. Если же Вы не понимаете, что Вы создали, значит Вы действовали вслепую, без заранее заданной цели. А если Вам всё равно что получить, тогда всё равно что получилось.

Цитата:
Автор: Львович
прошу у вас новые задачи, на которых его можно погонять
Меня интересуют такие задачи:
1. Создание аннотации заданного размера для произвольного текста.
2. Управление государством.
3. Написание музыки заданного стиля.

Цитата:
Автор: Львович
идеальное мышление (без взаимодействия со средой)
Это одно из самых странных утверждений на этом форуме, из всех, что я видел. А видали мы многое. Правильно ли я понимаю, что с Вашей точки зрения мышление существует само в себе для себя и не требует взаимодействия со средой ни на этапах обучения, ни на этапе применения? Либо мышление обучается взаимодействуя со средой, а потом отключается от среды и... что?

Цитата:
Автор: Львович
я не увидел, чтобы кто-то вообще работал с «автоматной» средой
Вы бы не могли объяснить разницу между средой, в которой живут обычные люди и той модельной средой, которую изучаете Вы. Насколько я могу судить, среда, с которой взаимодействуют люди в повседневной жизни, подчиняется некоторым закономерностям (она - автомат), хотя при этом она частично наблюдаема. Проясните, пожалуйста, в чём разница.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 17 апр 19 22:06
Цитата:
Автор: rrr3
В более (чем самые примитивные СИИ) продвинутых системах СИИ, уменьшение комбинаторики достигается тем, что в комбинаторику для решения заданной задачи включаются уже как бы пред-подготовленные компоненты. Эти компоненты формируются за счет наличия предварительного отражения свойств среды (входящей в описание задачи) и своих способностей системы (например, эффекторов) еще до постановки конкретной задачи.

Все так и есть! И я бы выделил три группы таких компонентов (знаний о среде):
1) внедренные в агента на этапе создания;
2) приобретенные агентом (в процессе обучения) до начала решения конкретной задачи
3) приобретенные уже в процессе решения задачи.
Если агент сразу "напускается" на задачу после "рождения", то (2) отсутсвует.
Цитата:

Когда есть пошаговая оценка приближения, СИИ не нужен, эффективнее обычные алгоритмические подходы. В целях же обучения навыкам можно (а порой и необходимо) процесс заранее делить на этапы, но не пошаговые, а на более объемные "куски" дабы уменьшить величину комбинаторной стены преодолеваемой "за раз".

Да, если пошаговая оценка включает в себя наилучший выбор во всех последующих шагах. Но так бывает редко. Чаще бывает, что после "хорошего" хода, геометрически приближающего к цели, следует тупик (или стена), обход которого сильно снижает награду.
Я тестировал своего агента на таких задачах, постараюсь попозже выложить результаты.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 17 апр 19 22:34
Цитата:
Автор: гость


Л.> "Награда" всегда связана со степенью достижения цели.

насколько оправдана постановка (в смысле 'УИИ') когда среда 'все знает' про цели агента (чтобы дозировать награду)?

Среда не знает про цели. Цели ставит создатель, он же "настраивает" вознаграждение, которое будет выдавать среда. И от того, как он это настроит будет сильно зависеть эффективность агента (все это описано в теории RL - обучение с подкреплением)
Цитата:

При скаляризации теряем информацию об ориентации вектора - если существенны ограничения на минимальные значения проекций, то нельзя сводить дело к скалярной логике (cкалярным сравнениям). - Стоит ли высоко вознаграждать более высокую степень приближения к цели но при рискованном перерасходе важных ресурсов? (напролом или в обход?). Мы можем двигаться в тупике, cокращая расстояние до цели, но все равно упремся в непреодалимый барьер.

Так в этом-то и сложность создания ИИ. Мы должны награждать агента только в тех ситуациях, когда точно знаем, что это приближает к цели. А все остальное он должен сам...
Цитата:

КАк бы оценивать лучше не голую ситуацию целедостижения, а как продвижение к данной цели сказывается на других задачах-целях - если среда награждает движение к данной цели, то 'универсальный' агент не должен ли добавить внутренние компоненты вознаграждения в общее вознаграждение если продвижение к некоторой цели поспособствовало продвижению в других задачах - и переключиться на эти отложенные задачи раз появился шанс прогресса в них? НЕ должно ли (для 'УИИ') рассматривать собственные интересы агента против принуждения среды?

Да, именно так и должен действовать УИИ! Вот только не надо поощрять агента тогда, когда мы сами не знаем, приближает ли это состояние к цели. Лучше поощрить только тогда, когда цель будет достигнута. Иначе мы неправильно "настроили" цель (когда цель - дойти до точки D, а поощрения выдаются еще при достижени A,B и C).
Но при поощрении "в самом конце" мы получаем комбинаторной барьер, единственный способ "обойти" который для УИИ это предварительное обучение решению тех самых вспомогательных отложенных задач, на которые агент и должен переключиться и которые в конечном итоге и приблизят его к цели.
[Ответ][Цитата]
Львович
Сообщений: 303
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 17 апр 19 22:55
Изменено: 17 апр 19 22:59
Цитата:
Автор: Андрей

Если у Вас есть техническое задание, по которому Вы работали, тогда Вам никто не нужен - Вы сами можете определить соответствует то, что Вы создали, техническому заданию или не соответствует. Если же Вы не понимаете, что Вы создали, значит Вы действовали вслепую, без заранее заданной цели. А если Вам всё равно что получить, тогда всё равно что получилось.

Мне нравиться ход Ваших мыслей . Вот только создание нестандартного ИИ это не работа по "техническому заданию", а скорее научное исследование, а там есть принцип троичной неопределенности.
А тестировать и проверять требуется даже программы, написанные по четкому техническому заданию.
Цитата:

Меня интересуют такие задачи:
1. Создание аннотации заданного размера для произвольного текста.
2. Управление государством.
3. Написание музыки заданного стиля.

Да нет проблем! Сейчас вот только Deep Blue из чулана достану...
Цитата:

>идеальное мышление (без взаимодействия со средой)
Это одно из самых странных утверждений на этом форуме, из всех, что я видел. А видали мы многое.... Либо мышление обучается взаимодействуя со средой, а потом отключается от среды и... что?

Да, именно это я и имел ввиду. Есть предположение, что мышлению (мозгу, агенту, ИИ) требуется специальный режим, чтобы дообработать то, что он получил при взаимодействии со средой. Для живых существ это, в частности, сон (бессознательная обработка) и внутренние расуждения (сознательная обработка). Нужно ли это и как это реализовать - отдельная тема.
Цитата:

Вы бы не могли объяснить разницу между средой, в которой живут обычные люди и той модельной средой, которую изучаете Вы. Насколько я могу судить, среда, с которой взаимодействуют люди в повседневной жизни, подчиняется некоторым закономерностям (она - автомат), хотя при этом она частично наблюдаема. Проясните, пожалуйста, в чём разница.

Модель - потому и модель, что в ней много упрощений. Прежде всего по количеству состояний. Кроме того модель неизменяема (в части структуры графа переходов) и детерминирована (переходы происходят только под воздействием агента). В обычной жизни это не так. Но некоторыечастичные задачи жизни с некоторой степенью точности можно трактовать как идеальную автоматную среду. Как это повлияет на агента, ориентирующегося на идеальную среду, требует отдельного исследования.
[Ответ][Цитата]
гость
188.170.81.*
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 18 апр 19 2:42

Л.> это описано в теории RL

ну, кто не знает классики.. Но RL ни разу про универсального обучающегося агента. Говоря про наличие в среде 'правильного пути' на который агент просто 'натаскивается', вы не имеете в виду 'универсальную' ситуацию взаимодействия агента и среды, требующую собственно универсального ('общего') агента (когда нет создателя вознаграждений и носителя идеи правильности).

> Мы должны награждать агента только в тех ситуациях, когда точно знаем, что это приближает к цели.

хочу сказать, что если методологически 'мы' как носители внедряемой в агента цели принципиально важны, то агент не будет 'универсальным' (формирующим собственные цели, систему оценок и ценностей, приоритетов и предпочтений).

> не надо поощрять агента тогда, когда мы сами не знаем,

действие агента может (и должно) получить внутреннее поощрение (подкрепление) если оно, cкажем, привело к снижению ошибки прогноза - вертим игрушку в руках не просто так, а запоминая ее виды - и обследование продолжается пока наше знание об игрушке прирастает и способствует дальнейшим манипуляциям с ней - знаем что в такой конфигурации кукла стоит, значит можем ее поставить и включить это действие в контекст других операций с куклой.

универсальный агент это агент с комплексными механизмами обучения - через эволюцию, через подражание, через самоорганизацию карт, через подкрепление, через учителя (прецеденты) и самообучение - причем должны быть виртуальные режимы, не только в виде 'cна', но и в виде игры - в игре ведь среда, собственное тело и умственный аппарат осваиваются же не по внешним подкреплениям (не столько по ним).

> Лучше поощрить только тогда, когда цель будет достигнута.

опять же, это не общий случай - в более общем случае цели не столь конкретны, а задаются в более абстрактном виде - даже если выход из лабиринта не обнаружен, но агент условно эффективно обследовал его, то как это не поощрить?

как бы в условиях многозадачного и 'трансферабельного' RL имеет смысл поощрять действия имеющие большую вероятность стать общими, общеполезнымим, даже если текущая операционная траектория еще не привела к успеху в отношении данной цели. ВЫ сами по-моему имеете в виду нечто подобное, когда уточняете сами себя, поминая проблему распределения вознаграждения 'в самом конце' по промежуточным действиям (какое действие было решающим?) - нужно предусмотреть режим переключения на отложенные задачи и подкреплять промежуточное действие, cпособствующее улучшению видов на отложенную задачу.
[Ответ][Цитата]
гость
188.170.82.*
На: Самообучаемый агент в среде, являющейся операционным автоматом
Добавлено: 18 апр 19 4:08

Л.> В обычной жизни это не так. Но некоторые частичные задачи жизни с некоторой степенью точности
> можно трактовать как идеальную автоматную среду. Как это повлияет на агента, ориентирующегося
> на идеальную среду, требует отдельного исследования.

извините за офтоп, - про методологический дефект вашей установки (как кажется). Изначально среда не пассивна, а cодержит активных конкурентов - рассматривая интеллект как качество вырастающее из первых пробионтов. И конкуренты эволюционируют, - cреда получается как изменяющейся недоопределенный автомат - и интеллект вырастает из взаимодействия с такой средой с выраженными неавтоматными проявлениями. А форматируемый автоматом интеллект получается недоинтеллектом, образом автомата среды.. стоит ли тут искать 'универсальность'?..
[Ответ][Цитата]
 Стр.2 (4)1  [2]  3  4<< < Пред. | След. > >>