GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.62 (112)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Об одном подходе к решению задачи создания СИИ
kondrat
Сообщений: 4026
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 28 май 18 12:49
Цитата:
Автор: Траян
Единый общий принцип конечно же есть. Сомневающиеся в нем могут попробовать вживить себе пару электродов в центры боли и удовольствия (в более мягком варианте - попробовать подсесть на лошадиные дозы героина) - чтобы потом денно и ночно беспрерывно нажимать на педальку эл. подкрепления как та крыса - напрочь забыв про пищу, сон, секс и прочее - и свалиться в конце концов от полного изнеможения (или инсульта).

Странно, что Вы приводите тупик, как доказательство широчайшего выбора путей.
Макс там, наверное, есть как движущая сила, а вот что такое R?...
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 28 май 18 23:32
Изменено: 28 май 18 23:54
Цитата:
Автор: kondrat
Странно, что Вы приводите тупик, как доказательство широчайшего выбора путей.
Макс там, наверное, есть как движущая сила, а вот что такое R?...


А причем здесь доказательство "широчайшего выбора"?

Я привел пример с крысой чтобы показать, что мотивация скалярным R, т.е. на языке боль-удовольствие доминирует над всем. Что простейшие одномерные сигналы о боли или удовольствии, способные на раз перебить любые искусственные "многокритериальные оценки" и управляют - в конечном счете - всем поведением.



[Ответ][Цитата]
kondrat
Сообщений: 4026
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 29 май 18 0:33
Цитата:
Автор: Траян

А причем здесь доказательство "широчайшего выбора"?

Я привел пример с крысой чтобы показать, что мотивация скалярным R, т.е. на языке боль-удовольствие доминирует над всем.

Ну, надо сказать, что незыблемые физические законы доминируют даже и над этим правилом.
Например, после эксперимента "молотком по голове" крыса вообще никуда не денется. Тут Вы Америку не открыли.
Если я правильно понял, народ ожидает чего-нибудь посложней.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 29 май 18 1:00
Цитата:
Автор: kondrat
Если я правильно понял, народ ожидает чего-нибудь посложней.


Народ сам не понимает, чего хочет. Принцип MaxSum(дельтаR) действительно предельно прост, очевиден и банален. Именно эта простота и обеспечивает необходимую преемственность и универсальность, отсутствие каких-либо разночтений и трактовок при его использовании. Это абсолютно надежный, стальной стержень всей когниции мотивационной системы. На которую можно накрутить что угодно.

А сложность, сложность возникает - причем, неимоверная, совершенно головоломная - при попытках практической реализации этого простенького принципа в реальных условиях. Там и многокритериальность местами вылазит и много еще чего. Весь СИИ, по сути дела, заточенный на максимизацию этой суммы.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 29 май 18 1:40
Изменено: 29 май 18 1:56
Цитата:
Автор: гость
Только у человека формируются НЕНАСЫЩАЕМЫЕ вторичные потребности в отношении которых можно говорить о драйве максимизации (жажда власти, накопительство, погоня за приростом капитала) причем часто как откровенно патологическом или ненормальном. И вам мнится правильным сделать сии-агента патологично озабоченным maxR..


Почему "патологично"? Это абсолютно нормальная и естественная мотивация всех живых существ. Как бы Вы не старались, Вы не сможете привести ни единого примера опровергающего данное утверждение. Все живые существа стремятся к удовольствиям и все стараются избежать боли (даже мазохисты). Это - закон природы.

Другое дело, что источники этих удовольствий и боли у разных людей могут быть разными.

Почему Вы решили что у человека максимизация Sum(dR) обязательно выразится в "жажде власти, накопительстве, погоне за приростом капитала", а не в жажде знаний, стремлении облагодетельствовать ближнего и не в бесконечном (!) стремлении к самосовершенствованию ?

Даже самый лучший музыкальный инструмент - творение Гварнери или Страдивари - может оказаться совершенно непригодным для исполнения на нем музыкального произведения - если его предварительно правильно не настроить.

Так и самый потенциально совершенный аппарат мышления может оказаться заточенным на какофонию потребительства, разрушение, зло и насилие, а может вдруг оказаться нацеленным на достижение высших гуманистических целей, жажде стать матерью Терезой, доктором Лизой, Д.Перельманом или Толстым.

Все зависит от предварительной настройки.

А настройка для ЕИ/СИИ - это период его начальной инициации, период его воспитания и постепенного взросления. Точно так же как у человека весь его характер и привычки лежат корнями в детстве, в особенностях полученного воспитания, так и у СИИ этот период является во многом определяющим для всей его дальнейшей деятельности. (Потому- то сразу после создания СИИ можно ожидать появления новых профессий - робото-педагогов, робото-пихологов и прочих )

PS Тезис о "бесконечном (!) стремлении к самосовершенствованию" которое может обеспечить лишь принцип maxSumdR, является одним из важнейших аргументов в его пользу.

Вряд ли кому будет интересен СИИ не обладающий подобным стремлением.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 29 май 18 1:43
Цитата:
Автор: NO.
типа хотите на одних пряниках ИИ сделать


ИИ на одних пряниках - это кадавр Стругацких. Никакого титана духа и корифея так не получить - я убедился в этом в машинных экспериментах.
[Ответ][Цитата]
гость
188.170.83.*
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 30 май 18 2:39
Т.> Весь СИИ, по сути дела, заточенный на максимизацию этой суммы.

нет, это у хаттера так, причем его aixi (это и название agi-архитектуры и параметр) невычислимо, что означает. что концепция махR это лишь сверхупрощение и перенос идеи оптимального управления туда, где она иррелевантна. Грубо говоря, интеллект появляется тогда, когда появляется самовоспроизводство, управление, память, целедостижение, моделирование среды (в той или иной форме), прогнозирование етс етс - и не собственно оптимальное управление, ДО НЕГО. Тенденция к улучшению появляется рано. но сначала появляется базовый слой интеллекта как такового и только потом и поверх него начинают в какой-то степени работать наивные критерии 'оптимального' управления (у вас - максимизация приведенных удовольствий).

еще раз - организм просто живет и удовлетворяет потребности - НИКАК организм не реализует свой жизненный путь как выбор оптимального из всевозможных. Если организм предпочитает положительные ощущения против отрицательных и более положительные менее положительным (причем в действительности положительные ощущения не унифицируются полностью, а организм ориентируется на СПЕЦИФИЧЕСКИЕ данной актуальной потребности подкрепления, а не просто на 'большие') это не значит что на самом деле организм решает задачу махR. Это на искусственном полигоне можно обучать искусственного агента
собирать бонусы на основе этого принципа, когда этот принцип является единственной 'потребностью' агента - а реальный агент решает многокритериальную задачу 'жизни', - что нужно адекватно понять чтобы установить 'сии' на правильную основу..

еще раз - реальный организм это НЕ крыса в электродом - в реальности поток подкрепления переключается с потребности на потребность, а электрод лишь демонстрирует что получается, если правильную систему стимуляции заменить неправильной (и махR это неправильное вырождение системы регуляции мотивации). Рассуждение об одномерных сигналах подкрепления это потеря сути вопроса (гибкость организации реального поведения из-за того, что сигналы никак не одномерные (не унифицированные)).

такая иллюстрация. Вот целерациональный интеллект. Cигнал подкрепления по мере приблежения к цели. Если интеллект выводить ТОЛЬКО из принципа махR, то цель может оказаться самой бессмысленной (рассудок без разума). Как говорилось выше и ранее - СНАЧАЛА смыслоопределяющий слой интеллекта (содержание цели) и только ПОТОМ
совершенствование способов целедостижения. ВАжно получить интеллект ДОСТАТОЧНО подкрепляемый (жизнеспособный), пусть и неоптимальный в отношении действующих подкреплений, - если среда переменна, то важно обеспечить выживаемость, адаптивность, гибкость регуляций и оперирования моделями, а не махR. В принципе принцип махR может даже и не задействоваться.. И это может оказаться принципиальным - эти неоптимизированные организмы могут пребывать долго в условиях переменности и нестабильности и зафиксировать достаточный уровень подкрепляемости (на потребностной базе) как нормативный - и минимизировать отклонения от Norm, а не стремиться махR. Cхемы прямой самостимуляции (электроды в мозг) не жизнеспособны.

В КОНЕЧНОМ СЧЕТЕ нет никакого махR, есть Norm(Ri). Можно варьировать Norm, но одномерный максимизатор это абстракция не отражающая суть дела (из голого этого принципа каши не сваришь).

> Все живые существа стремятся к удовольствиям и все стараются избежать боли

не повторяйте мантры, а вникните в критику - организмы стремяться удовлетворить потребность и система подкрепления ориентирует организм на это, она не самоцель, принципа махR (как автономного или главного) НЕТ в реальности (базовой). Когда угрожающе голоден не ищещь удовольствий от фуагра, а ищешь хлебную корку, cожрешь и лягушку без всяких удовольствий и с болью отвращения. И вцелом жизнь это цепочка выборов разной степени 'нежадности' (неудовольствие ради возможного (!) удовольствия) (идем долиной скорбей - куда уж там максимизировать удовольствия..).

> Тезис о "бесконечном (!) стремлении к самосовершенствованию" которое может обеспечить лишь принцип maxSumdR, является одним из важнейших аргументов в его пользу.

не надо дурной литературщины. Cтремление к самосовершенствованию (как идеальная потребность) никак не подкрепляет принцип махR. Может быть так, что этот драйв будет волезависимым - РЕАЛЬНО он будет сопровождаться ПРЕОДАЛЕНИЕМ негативных ощущений (как истово верующие истязают свою плоть) и только отчасти компенсироваться идеогенными подкреплениями. Можно не купаться в море эндорфинов, а ОБМАНЫВАТЬСЯ только обещаниями (прогнозом воздаяний). Эти внутренние подкрепления могут быть не столько 'химически сильными', cколько специфичными, заточенными под определенную духовную потребность (вторичную) - организм будет не столько максимизировать превышение удовольствий над неудовольствиями, cколько обеспечивать хотя бы минимальное превышение первых над вторыми чтобы удержать поведенчески-идеологический выбор.

в более спокойных психологичесвких условиях мотив самосовершенствования встроен нормальным образом в систему потребностей-мотиваций и подпадает под обычную схему многокритериальной регуляции (без фанатизма переживаем 'cтандартную' циклограмму подкреплений без озабоченности химерой мах - поели, поспали, немного посамоусовершенствавались, поотдыхали - без той патологии когда все подчинено одномерному целевому критерию..).
[Ответ][Цитата]
kondrat
Сообщений: 4026
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 30 май 18 5:30
Цитата:
Автор: гость
В КОНЕЧНОМ СЧЕТЕ нет никакого махR, есть Norm(Ri). Можно варьировать Norm, но одномерный максимизатор это абстракция не отражающая суть дела (из голого этого принципа каши не сваришь).

Эт точно.
Крысе велели максимизировать удовольствие в течение жизни, но не дали средств продлить жизнь.
Нагляднейший пример лишения свободы воли.
Путь к большинству максэров лежит через завесу небытия.

В общем, поддержу предыдущих ораторов.
Сложные явления лучше иллюстрировать сложными опытами. А по мере усложнения опытов в этой области даже сам экспериментатор может потерять представление, что же нужно в следующий момент максимизировать.
[Ответ][Цитата]
kondrat
Сообщений: 4026
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 30 май 18 14:49
Короче, как верно заметил Хмур, Траян не хочет построить агента, который сам сможет строить оптимальное управление. Зато, хочет на основе микроагентов, поддающихся оптимальному управлению сваять адаптивного суперагента оптимального управления.
Хмур вмазывает про не вычислимость. И так можно сказать. Но я скажу ещё злее. Развитие принципиально невозможно организовать без нерациональных агентов. Причём только одного типа. Конечно, в процессе поиска могут рождаться разные типы "повстанцев", но сыграет только один.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Об одном подходе к решению задачи создания СИИ
+1
Добавлено: 30 май 18 23:45
Во всех таких подходах ошибка в том, что управление закладывается изначально. Так можно построить только некое исчисление, в котором законы не меняются и думать можно только о тождестве и выводимости. Это менталитет такой, скорее всего даже гармоны виноваты, с возрастом у некоторых проходит. Естественно-научный подход хорошо работает про неодушевленные неразумные явления, а про моделирование интеллекта там и вопросов не возникает, такого явления там просто нет и само это понятие неопределено. Получится опять какой-то физический процесс, воспроизводящий другой физический процесс. Чтобы этот менталитет изменить его нужно развивать, познакомиться с другими науками. Если интересен интеллект то наверно стоит почитать про интеллект. Это вроде бы очевидная мысль для любого цивилизованного человека, но не для физика. Они считают других наук нет, физика объясняет все от кварков до галактик. Ни у тех ни у других ума не видно, поэтому якобы интеллект большая научная проблема, "науке" даже не известно что это такое. Но скорее всего чего-то про притягивание-отталкивание.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 30 май 18 23:58
Изменено: 31 май 18 0:37
Цитата:
Автор: гость
Грубо говоря, интеллект появляется тогда, когда появляется самовоспроизводство, управление, память, целедостижение, моделирование среды (в той или иной форме), прогнозирование етс етс "

А Волга впадает в Каспийское море.

Цитата:
Автор: гость
"- и не собственно оптимальное управление, ДО НЕГО. Тенденция к улучшению появляется рано. но сначала появляется базовый слой интеллекта как такового и только потом и поверх него начинают в какой-то степени работать наивные критерии 'оптимального' управления (у вас - максимизация приведенных удовольствий)."

А с этим кто-то спорит?

Цитата:
Автор: гость
"еще раз - организм просто живет и удовлетворяет потребности - НИКАК организм не реализует свой жизненный путь как выбор оптимального из всевозможных."

Это простейшие не выбирают. Начиная с брюхоногих моллюсков и плоских червей - выбор появляется. Это следует хотя бы из того, что они способны вырабатывать условные рефлексы.

Цитата:
Автор: гость
"Если организм предпочитает положительные ощущения против отрицательных и более положительные менее положительным (причем в действительности положительные ощущения не унифицируются полностью, а организм ориентируется на СПЕЦИФИЧЕСКИЕ данной актуальной потребности подкрепления, а не просто на 'большие') это не значит что на самом деле организм решает задачу махR."

В развитых организмах есть специальная структура/формация заведующая вопросами управления поведением. Нервная система называется. Которая, собственно говоря, и решает, какое действие в данной ситуации данной животиной будет совершено.
Есссно, у разных видов степень совершенства устройства и функционала НС может быть разной. У самых примитивных выбор действия совершается после прогнозирования лишь на один шаг вперед. А там - хоть трава не расти.
Но локально реализуя жадную стратегию, они тем самым - в меру способностей, пусть и весьма посредственным, далеким от идеала образом - реализуют свое стремление к maxSumdR/(максуду). То что это у них хреновенько получается - это не их вина, это их беда, обусловленная слабостью интеллектуальных способностей.

Если бы это было не так, если бы они не стремились к получению пол. подкр. и избегать отр. мы не смогли бы у них вырабатывать условные рефлексы.

У более развитых существ НС позволяет осуществлять куда более обоснованный выбор действий, принимаемых после анализа последствий могущих наступить после совершения действий на много-много шагов вперед. Хотя и у них это делается пусть и получше, но все еще лишь в некотором приближении, далеким до идеала, образом. Идеал недостижим в принципе.

Но принцип максуд остается прежним. При сравнении различных потенциально возможных вариантов будущего выбирается, которое даст большую SumdR.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 31 май 18 0:22
Цитата:
Автор: гость
собирать бонусы на основе этого принципа, когда этот принцип является единственной 'потребностью' агента - а реальный агент решает многокритериальную задачу 'жизни',

Кто-то нам говорил про бесконечное повторение мантр-заклинаний?

Цитата:
Автор: гость
еще раз - реальный организм это НЕ крыса в электродом

Есссно.

Цитата:
Автор: гость
- в реальности поток подкрепления переключается с потребности на потребность, а электрод лишь демонстрирует что получается, если правильную систему стимуляции заменить неправильной (и махR это неправильное вырождение системы регуляции мотивации).

Доказательства?

Цитата:
Автор: гость
Рассуждение об одномерных сигналах подкрепления это потеря сути вопроса (гибкость организации реального поведения из-за того, что сигналы никак не одномерные (не унифицированные)).

Пример с крысой доказывает обратное.

Цитата:
Автор: гость
такая иллюстрация. Вот целерациональный интеллект. Cигнал подкрепления по мере приблежения к цели. Если интеллект выводить ТОЛЬКО из принципа махR, то цель может оказаться самой бессмысленной .

А такое в жизни с сапиенсами бывает сплошь и рядом. Неправильное воспитание, приводящее к неадекватному восприятию действительности. Или получение несанкционированного доступа к центру удовольствий (наркотики).

Цитата:
Автор: гость
не повторяйте мантры, а вникните в критику - организмы стремяться удовлетворить потребность и система подкрепления ориентирует организм на это, она не самоцель, принципа махR (как автономного или главного) НЕТ в реальности (базовой). Когда угрожающе голоден не ищещь удовольствий от фуагра, а ищешь хлебную корку, cожрешь и лягушку без всяких удовольствий и с болью отвращения.

Когда угрожающе голоден, то стремишься набить брюхо вовсе не затем, чтобы обеспечить выживание вида, а чтобы прекратить свои страдания. Настоящее чувство голода - это штука пренеприятнейшая, и потому все живые существа стремятся его избежать. На фоне этого чувства неприятность от процесса поедания лягушки представляется куда как терпимой (R отр. заменяется на меньшую величину).

Цитата:
Автор: гость
И вцелом жизнь это цепочка выборов разной степени 'нежадности' (неудовольствие ради возможного (!) удовольствия) (идем долиной скорбей - куда уж там максимизировать удовольствия..).

По спецом оговариваемое условие мак. удовольст и МИН.БОЛИ мы предпочитаем умалчивать?

Цитата:
Автор: гость
не надо дурной литературщины.

Юпитер, не надо сердиться. Я вот эту дискуссию на тему мотивации рассматриваю как бессмысленную потерю времени, как повторение в тысячный раз прописных истин, мне куда интереснее сейчас идти дальше, говорить о механизмах сознания - но я же держу себя в рамках.

Цитата:
Автор: гость
Cтремление к самосовершенствованию (как идеальная потребность) никак не подкрепляет принцип махR. Может быть так, что этот драйв будет волезависимым - РЕАЛЬНО он будет сопровождаться ПРЕОДАЛЕНИЕМ негативных ощущений (как истово верующие истязают свою плоть) и только отчасти компенсироваться идеогенными подкреплениями.

Верно. Но волевое усилие порождается тем самым максудом. Когда при анализе варианта будущего определяется, что за серией отр. подкреплений затем последует колоссальное положительное.

Цитата:
Автор: гость
Эти внутренние подкрепления могут быть не столько 'химически сильными', cколько специфичными, заточенными под определенную духовную потребность (вторичную) - организм будет не столько максимизировать превышение удовольствий над неудовольствиями, cколько обеспечивать хотя бы минимальное превышение первых над вторыми чтобы удержать поведенчески-идеологический выбор

Верно. Причем эта духовная потребность задается в первую очередь полученным в детстве воспитанием (построенными тогда базовыми моделями мира).
[Ответ][Цитата]
гость
188.170.75.*
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 31 май 18 7:23
Т.> А Волга впадает в Каспийское море.

а вот не шутите так - это ж вам плохо известно что помимо физической географии есть экономическая и прочие - что скалярная оптимизация это частный случай и что с многомерными величинами можно работать без их скаляризации ('обязательной' по вашему).. в конце концов странно же думать, что отобразив точку многомерного пространства на одномерную шкалу суммы ее координат вы ничего не потеряли в представлении..

> Начиная с брюхоногих моллюсков и плоских червей - выбор появляется.

появляется выбор из локальных альтернатив ('не поверну направо раз там бьют током'), а не организация поведения в перспективе максимизации Роз-Neg на горизонте жизни. Приемлемость (по локальным критериям выбора) локальных выборов обеспечивает только приемлемость жизненной траектории, а не ее максимизирующий глобальный характер.

условные рефлексы есть продукт жизненного опыта - отражают цепочку локальных ситуаций фиксации корреляций стимулов, - без каких либо гарантий что они обеспечивают махR. Рефлекс выработался на подкреплении, пока рефлекс угасает или переделывается на неподкреплении происходит отклонение от возможного более оптимального поведения (когда не совершается неэффективное действие). Выработка рефлекса это адаптивная стратегия для более эффективного получения безусловных подкреплений - в их НОРМАЛЬНОМ (cогласно расписанию потребности), а не максимальном количестве.

> принцип максуд остается прежним.

это ваша мантра - нет в реальности такого принципа (это идеализация и частное понимание общих принципов) - вы не максимизируете гастрономические, cексуальные, глорические и мн. проч. удовольствия - а получаете их по возможности и потребностному императиву, легко довольствуясь приемлемым, а не 'cамым лучшим'.

> Пример с крысой доказывает обратное.

перестаньте спорить не вникнув в возражения - пример с крысой показывает что в реальности принцип максимизации удовольствий не действует - пример с крысой показывает что этот принцип (в его ГОЛОМ виде) действует разрушающе - что само по себе поведение на основе только этого принципа будет слишком регидным и эволюционно неприемлемым (невыживающим). В реальности действует принцип нормализации потребностного напряжения, в действующих ограничениях выбирается локально относительно лучшее, а не встраивается жизненная траектория в ориентации на сбор максимума ценностей в какой-то абстрактной шкале универсальной ценности ценностей.

> Настоящее чувство голода - это штука пренеприятнейшая,

этот пример показывал, что организм стремиться уменьшить негативное ощущение голода, а не делать это каждый раз так, чтобы максимизировать пожизненную сумму гастрономических ощущений, - когда все подчиняется обжорству или погоне за все более тонкими гастроудовольствиями, это такая же ненормальность как электрод у крысы (с соотв. поведением). НОрмально следовать циклограмме потребностей и в меру возможности удовлетворять ненасыщаемые вторичные потребности - а не пытаться решить неопределенную задачу 'максимизации'. Если в ходе жизни происходит прирост приведенного позитива это не значит что он ОБЯЗАН БЫТЬ собран с ориентацией на максимизацию из возможного. Даже когда бесишься с жиру, то это не значит что твои суммы есть максимумы в объективном смысле (что упущено при вырождении критерия выбора поведения?).

> мак. удовольст и МИН.БОЛИ мы предпочитаем умалчивать?

я ж специально ранее говорил о том, что более общая стратегия это не скалярный максимум разницы, а векторная нормализация. Если достаточно нормализован можно попробовать и максимизнуть что тебе взбрело в голову, но никак не наоборот.

> Юпитер, не надо сердиться.

я не сержусь, а недоумеваю зачем вам спорить если предмет не представляется вам особо важным и тем более спорить, когда истина скорее всего не за вами.. О сказанном вами насчет сознания ранее и в перспективе я обязательно выскажусь.

> я же держу себя в рамках.

вы молодец

> Когда при анализе варианта будущего определяется, что за серией отр. подкреплений затем последует колоссальное положительное.

но в реальности ожидания часто обманываются - значит УЖЕ максимизируются не подрепления, а оценки возможных подкреплений - построение поведения с ориентацией на будующие подкрепления это ДОБАВОЧНЫЙ механизм который может позволить себе нормализующий базис. Жизненная энергия организма распределеяется между нормализующим базисом и часто с дуру максимизирующей надстройкой - и все эти максимизации это эфимеры.
[Ответ][Цитата]
Траян
Сообщений: 1063
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 02 июн 18 1:33
Изменено: 02 июн 18 1:43
To 188

> в конце концов странно же думать, что отобразив точку многомерного пространства на одномерную шкалу суммы ее координат вы ничего не потеряли в представлении..
=============
Одно другому не мешает. Скажем, строя обобщенную оценку прошедшего дня - "это был хороший день", "это был плохой день", "это был день на троечку", мы вовсе не обязательно должны терять видение дня как сложного явления, состоящего из множества событий, деталей, нюансов, встреч, новостей, локальных подкреплений и прочего

> Выработка рефлекса это адаптивная стратегия для более эффективного получения безусловных подкреплений - в их НОРМАЛЬНОМ (cогласно расписанию потребности), а не максимальном количестве.
==============
Возьмем стороннего наблюдателя изучающего поведение агента - способного вырабатывать простейшие одно-шаговые условные рефлексы.
Наблюдатель видит, что агент старается не поворачивать туда, где получил удар током и вообще делать то, за что его наказывали отр. подкреплениями.
А старается делать то, что давало положительные. подкр.
Причем, при выборе из двух действий он выбирает то, что давало большее.

Имеет ли право этот Наблюдатель сказать, что данный агент - по факту! - реализует поведение максимизирующее - в меру его разумения и имеющихся интеллектуальных способностей по постройке моделей и прогнозированию - сумму dR? Да или нет?

> это ваша мантра - нет в реальности такого принципа (это идеализация и частное понимание общих принципов) - вы не максимизируете гастрономические, cексуальные, глорические и мн. проч. удовольствия - а получаете их по возможности и потребностному императиву, легко довольствуясь приемлемым, а не 'cамым лучшим'.
===================
Я, кажется, начинаю догадываться, что именно Вы не понимаете в принципе максуда - и что является источником наших разногласий. Вы считаете, что в максуде величина подкрепления (ощущения боли-удовольствия") от некоего стандартного физического воздействия на штатные сенсоры ("гастрономические, сексуальные, глорические и мн. проч. удовольствия") - является некой неизменной константой.

А это далеко не так. И я об этом говорил в самом начале этой бессмысленной дискуссии.
Сигналы от штатных сенсоров всегда проходят предобработку и рассматриваются в контексте общей ситуации и лишь потом лимбическая система порождает а затем и решает, как и какое ощущение боли-удовольствие будет выдано в высшие управленческие отделы.

> пример с крысой показывает что этот принцип (в его ГОЛОМ виде) действует разрушающе - что само по себе поведение на основе только этого принципа будет слишком регидным и эволюционно неприемлемым (невыживающим).
=================
Есссно. Прямое (не опосредованное) воздействие на центры боли-удовольствия является абсолютно недопустимым. Ломающим всю систему. Позволю себе привести самоцитату:
"Нормальное существо привести свою эмоцию в желательное состояние (то, какое состояние эмоции желательно, определяется его метацелью), только воздействуя на внешнюю среду, потому что состояние самой значимой составляющей эмоции, т.е. первичной эмоции (по Вайнцвайгу) зависит только от состояния внешней среды. Именно это обстоятельство принуждает устройство к активным внешним действиям. В тех абсолютно недопустимых случаях, когда у устройства появляется возможность изменять величину эмоции не опосредованно, а напрямую (например, у некоторых живых существ это может происходить при химической или электрической самостимуляции центра удовольствия расположенного между гипоталамусом и лимбической системой), его интеллект будет разрушаться, вследствие того, что искусственно создаваемые этим устройством приращения к величине метацели, будут неадекватны условиям внешней среды (такие приращения противоречат той концепции метацели, которая приводит к возникновению и существованию интеллекта)."

Но пример с крысой хорош тем, что он дает нам возможность рассматривать воздействие приблизительно одинаковых по своей величине подкреплений (т.е. полностью выключив внутреннюю систему генерации подкреплений, заменив ее электродом). И это эксперимент ясно и четко показывает, что поведение жив. существ и на самом деле определяется принципом максуд.


> Настоящее чувство голода - это штука пренеприятнейшая,
этот пример показывал, что организм стремиться уменьшить негативное ощущение голода, а не делать это каждый раз так, чтобы максимизировать пожизненную сумму гастрономических ощущений, - когда все подчиняется обжорству или погоне за все более тонкими гастроудовольствиями, это такая же ненормальность как электрод у крысы (с соотв. поведением).
============================
Есссно. Но ведь сами по себе гастрономические яства не содержат в себе никаких ощущений, не содержат ни боли, ни удовольствия.
Точно так же как квалиа-ощущение красного не содержится в красном яблоке,
как пряный вкус мясного бульона не содержится в супе-фрикассе, так и ощущения боли-удовольствия не содержатся в физических кнуте и прянике с помощью которого мы пытаемся влиять на агента.

Удовольствие от поглощения пищи порождается внутренней "эмоциональной" системой агента. А система эта чрезвычайно гибка, мобильна и адаптивна.
Тут уж эволюция расстаралась и постаралась сделать так, чтобы приятное и неприятное порождаемое в ответ на состояние организма в наибольшей степени соответствовало задаче выживания.

Черствая корочка хлеба съеденная человеком голодным доставит ему куда больше удовольствия, чем съеденный при переполненном желудке трюфель.
А если того же голодного человека засунуть под воду, то он - отчаянно пытаясь выбраться на поверхность - на время забудет и о неприятном чувсте голода.

Т.е. максимизировать сумму dR за счет поедания корочек ну никак не получится. Можете даже не стараться. Придется переключиться на что-то другое.

Это - самый простой пример. А в реальности эта древняя система мгновенно учитывает и интегрирует тысячи, если не миллионы изменчивых параметров, наличествующих в данный момент обстоятельств и условий. Чтобы итоговая оценка отражала весь текущий контекст. Есссно, на пути создания такой оценки возможны и потери и неточности (про это я писал раньше), но это те издержки, на которые приходится идти.


> но в реальности ожидания часто обманываются - значит УЖЕ максимизируются не подкрепления, а оценки возможных подкреплений - построение поведения с ориентацией на будующие подкрепления это ДОБАВОЧНЫЙ механизм который может позволить себе нормализующий базис.
===============
Ессссно, в аппарате управления поведением агента при выборе действия (прогнозировании будущих последствий) максимизируются не суммы самих подкреплений, а суммы мат. ожиданий. (А Вы думаете для чего я городил свою БМП? ) , но это означает лишь то, что агент функционирующий в реальном а не идеальном мире может стремиться к максуду лишь в меру имеющихся у него возможностей.
[Ответ][Цитата]
гость
188.170.72.*
На: Об одном подходе к решению задачи создания СИИ
Добавлено: 02 июн 18 3:59

Т.> Одно другому не мешает.

вы должны осознать что 'cамо собою разумеющаяся необходимость скаляризации' является умственным наваждением. ПОложение о том, что аддитивная свертка многих критериев при решении задач векторного выбора не является универсальным решением, давно является общим местом.

> Да или нет?

так c чего вы взяли, что наблюдаемый выбор это выбор наибольшего (а не просто большего) положительного подкрепления? ВЫ реальную механику выбора подводите под нормативную упрощающую (якобы рациональную) теорию выбора.

Ассоциативная память организмов не совершенна и из ассоциативной памяти не сразу извлекается энграмма выбора с наибольшим количеством подкрепления, извлеченные энграммы еще оперативно сравниваются и их веса дополнительно модулируются ситуацией - за исключением простейших случаев вовсе не очевидно какой выбор доставит наибольшее подкрепление - при лимите времени выбирается приемлемая поведенческая программа, а не доставляющая обязательно максимум подкрепления. Это на локальном уровне. Хотя
локальные субоптимальные выборы (если вообще можно говорить об объективно оптимальных) вызывают корректировки весов программ по результатам, но и глобально выстраивается жизненная линия 'субоптимальная' - оринтированная на нормализацию, а не на максимизацию. (Исходно ваш тезис был относительно глобальной максимизации суммы полученных подкреплений.)

> что именно Вы не понимаете в принципе максуда

- а потом вы дали некоторую иллюстрацию того, что механизм выбора сложноустроен (контекстуализация оценок возможного вознаграждения, борьба мотивов, переоценки) - что максуд это только частный (простой) случай.

боюсь, это вы недопонимаете корня разногласий. Выбор (поведенческий) осуществляется как производное от комплекса механизмов - рациональная модель выбора не подводится под один принцип - поведение может быть поведением подчинения правилу (инстинкту), целеориентированным, ценностным - чем сложнее организована система организации поведения тем проблематичнее подчинение ее единственному критерию.
вцелом все выросло из необходимости обеспечить выживание (и индивида и рода) - и механизм вознаграждения это подчиненный механизм для эвристического огбеспечения императива выживания. Когда вы говорите о главенстве принципа максуд вы выстраиваете концептуально неверную схему (для 'общего интеллекта'), производное делаете порождающим (первообразным).

в конце концов даже в области обучения с подкреплением можно выстраивать схему управления не только по выбору наибольшей награды, но и по ошибке прогноза награды - равно как иметь в виду и комплексный характер интегрального механизма (нормализатор + максимизатор). ОБманувшись с большими обещаниями в дальнейшем механизм выбора-сравнения альтернатив будет принимать во внимание и другие факторы, а не только величину обещанного вознаграждения. КАк пример - если предстоит вкуснейшая трапеза, но
происходит что-то неожиданное, то имеет смысл отвлечься от максуд и поинтересоваться происходящим (что само по себе вовсе не обещает каких-то конкретных вознаграждений). Доминировать станет ориентировочное поведение, а не пищевое. Оправданность этого зашита в приоритетах etc, а не в непосредственном взвешивании прогнозов-ожиданий вознаграждений. Есть критерий величины вознаграждения, есть критерий неожиданности (важности по неожиданности, рассогласованию, ошибке прогноза), есть относительные важности критериев - вцелом есть динамическая систуация многокритериального выбора.

> пример с крысой хорош тем

вы верно констатируете что прямая самостимуляция разрушает интеллект и тут же предлагаете сделать принцип макcуд корневым принципом интеллекта.. Изменение системы актуализирует принцип максуд (cистема вырождается) - что означает что интактная система построена на противоречивых критерях (принцип максуд не доминирует) и постоянно ищет компромисс (векторный), а не скалярный оптимум.

> Черствая корочка хлеба съеденная человеком голодным доставит ему куда больше удовольствия,

однако вы предпочтете регулярный дежурный обед столь же регулярным пропускам ради большего удовольствия от корочки. ВЫ подчиняетесь физиологической (и психологической, и культурной) норме, а не максимизации возможных удовольствий от еды (когда любовь вкусно поесть перерастает в патологию как трансформируется поведение крысы при заголении принципа максуд). Что мешает вам вслед за французскими королями откушать, cблевануть и снова откушать? ВЫ подчинены норме, cтереотипу etc - а не универсальному (якобы) правилу максимизировать (и локально, и глобально).

вцелом ЕСТЕСТВЕННЫЙ агент стремится получить ДОСТАТОЧНЫЕ подкрепления (быть парето-оптимальным), а не 'максимум суммы'. Если скаляризация происходит по-разному (переменность относительной важности критериев), то вообще говоря Sum(maх)<>Max (глобальный Mах требует в общем случае нежадных локальных принципов, и вообще говоря нежадные локальные принципы выбора (будучи самодостаточными) должны гарантировать выживаемость, а не глобальный максимум - для открытой ситуации продолжающейся жизни объективный максимум это какая-то метафизическая химера).

еще и еще раз - стремление выбирать локально 'что по-лучше' (по-больше доставит радости, удовольствия, субъективной пользы) это НЕ принцип максуд в вашей трактовке (что организм подчинен закону максимизировать сумму РОз-Neg на горизонте жизни (при прогнозе) и на траектории жизни). На этом принципе можно строить искусственного агента - но не нужно выдавать его за решающего проблему интеллектуального-рационального поведения исчерпывающе. В конце концов вопрос об универсальной ценностной шкале не решен.
[Ответ][Цитата]
 Стр.62 (112)1  ...  58  59  60  61  [62]  63  64  65  66  ...  112<< < Пред. | След. > >>