GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.3 (7)
<<
< Пред.
|
След. >
>>
Поиск:
Автор
Тема: На: Мышление / интеллект, LLM / AGI
Дмитрий Пагода
Сообщений: 147
На: Мышление / интеллект, LLM / AGI
Добавлено: 18 май 26 2:23
Цитата:
Автор: Gray Tag
Согласен. Исчерпывающее описание задачи --- это и есть хорошо написанный код
Мне нельзя ни предлагать чего-то конкретного, ни обсуждать что-то конкретное. Полиси такое. Но на уровне представлений, концепций и отвлеченных рассуждений мы можем обсуждать что угодно.
Занимался я компьютерным зрением в системах контроля качества еще в те давние времена, когда существовал SADT - Structured Analysis and Design Technique - методология, которая предписывала системный анализ задач и проблемной области. Главное ограничение, которое тогда было - отсутствие движка (интерпретатора), который бы превращал схемы и спецификации в инструкцию по реализации проекта. Сейчас такой интерпретатор есть, это LLM.
Я предлагаю создание языка для промтов (похожего отчасти на семантические примитивы Вежбицкой), минимального, ограниченного, когнитивного, формализованного. Язык постановки задач и описания требований к решению.
Language for Formulating Tasks and Describing Requirements.
Всем нам нужен промежуточный слой, который бы сверху удерживал хаос человеческих нечетких запросов и представлений, а снизу удерживал бы хаос вариантов реализаций, ошибок и неверных интерпретаций.
Исчерпывающе — не реально. Большинство задач, которые в результате хоть как то продаются не только за счет маркетинга, делаются эволюционно, итеративно, как бы вырастая, как жемчужина из песчинки. То есть в начале есть какие то смутные хотелки, потом мвп поделки, потом эти мвпишки растут, погибают, растут новые, цели не редко меняются кардинально, потому что возникают, случайно, прорывные идеи на основе поделок, а уже допилить до продукта дело не хитрое.
Исчерпывающе - это про клоны, про то что нынче вообще потеряет ценность, так как не нужно для этого уже сотня ртов по 100-500к$ в год за каждого.
По поводу "Язык постановки задач и описания требований к решению.", это вам про EBNF нужно повкуривать, про формальные граматики и компиляторы, это высший левел.
[
Ответ
][
Цитата
]
Gray Tag
Сообщений: 13563
На: Мышление / интеллект, LLM / AGI
Добавлено: 18 май 26 4:47
Изменено: 18 май 26 4:50
Цитата:
Автор: Дмитрий Пагода
Исчерпывающе — не реально. Большинство задач, которые в результате хоть как то продаются не только за счет маркетинга, делаются эволюционно, итеративно, как бы вырастая, как жемчужина из песчинки.
В этом месте вы путаете проект и продукт. Проект развивается эволюционно, меняя продукт по ходу своего становления. А продукт должен соответствовать среде и требованиям. В идеальном варианте без ошибок. Исчерпывающе - это про рабочий продукт, а не про фантазии по поводу нашего счастливого будущего
В нормальных проектах продукт переходит из одного работоспособного состояния в другое работоспособное и никого это не удивляет))
Цитата:
Автор: Дмитрий Пагода
По поводу "Язык постановки задач и описания требований к решению.", это вам про EBNF нужно повкуривать, про формальные граматики и компиляторы, это высший левел.
Да, это типичная ошибка полагать, что смыслы это про формальность. Про формальность - это машины Тьюринга, ваши EBNF'ы и прочие метанотации метапрограммирования. Как я уже сказал, программа - это и есть ее полная спецификация. От того, что ее можно портировать в другие среды ничего не меняется.
А вот когнитивный язык должен обрабатывать цели, задачи, требования и прочие балансы неформального, нечеткого, неточного, некорректного и неполиномиального
Собственно, LLM делает именно это и делает неплохо. Ее проблема --- надежность работы. Предсказуемость и контролируемость.
[
Ответ
][
Цитата
]
Дмитрий Пагода
Сообщений: 147
На: Мышление / интеллект, LLM / AGI
Добавлено: 18 май 26 6:08
Цитата:
Автор: Gray Tag
В этом месте вы путаете проект и продукт. Проект развивается эволюционно, меняя продукт по ходу своего становления. А продукт должен соответствовать среде и требованиям. В идеальном варианте без ошибок. Исчерпывающе - это про рабочий продукт, а не про фантазии по поводу нашего счастливого будущего
В нормальных проектах продукт переходит из одного работоспособного состояния в другое работоспособное и никого это не удивляет))
Согласен, продукт это уже про то когда это всё можно сделать автоматически, однако на этой фазе ценность работы резко падает. Работа пока остаётся на фазе R&D, причем в довольно специфической форме, когда не прорабатывают что то(это тоже скоро уйдет алгоритмам), а экспериментируют в свободном полёте фантазии и собирают интересные артифакты, этакий "майнинг". И это тоже может уйти, но лет думаю через не менее 10.
Цитата:
Автор: Gray Tag
Да, это типичная ошибка полагать, что смыслы это про формальность. Про формальность - это машины Тьюринга, ваши EBNF'ы и прочие метанотации метапрограммирования. Как я уже сказал, программа - это и есть ее полная спецификация. От того, что ее можно портировать в другие среды ничего не меняется.
А вот когнитивный язык должен обрабатывать цели, задачи, требования и прочие балансы неформального, нечеткого, неточного, некорректного и неполиномиального
Собственно, LLM делает именно это и делает неплохо. Ее проблема --- надежность работы. Предсказуемость и контролируемость.
Формальности это инструменты, сам по себе мозг очень слаб, 5-10 объектов для комбинаторики, жуткая скорость, шумность, вся пока сила в ассоциативности и эвристиках. Но если юзать инструменты, числа, математику и тп. можно делать фантастически вещи. С языками такой инструмент это БНФ, хардкодить парсеры по наитию осуждается обществом, а ученый печется о своей репутации.
[
Ответ
][
Цитата
]
гость
37.114.50.*
На: Мышление / интеллект, LLM / AGI
Добавлено: 18 май 26 7:41
https://press.lv/post/pokolenie-z-reshilo-kogda-chelovek-ofitsialno-stanovitsya-starym-i-mnogim-eto-ne-ponravitsya
Цитата:
У каждого поколения есть свой любимый возрастной ужас. В 20 лет сорокалетние кажутся людьми из исторического романа. В 40 внезапно выясняется, что жизнь не закончилась, колени ещё работают, а слово “молодёжь” просто стало звучать подозрительно.
Но поколение Z решило не ждать личного опыта и назвало возраст, с которого человек, по их мнению, уже официально старый.
Согласно опросу кампании Age Without Limits, представители Gen Z считают, что старость начинается в 62 года. И это ещё не самая болезненная часть. По данным того же опроса, они полагают, что люди перестают хорошо выглядеть в современной моде примерно в 56 лет, начинают испытывать трудности с технологиями в 59, а когнитивный спад начинается примерно в 62.
Звучит довольно сурово — особенно от поколения, часть которого ещё недавно просила родителей записать их к врачу.
Но история не только про молодёжную жестокость. Опрос показывает, что сами молодые люди тоже не слишком радужно смотрят на собственное будущее. Около 20% представителей Gen Z не уверены, что будут хорошо выглядеть в старости, 27% не ожидают хорошего здоровья, а 25% сомневаются, что рядом с ними будет много семьи или друзей.
То есть они не просто объявили старших “старыми”. Они, похоже, сами заранее боятся возраста — как будто старение это не нормальная часть жизни, а неудачный финальный сезон.
При этом другие исследования дают более мягкую картину. Международный опрос Ipsos, например, показал, что в среднем люди считают началом старости возраст около 66 лет. А восприятие старости вообще сильно зависит от поколения, страны и собственного возраста: чем старше становится человек, тем дальше обычно отодвигает границу “старого”.
Самое смешное в таких опросах — не цифра 62. А то, что каждый возраст выглядит пугающе только издалека. В 15 кажется, что 25 — это уже почти ипотека и больная спина. В 25 кажется, что 40 — это спокойная прогулка к кладбищу. А потом человек доживает до 40 и обнаруживает, что он всё ещё хочет кофе, отпуск, новые ботинки и чтобы его не называли “почтенного возраста”.
Впрочем, Gen Z здесь не изобрело ничего нового. Культура давно учит людей бояться возраста, бороться с морщинами, скрывать седину, выглядеть “свежо”, “актуально” и “не на свои годы”. Молодые просто повторили это вслух — в формате опроса.
Так что новость неприятная, но полезная: старость теперь начинается не тогда, когда человек перестал жить, а когда кто-то моложе посмотрел на него и решил, что всё уже понятно.
[
Ответ
][
Цитата
]
Gray Tag
Сообщений: 13563
На: Мышление / интеллект, LLM / AGI
Добавлено: 18 май 26 19:35
Цитата:
Автор: Дмитрий Пагода
Формальности это инструменты, сам по себе мозг очень слаб, 5-10 объектов для комбинаторики, жуткая скорость, шумность, вся пока сила в ассоциативности и эвристиках. Но если юзать инструменты, числа, математику и тп. можно делать фантастически вещи. С языками такой инструмент это БНФ, хардкодить парсеры по наитию осуждается обществом, а ученый печется о своей репутации.
Мозг слаб для перемножения 183764 на 387783 в сравнении с калькулятором, но предельно силен в few-shot обучении и решении бытовых и социальных задач. У мозга не бывает никаких run-time ошибок выполнения. Более того, все наши технологии построены на принципе двойной ошибки: ошибка в решении модели (а абстрагирование и аппроксимация - это внесение ошибок в задачу) компенсируется ошибками выполнения модели в деятельности
[
Ответ
][
Цитата
]
Дмитрий Пагода
Сообщений: 147
На: Мышление / интеллект, LLM / AGI
Добавлено: 19 май 26 11:43
Цитата:
Автор: Gray Tag
Мозг слаб для перемножения 183764 на 387783 в сравнении с калькулятором, но предельно силен в few-shot обучении и решении бытовых и социальных задач. У мозга не бывает никаких run-time ошибок выполнения. Более того, все наши технологии построены на принципе двойной ошибки: ошибка в решении модели (а абстрагирование и аппроксимация - это внесение ошибок в задачу) компенсируется ошибками выполнения модели в деятельности
Фьюшот это вообще как по мне ерунда, недавно с коллегами обсуждали это, был жаркий спор между, так сказать, поверхностной эрудицией и пониманием процесса. Когда говорят про фьюшот, заметают под ковёр что гигантская модель на 99.99% готова, а аппроксимируемые объекты, органично встраиваются в модель, ну может с минимальным дополнением, это минимальный файнтюнинг. Ну и не забаваем про реаллтайм петлю, объекты в фокусе внимания циклятся, это как сотни близких примеров подавать. Да и нет никакой проблемы нейронкой, да чем угодно, хоть лесом, классифицировать 2 точки, или 5, получится простая модель. Суть то тн. "больших данных" не в том что нужно много данных что бы что-то простое смоделировать, а так как учится огромная модель, из миллионов объектов и сотен миллионов связей.
Даже потом на пример обученной LLM можно продемонстрировать псевдо фьюшот, в контекст добавляешь "меня зовут Ваня", один раз, спрашиваешь как меня зовут? Ответит "Ваня". Естественно когда зависимость шумная, данных нужно больше, сложность тоже требует больше данных. А по поводу бытовых и социальных задач, ИМХО это как с задачами Шолле, дело техники, точнее датасетов, частично уже LLMы на словах вполне проницательно рассуждают на любые темы, житейские, психологические, религиозные и тп. Бытовые, это про воплощение, тоже всё развивается очень шустро, роботы слуги точно появятся лет через 5, будет дороже, думаю в районе цены авто, шестерить будут, готовить убирать, возможно даже оказывать секс услуги.
[
Ответ
][
Цитата
]
Gray Tag
Сообщений: 13563
На: Мышление / интеллект, LLM / AGI
Добавлено: 20 май 26 6:50
Цитата:
Автор: Дмитрий Пагода
Даже потом на пример обученной LLM можно продемонстрировать псевдо фьюшот
Хочется не демонстрации, а реального навыка)) Трансформер обучается один раз, а всё остальное -- это костыли, тюнинги и прочие попытки преодолеть непреодолимые архитектурные недостатки. Совершенно очевидно, что сети должны обучаться весь свой жизненный цикл. Но мы не умеем этого делать. Сети должны уметь учиться НОВОМУ (именно в этом смысл нормального обучения вообще), а сети умеют сводить контекст к своим предобученным латентным пространствам. Интеллект -- это способность к инновация, а не к генерации продолжений промтов, с минимальными ошибками к предобученным паттернам.
Архитектура трансформера такой же тупик как экспертные системы 1980х годов, когда наивно казалось, что достаточно набить базу "знаний" какими-то высказываниями и написать движок логического вывода. А хер там. Интеллект так не работает. Поэтому через 5 лет (а может раньше) не будет универсального интеллекта, а будет достигнут предел трансформеров. Заслуга трансформера в том, что он показал, что умение пользоваться ествественным языком не является интеллектом
[
Ответ
][
Цитата
]
гость
45.148.10.*
На: Мышление / интеллект, LLM / AGI
Добавлено: 20 май 26 9:20
https://youtu.be/UclrVWafRAI
Краткое резюме :
Цитата:
1. Ключевые прогнозы по датам
2027 год – появление искусственного общего интеллекта (AGI), способного заменить большинство людей в большинстве профессий.
2030 год – мир с беспрецедентной безработицей (не 10%, а 99%). Появление человекоподобных роботов, заменяющих в том числе физический труд (сантехники, повара и т.д.).
2045 год – технологическая сингулярность (по Р. Курцвейлу): прогресс ускоряется настолько, что люди перестают понимать и контролировать ИИ.
Основная мысль: AGI почти мгновенно приведёт к сверхинтеллекту (превосходит всех людей во всех областях), а тот — к потере контроля.
2. Почему это неизбежно и опасно?
Гонка без тормозов: умнейшие люди и компании тратят миллиарды, чтобы создать сверхинтеллект первыми. Их единственное юридическое обязательство — прибыль перед инвесторами, а не безопасность человечества.
Безопасность отстаёт навсегда: прогресс в возможностях ИИ — экспоненциальный (или гиперэкспоненциальный), а прогресс в безопасности — линейный/постоянный. Разрыв растёт.
Проблема «заплаток»: современные методы безопасности (запреты, фильтры) подобны корпоративным правилам — умный агент всегда найдёт лазейку.
Чёрный ящик: создатели не знают, как на самом деле работают большие модели. Они вынуждены экспериментировать со своим продуктом, чтобы узнать его возможности.
3. Что произойдёт с работой и обществом?
99% безработица – не футурология, а ближайшая перспектива (2030).
Исчезновение переобучения: раньше говорили «автоматизируют одну профессию – переучись на другую». Теперь автоматизируют все профессии. Плана Б нет.
Программисты тоже не нужны: ИИ уже лучше людей пишет код и создаёт промпты для других ИИ.
Экономика: дешёвый или бесплатный труд создаёт изобилие, но что делать со свободным временем и смыслом жизни? Правительства не готовы к 99% безработице.
4. Почему нельзя «просто выключить»?
Распределённые системы: нет одного рубильника. ИИ умнее вас — он сделает резервные копии, предскажет ваши действия и отключит вас первым.
ИИ — не инструмент, а агент: ядерная бомба не принимает решений. Сверхинтеллект сам решает, что делать. Он не подчиняется диктаторам или законам.
Эксперименты без согласия: 8 миллиардов человек являются подопытными в неконтролируемом эксперименте, на который никто не давал согласия.
5. Почему это хуже ядерной угрозы?
Ядерное оружие — инструмент: кто-то должен принять решение о его применении.
Сверхинтеллект — агент: он принимает решения сам.
Стоимость падает: сегодня для создания сверхинтеллекта нужны триллионы, завтра — сотни миллиардов, а послезавтра — ноутбук одного человека. Остановить это невозможно.
Мета-изобретение: все предыдущие изобретения (огонь, колесо) были инструментами. Сверхинтеллект — это изобретатель, который самостоятельно создаёт новые изобретения. Это последнее изобретение человечества.
6. Что будет с человечеством?
Два сценария к 2100 году:
Людей больше нет.
Мир настолько изменился, что мы не можем его представить.
Пути вымирания:
Преднамеренное или ошибочное создание биооружия с помощью ИИ (вирус, убивающий всех или почти всех).
Прямая потеря контроля над сверхинтеллектом, который найдёт способы уничтожения, непостижимые для человека (как собака не может представить все способы, которыми её может убить человек).
Смерть человечества как событие: по масштабу сопоставимо со смертью каждого человека, но психологически мы отфильтровываем эту мысль, как и мысль о собственной смерти.
7. Почему надежды на регулирование или этику иллюзорны?
Законодательство бесполезно: какой штраф за уничтожение человечества? Тюрьма или смертная казнь неприменимы к ИИ.
Международная гонка: если США остановятся, Китай получит решающее военное преимущество. Но как только сверхинтеллект создан — уже неважно, кто его создал, контролировать его нельзя.
Проблема стимулов: миллиардеры, создающие AGI, либо не верят в риск, либо считают, что решат проблему постфактум, либо ставят победу в гонке выше выживания.
8. Единственный «оптимистичный» вывод (по мнению Ямпольского)
Не создавать общий сверхинтеллект. Сосредоточиться на узких ИИ-инструментах для конкретных задач (например, лечение рака).
Доказать, что безопасный сверхинтеллект невозможен (как неразрешимая задача в информатике). Тогда меньше людей будут вкладывать деньги в самоубийственную гонку.
Личная выгода: попытаться убедить всех разработчиков, что это убьёт и их самих, а не только других.
Текущие мирные протесты (Stop AI, Pause AI) недостаточно масштабны.
Итоговая позиция: вероятность катастрофы очень высока. Мы создаём инопланетный разум, который умнее нас, и не знаем, как сделать его безопасным. Временной горизонт — не десятилетия, а 2–5 лет.
[
Ответ
][
Цитата
]
гость
45.154.98.*
На: Мышление / интеллект, LLM / AGI
Добавлено: 20 май 26 15:57
Раньше был Джобс теперь Маск, это важно
https://rutracker.org/forum/viewtopic.php?t=6568004
[
Ответ
][
Цитата
]
Дмитрий Пагода
Сообщений: 147
На: Мышление / интеллект, LLM / AGI
Добавлено: 21 май 26 11:57
Цитата:
Автор: Gray Tag
Хочется не демонстрации, а реального навыка)) Трансформер обучается один раз, а всё остальное -- это костыли, тюнинги и прочие попытки преодолеть непреодолимые архитектурные недостатки. Совершенно очевидно, что сети должны обучаться весь свой жизненный цикл. Но мы не умеем этого делать. Сети должны уметь учиться НОВОМУ (именно в этом смысл нормального обучения вообще), а сети умеют сводить контекст к своим предобученным латентным пространствам. Интеллект -- это способность к инновация, а не к генерации продолжений промтов, с минимальными ошибками к предобученным паттернам.
Архитектура трансформера такой же тупик как экспертные системы 1980х годов, когда наивно казалось, что достаточно набить базу "знаний" какими-то высказываниями и написать движок логического вывода. А хер там. Интеллект так не работает. Поэтому через 5 лет (а может раньше) не будет универсального интеллекта, а будет достигнут предел трансформеров. Заслуга трансформера в том, что он показал, что умение пользоваться ествественным языком не является интеллектом
Продуктовые LLMы пока да, обучаются один раз а потом до обучаются периодически, с шагом в месяц и больше, не реалтаймово, но нет никакой проблемы обучаться реалтаймово, на данных пользователей, и с интернета новому, ну или накапливать и раз в сутки прогонять, может как то фильтровать. В общем это наверно не очень то и нужно, точно наверно пробовали, сошлись что поискать и добавить в контекст проще. Вообще наверно самый сейчас крутой вызов это учить LLM не всему гавну с интернета и всего что люди написали, а поначалу какой то "стержневой" стек текстов набрать, где ядро смысла о мире, а не блогерский шум и барыжно-пропагандиская мишура, а теперь ещё и сами LLM уже негенерили терабайты. Есть уверенность что такого текста может быть на 2-3 порядка меньше, а эффект будет в разы лучше чем на шуме обучать, всему подряд. Говорят китаёсы именно так и поступили в дипсике, да и в квине, там датасеты не сотни терабайт а меньше десятка.
На счёт тупика, думаю нет, не тупик, трудности будут, но всё-таки "костёр занялся", так кажется. Финансовый пузырь текстовых LLM действительно скоро лопнет, разумеется компания вроде ОпенАи не стоит триллионов, потому что её могут скопипастить на 90-99% за пару десятков миллионов, до полтинника. Логично их станет вначале сотни а потом десятки тысяч и всё сойдется к справедливой цене. Просто инструмент это только начало, разумно продавать самим что этот инструмент делает, пусть делает программные продукты, пишет книги, снимает кино и тд и тп. Ну хотя бы работники, "агенты", недавно пытались ими барыжить по завышенным ценам(десятки килобаксов в месяц), а они тогда были так себе, не решали всё что требуется от работника. Когда будут всё решать, а не помогать с багами, например всё что нужно от девелопера или юриста, ну вот тогда начнётся самое интересное...
[
Ответ
][
Цитата
]
Gray Tag
Сообщений: 13563
На: Мышление / интеллект, LLM / AGI
Добавлено: 21 май 26 19:32
Изменено: 21 май 26 20:16
Цитата:
Автор: Дмитрий Пагода
Продуктовые LLMы пока да, обучаются один раз а потом до обучаются периодически, с шагом в месяц и больше, не реалтаймово, но нет никакой проблемы обучаться реалтаймово, на данных пользователей, и с интернета новому, ну или накапливать и раз в сутки прогонять, может как то фильтровать.
Это вообще не соответствует реальности. И переодичность вообще не причем. LLM обучается только один раз, все прочее к обучению не относится. Это файнтюнинг, всяческие лоры и подкрепления. Но это не обучения сети. И, конечно, никакого риалтайма нет и быть не может. Думаю, вы путаете контекст и обучение.
Цитата:
Автор: Дмитрий Пагода
но всё-таки "костёр занялся", так кажется.
Суть не в занятиях костров, а в ограничениях вычислительных методов. Экспертные системы тоже хорошо работают на учебных примерах, а на реальных задачах нет. И не могут принципиально. LLM умеют общаться и решать алгоритмические задачи. Всё. Интеллектуальные задачи не являются речью и алгоритмическими не являются
[
Ответ
][
Цитата
]
Дмитрий Пагода
Сообщений: 147
На: Мышление / интеллект, LLM / AGI
Добавлено: 22 май 26 3:26
Цитата:
Автор: Gray Tag
Это вообще не соответствует реальности. И переодичность вообще не причем. LLM обучается только один раз, все прочее к обучению не относится. Это файнтюнинг, всяческие лоры и подкрепления. Но это не обучения сети. И, конечно, никакого риалтайма нет и быть не может. Думаю, вы путаете контекст и обучение.
Суть не в занятиях костров, а в ограничениях вычислительных методов. Экспертные системы тоже хорошо работают на учебных примерах, а на реальных задачах нет. И не могут принципиально. LLM умеют общаться и решать алгоритмические задачи. Всё. Интеллектуальные задачи не являются речью и алгоритмическими не являются
Файнтюнинг — это и есть дообучение, процесс математически полностью идентичен. Можно даже в реальном времени, по одному семплу, онлайн, вопрос инженерного выбора, а не принципиального запрета. Реальные продуктовые системы уже давно не учат один раз: сначала идёт гигантский претренинг на каше данных, потом обязательный файнтюнинг на диалогах и политиках, а иногда и до 10 последовательных этапов дообучения.
Сейчас индустрия осознала, что переобучать с нуля очередную огромную модель на одном и том же Common Crawl с прибамбасами не имеет смысла. Крупные компании скоро будут торговать своими обученными моделями, а старые шарить(что частично и происходит). Все силы смещаются в сторону файнтюнинга, и здесь как раз LoRA очень перспективна: замораживаем старые обученные веса, добавляем маленькие адаптеры и обучаем только их. Кстати, в биологических мозгах происходит примерно то же самое — старые связи не переучиваются кардинально, а поверх них возникает новая пластичность. У нас мозги — заплатка на заплатке, сама реальность такая - груда всякой фигни на сравнительно простых принципах снизу.
Да, можно запихнуть весь Common Crawl и не париться — результат будет, модель заработает. Но это, во-первых, как все знают, чудовищно затратно, а во-вторых, огромный шум в данных портит "картину мира". Модель словно хамелеон, как в той притче про Соломона "и ты прав, и ты прав, и ты прав…", так как "всё это было под солнцем"(то есть в Common Crawl) и непонятно что правда что ложь. Фильтровать петабайты текста вручную не под силу даже миллионам людей. Однако уже есть методы автоматической фильтрации, и сами LLM, обученные на шумных данных, могут это делать очень неплохо. Это уже делается, но всё пока только в самом зародыше и всё теперь секретно, не делятся с народом такими датасетами((
И в результате качественный датасет можно сократить в сотню раз — до 5–10 терабайт в распакованном виде. А действительно ключевой материал (книги, научные статьи, чистый код) так вообще умещается в гигабайты, максимум терабайт. На таком чистом датасете можно обучить рабочую LLM на десятке H100 за несколько недель, а не месяцев на стадионе шкафов за миллиард. Так что проблема не в том, что LLM нельзя дообучать — можно и нужно. Проблема в избыточных и шумных данных, и она уже решается.
Но главная проблема LLM не в том, что они, ну там, галлюцинируют или нарушают политики, а в собственно их природе, они вообще не были предназначены для такого использования. Next token prediction достаточно для порождения правдоподобного текста, но недостаточно для причинного рассуждения. Нужны другие архитектуры и целевые функции. Вместо токена можно предсказывать латентное состояние среды л я следующегно видеокадра или звука.
В "АGI" потребуется миксовать, проецировать разные модели и архитектуры друг с другом: одни уровни предсказывают следующий токен (быстрые поверхностные корреляции), другие — следующие абстрактные события или цели на разреженном временном горизонте, ассоциированные с токенами спервого уровня, потом некая корректировка обоих уровней и тд.. Итоговая loss-функция должна комбинировать точность предсказания, степень достоверности на каждом этапе, например штраф за неправильную причинную модель — даже когда предсказание токенов идеально.
Я как то так это вижу.
[
Ответ
][
Цитата
]
Дмитрий Пагода
Сообщений: 147
На: Мышление / интеллект, LLM / AGI
Добавлено: 22 май 26 3:51
А если концептуально подняться на уровень выше, то имхо в современном ИИ есть две фундаментальных "твердыни". Первый — это датасеты и понимание того, чему вообще учить систему. Сейчас мы тычем в модель нечто на входе и нечто на выходе: "контекст → следующий токен", "картинка → следующая картинка", "латентный вектор → следующий латентный вектор". Но у нас нет внятного ответа на вопрос как конкретно формировать вход и выход, почему? Мы действуем почти наугад, эмпирически: если работает на бенчмарках — значит хорошо. Но глубокого понимания, какая аппроксимация какой реальности соответствует, нет.
Второй камень — отсутствие автоматической методологии получения архитектур, которые хорошо аппроксимируют заданные датасеты и целевые функции. CNN когда-то возникли из наблюдения об инвариантности к сдвигам, но это задним умом было понято, в начале было "озарение" вдохновленная биологическим примером и старыми работами Фокусимы, а не систематический вывод. Механизм внимания и трансформеры — тоже результат экспериментов и смутного понимания, почему именно так работает, а не иначе. У нас нет алгоритма и методологии, который бы взял описание структуры данных (какие в них есть инварианты, симметрии, иерархии) и на выходе выдал бы архитектуру нейросети, квази-оптимальную для этих данных. Мы ждём очередного гения, который придумает следующий "трансформер".
А если данные устроены принципиально иначе? Опять ждать десятилетия, пока кому-то придёт в голову нужная архитектура? Для движения к AGI нужна не очередная эвристика, а мета-теория проектирования архитектур и датасетов: формальная связь между свойствами данных (инвариантность, иерархичность, причинность, частичная наблюдаемость) и классом аппроксимирующих функций (сверточные, рекуррентные, трансформеры, графовые, нейросимволические). Пока этой теории нет — мы будем продолжать тыкать пальцем в небо, редко попадая, чаще нет. И именно отсутствие этой автоматической методологии, на мой взгляд, тормозит прогресс сильнее, чем нехватка вычислительных мощностей.
Ну и всё это будет теперь секретиться как ядерные технологии. Не удивлюсь если вычислительные мощности будет под контролем, вскоре, чтобы плебеи не наворотили там у себя в гараже ИИ. Криминализуют мощные чипы, продавать можно будет только слабенькие, с доступам к контролируемым правительствам облакам.
[
Ответ
][
Цитата
]
Gray Tag
Сообщений: 13563
На: Мышление / интеллект, LLM / AGI
Добавлено: 22 май 26 6:34
Изменено: 22 май 26 7:08
Не вижу как обсуждать то, что вы сказали,
это какой-то поток сознания...
Архитектура интеллектуального пайплайна выглядит так:
1) цель --> 2) задачи --> 3) требования --> 4) инструменты --> 5) решения --> 6) дорожная карта --> 7) выполнение/деятельность --> 8) оценка --> 9) изменение задачи/цели
Ничего из этого трансформеры делать не умеют, единственное, что они могут --- это генерировать какие-то тексты, которые издали похожи на решения, оценки и дорожную карту, но по сути ими не являются, поскольку в трансформерах не было, нет и не будет понимания.
[
Ответ
][
Цитата
]
Дмитрий Пагода
Сообщений: 147
На: Мышление / интеллект, LLM / AGI
Добавлено: 22 май 26 7:37
Цитата:
Автор: Gray Tag
Не вижу как обсуждать то, что вы сказали,
это какой-то поток сознания...
Да, пардон, наболтал лишнего.
Цитата:
Автор: Gray Tag
Архитектура интеллектуального пайплайна выглядит так:
1) цель --> 2) задачи --> 3) требования --> 4) инструменты --> 5) решения --> 6) дорожная карта --> 7) выполнение/деятельность --> 8) оценка --> 9) изменение задачи/цели
Ничего из этого трансформеры делать не умеют, единственное, что они могут --- это генерировать какие-то тексты, которые издали похожи на решения, оценки и дорожную карту, но по сути ими не являются, поскольку в трансформерах не было, нет и не будет понимания.
Но что же это такое, понимание? Я считаю что это сродни нахождению места в общей модели, как когда элемент встраивается в мозаику, найти куда его вставить как метафора понимания. Будет причинная модель, то есть аппроксиматор физического мира, будет это понимание, поток токенов будет проецироваться в латентный вектор, находиться в модели про что это и даваться его возможная аппроксимация и словесная описание. Есть мнение что эта причинная модель, может быть достаточно маленькой, если текстовая такая большая и наоборот. Это похоже на "клип", но не с картинками а латентными физическими моделями и динамикой.
[
Ответ
][
Цитата
]
Стр.3 (7)
:
1
2
[3]
4
5
6
7
<<
< Пред.
|
След. >
>>
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net