| Механизм Внимания — имитатор структуры. Он учится (на огромных данных), что для глагола-сказуемого крайне важно найти подлежащее и дополнение. Он вычисляет, что у "укусила" очень высокий вес внимания к "собака" (кто укусил?) и к "незнакомца" (кого укусил?). |
|
Нет, не так. Вы допускаете важные ошибки по сути, что говорит о Вашем непонимании того как это работает.
1) Токены размером в слово уже много лет не используются - слишком крупно. Реальные системы работают с сочетаниями символов или даже с отдельными символами. Так что никакой "собаки" в словаре токенов не хранится))
2) Никаких глаголов, подлежащих и сказуемых в токенах нет. Трансформер учится не этому)) То, что трансформеры овладевают языками и переводом с языка на язык -- это сайд-эффект, специально этому их не учат
3) Вы упускаете важнейшую часть того как это работает: что такое эмбеддинг, как он связан с токенами и с механизмом внимания
| Я говорил вам, об образах которыми мыслит человек, это и есть «машинный образ - токены» Только у человека образ не словесный, он эмоциональный трехмерный, а не ПЛОСКИЙ. А эмоции машине не по зубам. |
|
4) У трансформера образы и модели - это вообще не слова, слова - это данные на входе. Чтобы Вам было понятно, данные на входе ваших глаз - это рассеяние электромагнитных волн видимого диапазона. Но мозг создает образы объектов, которые не присутствуют в наборе входных данных. Вас это не удивляет, Вы к этому привыкли с детства. Так и в трансформерах, тексты - это удобный набор входных данных, трансформер создает образы и модели реальности внутри себя
5) Вы не понимаете, что размерность эмбеддинга - это и есть реальная размерность объектов модели. Для GPT-4 это примерно 16 тысяч признаков. Каждый признак - это параметр образа, то есть вместо банальной трехмерности (на самом деле Вы путаетесь и здесь, между размерностью пространства и размерностью фазового описания) - шестнадцати-тысяче-мерность))
| В тоже время Transformer, это прорыв в машинном зрении |
|
6) Не зрении, computer vision занимается другим, трансформер - это прорыв в рекуррентной обработке последовательных данных, к CV не имеет никакого отношения, Вы перепутали CNN и GPT - это совсем разные архитектуры и совсем разные сети)
| Мозг не "передает" информацию с помощью электромагнитных волн. Он генерирует чрезвычайно слабые, низкочастотные электромагнитные поля как побочный продукт своей собственной электрической деятельности. |
|
7) Организмы вообще не имеют никакого отношения к информации, это понятия из разных проблемных областей. Мозг - это сложнейшее биологическое устройство, говорить о какой генерации и передачи информации вообще неверно, это как лаврулькино "слушать мозгами")))). Если уж упрощать до предела, то можно говорить о мозге как нейросетевом ансамбле, в котором распространяются электрохимические сигналы