GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.14 (17)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Остались ли тут специалисты, которые разбираются в ИИ
гость
37.114.50.*
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 09 окт 25 10:16
Цитата:
Автор: tac2


Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов

Аннотация. Классический перцептрон Розенблатта с архитектурой S–A–R исторически не имел устойчивого алгоритма обучения многослойных структур. В результате в современном машинном обучении доминирует метод обратного распространения ошибки (backpropagation), основанный на градиентном спуске. Несмотря на успехи, этот подход имеет фундаментальные ограничения: необходимость вычисления производных нелинейных функций и высокая вычислительная сложность. В данной работе показано, что при интерпретации работы нейросети через алгоритм ID3 (Rule Extraction) скрытый слой автоматически формирует чистые окрестности в смысле кластерного анализа — признаки группируются по классам ещё до завершения обучения. На основе этого наблюдения автором предложен новый стохастический алгоритм обучения, восходящий к идеям Розенблатта, но принципиально расширяющий их: он позволяет обучать скрытые слои перцептрона без вычисления градиентов. Таким образом, впервые решается классическая проблема обучения архитектуры S–A–R без градиентных методов. Это открывает путь к созданию принципиально новых алгоритмов обучения нейросетей с более простой и интерпретируемой динамикой.

https://habr.com/ru/articles/952532

Я другое имел в виду под "результат", нужен "вау-эффект", а не "перцептрон и MLP+backpropagation обнаруживают очень сходные характеристики". Мы живём при капитализме, где "ПОБЕДИТЕЛЬ ЗАБИРАЕТ ВСЁ", нужно что-то сделать чтобы все, простите, АХУЕЛИ, а не просто обратили внимание что некий старый алгоритм в чем то не уступает, чуть менее старому.

И нет, я не про ярды или хотя бы лимоны, не про стадионы шкафов из видеокарт жгущих электричества как город. А например чтобы ваш алгоритм, опережал хотя бы на порядок, по какой то характеристике имеющиеся, например по скорости, или точности, при равных прочих, на каких то игрушечных данных, или, что вообще рили вау, за что сразу накормят лимонами и ярдами, чтобы он решал то что пока не решалось, или как то фундаментально иначе и эффективнее, что мейнстримовый вариант покажется просто смешным недоразумением.

Возня с изученными алгоритмами и их косметические модификации, это не так искромётно и вдохновляюще, венчуры вас отфильтруют сразу, а коллеги лишь ознакомятся по диагонали, да и то если будет настроение.
[Ответ][Цитата]
tac2
Сообщений: 487
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 09 окт 25 10:50
Изменено: 09 окт 25 11:40
> нужен "вау-эффект", а не "перцептрон и MLP+backpropagation обнаруживают очень сходные характеристики"
о чем говорить с людьми, которые даже читать внимательно не умеют. Нет, ну серьезно? Это опускаться до вашего уровня "вау"? Не хочется.

Когда прочтете и поймете, что написано в аннотации и первом разделе, можете сделать попытку еще одну.

Я конечно понимаю, что представлена не вся статья. Но так ждите что ли ... если умишком слабы.

И заметьте - никто из вас умников просто ничего, ну совсем ничего не сделали, а умничаете.

"Вау" - это не про науку, это то что писали журналисты, когда перцептрон впервые представил Розенблатт? Это не результаты - это околонаучная помойка.


Цитата:

Сегодня Военно-морской флот представил зародыш электронного компьютера, который, как ожидается,
сможет ходить, говорить, видеть, писать, воспроизводить себя и осознавать своё
существование. .. В дальнейшем персептроны смогут узнавать людей и называть
их имена, а также мгновенно переводить речь с одного языка на устную и письменную речь
на другом языке, как и было предсказано.
(New York Times, 1958a, p. 25 :2)


[Ответ][Цитата]
гость
185.177.238.*
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 09 окт 25 18:23
у Царегородцева нужно спросить
[Ответ][Цитата]
гость
37.114.50.*
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 10 окт 25 11:02
Цитата:
Автор: tac2

> Я не умник, скорей наоборот
За ваше признание, я тогда расставлю вам точки над i. Вы сами их явно не видите.

Возьмем пока только мою аннотацию

Начнем с названия



Это сразу нобелевская Не серьезно, если бы я был бы в 1960 Минским, за статью с таким названием я её бы получил, что называется сразу не отходя от кассы. Именно это все тогда пытались сделать, Розенблатт не докрутил, Уидроу не получив финансирования (а это на минуточку от ляма баксов тогда) занялся другим, сам же Минский не поняв для чего это нужно (допер под конец жизни) - занялся другим, Румульхард с Хинтоном взяли старый алгоритм - градиентный спуск и создали аля заглушку для нейросетей. Она выстрелила только сейчас, потому что ничего другого просто нет, и алгоритмы работают и с багами - поверьте мне тут на слово, те которые имеют потенциал - баги их только украшают. Но никто из них так и не понял как же это работает. Понимал Розенблатт, но не смог сделать то, что будет написано в моей статье.

Поэтому я и пишу



Это означает, что если я не спездел - это заявка на новую отрасль науки, раздел который не смог завести Розенблатт. Это не какое то там чудо ... это навека ...

А теперь из первого раздела, вы его вообще читали?



я сравнил backprop и перцептрон, причем так, что ни один тролль и пикнуть по сути не смог, хотя до этого утверждали, что перцептрон это только "историческая ступенька". Историческая ступенька не находится на той же ступеньке, что промышленные аналоги.

А теперь, читаем внимательно:



Вы хоть обращали внимание что мы сравниваем? Обычный код без оптимизаций с последним писком промышленной мысли. Это все равно что школьник написал в блокноте стишок, и он сразу того же уровня что вся поэзия Пушкина.

Так о чем мы говорим? И это только на старте, потому что это сравнение с классическим перцептроном, а не с заявленным алгоритмом обучения внутреннего слоя.

P.S. И да, я тролле устойчив - мне на гавно насрать. Но ощущение, что вы читаете комментарии дураков, а не статью, и по ним делаете выводы.


"задача на четность", ну ок, хотя… нет, возьмите как все нормальные мл-щики мнист, или что то типа того с векторами в сотни длинной, и получите % на тесте, я не вижу у вас там акураси, не понятное сравнение

ну и код предоставьте, в "один клик", открыл проект запустил и посмотрел, заглянул на гитхаб там много всего и нет этих конкретных чтобы ваши таблички проверить
[Ответ][Цитата]
tac2
Сообщений: 487
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 10 окт 25 14:02
Изменено: 10 окт 25 19:08
я понял, вы опять посмотрели по диагонали только статью на хабре, там есть ссылка на ютуб, где весь первый раздел я читаю полностью. И если бы прочитали таких глупых попсовых вопросов не возникло бы, я дам специально только затравку

Цитата:

На рис. 1 и рис. 2 мы видим процесс схождения во время обучения для MLP+backpropagation и перцептрона. В целом они похожи, и имеют вид затухающих колебаний, но природа этих колебаний разная.
...
Но и в том и другом случае, мы хорошо видим, как 97% примеров достаточно быстро, примерно за 30-50 итераций правильно относятся к классу, и потом следует длинный “хвост” процесса схождения. Это стало так обыденно, что появился термин “переобучение”, которым часто объясняют этот “хвост” обучения. Причем так, что предлагают остановить обучение, что это якобы снижает способность сети к прогнозированию, обобщению в целом. Но суть этого явления совсем в другом, и связанна с неточностью вычислений на практике.
...
Для наглядности представьте следующий процесс: у вас есть 300 (20х15) пустых ячеек, и мы будем случайным образом, с равномерным распределением, бросать в них дротики. Сколько дротиков нужно кинуть, чтобы гарантированно заполнить все ячейки хотя бы одним дротиком. Сколько, дротиков будет кинуто напрасно? И главное, как замедлиться процесс при заполнении доски дротиками, особенно когда будут оставаться пустыми последние 2-5 ячеек?
Эта задача так же известна, как задача о коллекционере (Coupon Collector's Problem) ...

Именно такой процесс происходит внутри нейросети, но только еще более сложный.
...
Поэтому несмотря на то, что для backpropagation мы пытаемся точно высчитать градиент, но из-за округлений при вычислениях и влиянии всех нейронов на следующих итерациях, мы делаем неточные шаги приближения, и начинается дрожание, что и образует “хвост” при схождении.


Это как надо было испоганить молодым ученным мозги, чтобы они могли позволить себе использовать не сходящийся процесс обучения. Без 100% обучения схождения не случается, поэтому это даже абсурдно спрашивать какой акураси ... при этом не понимая, что на самом деле происходит.

P.S. почистил неконструктивную руганину
[Ответ][Цитата]
гость
37.114.50.*
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 5:57
Цитата:
Автор: tac2


Это как надо было испоганить молодым ученным мозги, чтобы они могли позволить себе использовать не сходящийся процесс обучения. Без 100% обучения схождения не случается, поэтому это даже абсурдно спрашивать какой акураси ... при этом не понимая, что на самом деле происходит.

P.S. почистил неконструктивную руганину
Реальные данные — шумные. Представьте, что вы размножили каждый семпл из задачи на четность с случайным смещением, включая наложениями на другие классы. Стало бы сразу ясно, что 100% акураси недостижимо, модель должна бороться с шумом.

Смысл машобуча — в обобщении. Мы учим модель не для того, чтобы она вызубрила обучающие данные, а чтобы она работала на новых. Если цель — просто запомнить, то машинное обучение здесь избыточно.

Дискутировать о тонкостях алгоритмов — это одно, но ставить под сомнение основы статистики и машобуча — это уже несерьезно. Возьмем даже синус: чтобы классифицировать его значения(больше меньше 0), не нужно запоминать бесконечное количество точек, которые можно сгенерировать в качестве обучающих данных, а если добавить шум?

Сильно рекомендую освежить основы, а затем проверить свои идеи на том же мнисте. Попробуйте добиться акураси 98% на тестовой выборке — вот это будет показательно, можно будет сравнивать с млп. И, кстати, задумайтесь: а в мнист разве все семплы идеальны, без повторов и брака? Их все нужно зазубривать, чтобы на тесте акураси был максимальный?


PS я уже не очень то молодой ученый, борода уже полуседая, бреюсь каждый день, виски подкрашиваю, а плешь прикрываю кепкой, так как стыдно, точнее не то чтобы стыдно, но на работу не берут старых, считается мол "старую собаку новым трюкам не научишь", а также сложнее 25-летним менеджерам со старичками, не комфортно.
[Ответ][Цитата]
tac2
Сообщений: 487
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 6:41
Изменено: 11 окт 25 6:55
> Реальные данные — шумные.
А нейросети какое до этого дело? Шумные данные нужно убрать еще до начала обучения. Вот и весь вопрос.

> 100% акураси недостижимо
Нет, оно достижимо на любом хаосе. Сложные зависимости по сути выглядят на хаос. Причем хаос это сравнительно легкая задача, легче четности. Как впрочем и МНИСТ легче четности в смысле обучения (просто объемнее, и дольше ждать).

> Мы учим модель не для того, чтобы она вызубрила обучающие данные, а чтобы она работала на новых.
Это не всегда верно. Существуют еще задачи классификации, и минимального числа конструктивных элементов для построения моделей. Задачи обобщения как правило нейросети вообще не выполняют, современные трансформеры берут задачи исключительно брутфорсом, ни о каком уровне обобщения там речь не идет, они запомнили буквально все слова и мало того все возможные способы их построения. Никаких правил они не выработали.


> модель должна бороться с шумом
Нет, у неё нет для этого возможностей. Она не может знать, это шум или недостаток обучающей выборки, поэтому она должна использовать буквально всю обучающую выборку. А экспериментатор уже вначале эксперимента должен заверить, что все примеры правильные. Вы нарушаете условия обучения. В обучении говорится - это пример правильные или нет. Если вы не обладаете таким знанием - значит это не нейросети. Можете попробовать нечеткую логику, но не нейросети.

> ставить под сомнение основы статистики и машобуча
Эта глупость перетекла из допотопных представлений статистики в машобуч, и это нужно гнать от туда палкой.

> не нужно запоминать бесконечное количество точек,
а нейросеть их и не запоминает - это глупость принесенная такими как вы. Она продолжает строить модель, на точках которые вам кажутся случайностью, но на самом деле только они и являются основой для принятия решений в условия не определенностей. Это все равно, что специалистам по подписям запретить анализировать характерные черточки, назвав их случайностью, т.к. они не вошли в ваше понимание гладкой модели.


> затем проверить свои идеи на том же мнисте
Давно проверено, на данный момент в среднем 95,5 % на экзамене у перцептрона, против 96,5 у бэкпропа ... но это тест лишь для обобщения - это далеко не все.
Все что не дообучил бэкпроп, ему нужно добавить в ошибки - как правило это +3% от обучающей, т.е. +18% в маштабе экзамена . Поэтому если мы не хотим заваливать бэкпроп всегда -18%, его нужно делать таким ,чтобы он мог завершить обучение, чтобы процесс сошелся, в математическом смысле.
Поэтому сложность проверки состоит в том, чтобы обучить бэкпроп, а не перцептрон. Мне пока лень показывать как бэкпроп ложает, но я доберусь, просто потом не жалуйтесь
[Ответ][Цитата]
гость
37.114.50.*
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 10:14
Цитата:
Автор: tac2

> Реальные данные — шумные.
А нейросети какое до этого дело? Шумные данные нужно убрать еще до начала обучения. Вот и весь вопрос.

> 100% акураси недостижимо
Нет, оно достижимо на любом хаосе. Сложные зависимости по сути выглядят на хаос. Причем хаос это сравнительно легкая задача, легче четности. Как впрочем и МНИСТ легче четности в смысле обучения (просто объемнее, и дольше ждать).

> Мы учим модель не для того, чтобы она вызубрила обучающие данные, а чтобы она работала на новых.
Это не всегда верно. Существуют еще задачи классификации, и минимального числа конструктивных элементов для построения моделей. Задачи обобщения как правило нейросети вообще не выполняют, современные трансформеры берут задачи исключительно брутфорсом, ни о каком уровне обобщения там речь не идет, они запомнили буквально все слова и мало того все возможные способы их построения. Никаких правил они не выработали.


> модель должна бороться с шумом
Нет, у неё нет для этого возможностей. Она не может знать, это шум или недостаток обучающей выборки, поэтому она должна использовать буквально всю обучающую выборку. А экспериментатор уже вначале эксперимента должен заверить, что все примеры правильные. Вы нарушаете условия обучения. В обучении говорится - это пример правильные или нет. Если вы не обладаете таким знанием - значит это не нейросети. Можете попробовать нечеткую логику, но не нейросети.

> ставить под сомнение основы статистики и машобуча
Эта глупость перетекла из допотопных представлений статистики в машобуч, и это нужно гнать от туда палкой.

> не нужно запоминать бесконечное количество точек,
а нейросеть их и не запоминает - это глупость принесенная такими как вы. Она продолжает строить модель, на точках которые вам кажутся случайностью, но на самом деле только они и являются основой для принятия решений в условия не определенностей. Это все равно, что специалистам по подписям запретить анализировать характерные черточки, назвав их случайностью, т.к. они не вошли в ваше понимание гладкой модели.


> затем проверить свои идеи на том же мнисте
Давно проверено, на данный момент в среднем 95,5 % на экзамене у перцептрона, против 96,5 у бэкпропа ... но это тест лишь для обобщения - это далеко не все.
Все что не дообучил бэкпроп, ему нужно добавить в ошибки - как правило это +3% от обучающей, т.е. +18% в маштабе экзамена . Поэтому если мы не хотим заваливать бэкпроп всегда -18%, его нужно делать таким ,чтобы он мог завершить обучение, чтобы процесс сошелся, в математическом смысле.
Поэтому сложность проверки состоит в том, чтобы обучить бэкпроп, а не перцептрон. Мне пока лень показывать как бэкпроп ложает, но я доберусь, просто потом не жалуйтесь
Ок, по порядку...

Цитата:
"А нейросети какое до этого дело? Шумные данные нужно убрать еще до начала обучения."


Это идеалистическая позиция, которая в реальном мире не работает. "Убрать весь шум" — это утопия.

В том же MNIST есть примеры, где даже человек не может однозначно сказать, какая это цифра. Пометить их "правильно" невозможно в принципе. Выкидывать такие примеры — значит обеднять данные. В реальных данных (изображения с камер, текст из интернета, речь) шум неотделим от полезного сигнала. Задача модели — научиться быть устойчивой к этому шуму, а не требовать от нас его полного устранения, что невозможно.

Цитата:
"100% акураси недостижимо. Нет, оно достижимо на любом хаосе."


Это математически верно только для обучающей выборки. Модель с достаточной емкостью (например, тривиально, lookup-таблица) может запомнить любые, даже абсолютно случайные данные. Но вся суть в том, что это переобучение. Достигнув 100% на обучающем "хаосе", модель на новых данных из того же распределения покажет результат не лучше случайного угадывания. Ценность такой модели равна нулю. Вы предлагаете оптимизировать процесс запоминания, в то время как вся индустрия бьется над улучшением обобщения.

Да, процесс обучения в конце действительно может напоминать заполнение последних сложных ячеек и время на их обучение может экспоненциально может расти. Однако вы делаете из этого слишком сильный вывод:

Цитата:
"Без 100% обучения схождения не случается, поэтому это даже абсурдно спрашивать какой акураси"


Это неверно. В контексте машинного обучения "схождение" — это не синоним "достижения 100% accuracy на обучающей выборке". Схождение — это стабилизация функции потерь, выход её на плато. Мы останавливаем обучение не потому, что "испорчены мозги", а потому, что дальнейшая минимизация ошибки на обучающих данных начинает заведомо ухудшать качество на ТЕСТОВЫХ ДАННЫХ. Мы наблюдаем это эмпирически на отложенной выборке (validation set). Ранняя остановка — это не костыль, а прямой метод борьбы с переобучением, основанный на этом наблюдении. Разные алгоритмы по разному себя ведут, некоторые меньше переобуваются некоторые больше.

Цитата:
"Задачи обобщения как правило нейросети вообще не выполняют, современные трансформеры берут задачи исключительно брутфорсом... Никаких правил они не выработали."


Это очень спорное утверждение, точнее говоря попросту не верное. Обобщает и линейная регрессия. Плохое обобщение, если упростить, это когда на обучающей выборке всё хорошо, а на тестовой всё плохо. Если бы трансформеры просто запоминали, они не могли бы решать арифметические задачи с числами, которых не было в обучающей выборке, писать код на новом языке по описанию, которого не существовало до его создания, понимать смысл предложений с новыми комбинациями слов. И тд и тп.

Это и есть обобщение — способность работать с новыми даннами. Да, они используют статистические закономерности гигантского масштаба, но называть это "брутфорсом" — значит сильно упрощать. Хотя от части это и верно, многих терзают смутные сомнения в эффективности современных алгоритмов ML, например по сравнению с тем как учится наш мозг, но это другая тема для дискуссии.

Вы упомянули, что на MNIST у перцептрона 95.5%, а у backprop ~96.5%. Здесь ошибочка, обычный MLP 128-64-10 релу-релу-софтмакс, даёт 98% за 10-15 эпох, помоему можно и до 99% довести, на CNN 99.75%. Но даже разница в 0.1% — может быть колосальной, это могу быть миллиарды долларов или человеческие жизни. Индустрия согласна платить практически любую цену за десятые %. Кроме того BP и глубокие сети масштабируются на задачи, где перцептрон или knn бессилен, например тот же машинный перевод.

В общем, главная цель — максимизировать accuracy на тесте, а не на обучающих данных. Если дотренировка на 3% на обучающих данных дает нам +0.1% на тесте, но занимает 50% времени обучения это вроде как неэффективно, но в порядке вещей.

Вообще дискуссия упирается в фундаментальный вопрос: Что есть обучение? Для вас: Обучение — это математически точный процесс достижения 100% соответствия обучающей выборке. Любое несоответствие — это ошибка алгоритма, вызванная неточностями вычислений.

Для современного ML: Обучение — это эмпирический процесс поиска такой модели, которая лучше всего обобщает на новые, неизвестные данные, даже если это означает неполное использование обучающей выборки и сознательную остановку для предотвращения переобучения.

Вы предлагаете идеальное решение для идеального мира. Машинное обучение пытается найти робастное решение для неидеального, зашумленного мира.
[Ответ][Цитата]
Ꜿгг
Сообщений: 13263
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 10:41
Судя по последним сообщениям, обсуждать нужно линейную регрессию, это самый простой конструкт, на котором будут сразу видны все странности миропредставлений ув.tac'а
[Ответ][Цитата]
tac2
Сообщений: 487
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 11:02
Изменено: 11 окт 25 11:20
Пока самое вопиющие

> Мы останавливаем обучение не потому, что "испорчены мозги", а потому, что дальнейшая минимизация ошибки на обучающих данных начинает заведомо ухудшать качество на ТЕСТОВЫХ ДАННЫХ.

1. Вы это не можете знать, вы это не проверяете. Для этого вы должны были бы обучить до нуля, ну и например, угадать (?) скажем оставить 100 ошибок, которые бэкпроп физически не может обучится. Это не выглядит, что сознательно отбросили конкретные обучающие данные, которые классифицировали как шумные. Заведите для нейросети отдельный выход - который будет показывать уровень шума, тогда и только тогда это будет соответствовать заявленному. Пока же это ваша магия угадывания. Это не научно.
2. Но даже если это было бы так, вы отбросили 100 примеров и сделали на них не правильную классификацию, значит + 100 ошибок вам в качество. А что, что такое? Тут играем, ту не играем? Ученные блин.


> Здесь ошибочка, обычный MLP 128-64-10 релу-релу-софтмакс, даёт 98% за 10-15 эпох
Нет, не дает - это вранье проверено.

> Вы предлагаете идеальное решение для идеального мира. Машинное обучение пытается найти робастное решение для неидеального, зашумленного мира.
Нет, машобуч вообще не понимает что и как он ищет, у него нейросеть это черный ящик, я же дуракам объясняю как она работает. И нет, не для идеального мира. Просто нужно делать правильные выводы и ставить корректно эксперименты, а не фантазировать, что сложность обучения до 100% даст лучшие обобщение.

> разница в 0.1% — может быть колосальной
это глупость, и подгонка результатов.

Проведите эксперимент. Возьмите 10к экзаменационных данных, обучите на них как хотите, и проверьте на 60к "обучающей", если ваша нейросеть сделает примерно тот же процент ошибок 95% то только тогда это будет означать, что ваши результаты не зависят от величины обучающей выборки , и их можно масштабировать ... только такой тест покажет, что есть разница для 0.1% обобщения. Все остальное это подгонка. Но впрочем вы уже соврали про 98% - идите и дайте мне правильные результаты. Пойдем проверять?


[Ответ][Цитата]
tac2
Сообщений: 487
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 11:34
Изменено: 11 окт 25 11:41
Вот конкретно,

MNIST немного изменен, из 28х28 сетки, будем использовать 21х21 сетку, т.к. практически всегда крайние пиксели пусты. И вместо градации серого будем использовать черно-белое изображение.

архитектура 441x1000x10. Останавливаемся когда будет ошибаться не больше 150 ошибок (когда ему становится сложно обучаться дальше и требуется увеличить число нейронов, можете это называть переобучением мне насрать на эту глупость)

После 37 итераций он достигает 149 ошибок и на экзамене делает 9626 правильных ответов из 10к - 96,27%


P.S. Видите что мне приходится отвлекаться на то, чтобы убирать мифы теперь уже про бэкпроп, в вашу веру о хорошем качестве обобщения, оно хорошие, но совсем не такое. И вместо того, чтобы понять засчет чего я теряю 1% которые есть у бэкпропа мне нужно заниматься херней и показывать вам результаты MLP, про которые вы откровенно врете. Поэтому если нет пруфов не врите. Я верю только в то, что воспроизводится, как и положенно в науке, а вы верите тому, что написано на стенке врущих ученных занимающихся подгонкой.
[Ответ][Цитата]
tac2
Сообщений: 487
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 12:00
Изменено: 11 окт 25 12:07
> Для вас: Обучение — это математически точный процесс достижения 100% соответствия обучающей выборке. Любое несоответствие — это ошибка алгоритма, вызванная неточностями вычислений.
Да, это так, и по другому быть не может. Впрочем вы не точны, т.к. вкладываете другой смысл чем я. Поправим

Цитата:

Обучение — это поиск модели нейросетью, где критерием является отсутствие ошибок на обучающей выборке. Любое несоответствие — это ошибка выбора архитектуры, где критерием является отсутствие возможности достигнуть решения.



> Для современного ML: Обучение — это эмпирический процесс поиска такой модели, которая лучше всего обобщает на новые, неизвестные данные, даже если это означает неполное использование обучающей выборки и сознательную остановку для предотвращения переобучения.
Долго формулировали эту глупость? Давайте хотя бы сделаем правильно.

Для вас: Обучение - это поиск модели исследователем, который имеет право эмпирически вмешиваться в эксперимент, и когда ему заблагорассудится его останавливать или исключать примеры из обучающей выборки ничем это не обосновывая. (Кажется я ничего не упустил?)


Хорошо бы сравнить, что по этому поводу писал Розенблатт, как думаете, к какому варианту он будет ближе?
[Ответ][Цитата]
tac2
Сообщений: 487
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 12:17
Изменено: 11 окт 25 12:53
Еще одна архитектура MLP 441-1000-500-10

через 21 итерацию достигает 131 ошибок на обучающей, и дает 9684 правильных ответов (96,85%)

что вообще то очень не плохо, но не ваши фантазии о 98%

но раз хотите дурачится с переобучением судья это защитает так

10000 - 9684 = 316 + 131 = 447 ошибок на 70к примерах == 99,36 % (шутка, хотя кажется вы так и считаете )

upd. Спросил ради хохмы у Дипсика как будто это люди которые делают ошибки на экзамене, он кстати сделал правильный вывод

Цитата:

Несмотря на то, что в первом экзамене оба показали одинаковый результат (316 ошибок), второй экзамен решил всё - второй человек работает практически идеально, а первый продолжает делать ошибки.
[Ответ][Цитата]
tac2
Сообщений: 487
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 12:38
Изменено: 11 окт 25 12:51
> Ꜿгг

и причем тут нейросеть? + выкатывай код, тогда обсудим

P.S. Еще раз - отвлекаться на твой бред - я не буду, пруфы в коде если хочешь обсудить.
[Ответ][Цитата]
гость
37.114.50.*
На: Остались ли тут специалисты, которые разбираются в ИИ
Добавлено: 11 окт 25 12:51
Цитата:
Автор: tac2

Поэтому если нет пруфов не врите.



import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
from torchvision import transforms
import time

# === 1. Загрузка MNIST ===
transform = transforms.Compose([
transforms.ToTensor(),
transforms.Lambda(lambda x: x.view(-1)) # 28x28 → 784
])

train_dataset = torchvision.datasets.MNIST(
root="./data", train=True, download=True, transform=transform
)
test_dataset = torchvision.datasets.MNIST(
root="./data", train=False, download=True, transform=transform
)

learn_inputs = torch.stack([x for x, _ in train_dataset])
learn_outputs = torch.nn.functional.one_hot(torch.tensor([y for _, y in train_dataset]), num_classes=10).float()

test_inputs = torch.stack([x for x, _ in test_dataset])
test_outputs = torch.nn.functional.one_hot(torch.tensor([y for _, y in test_dataset]), num_classes=10).float()

# === 2. Конфигурация сети ===
class MLP(nn.Module):
def __init__(self):
super().__init__()
self.net = nn.Sequential(
nn.Linear(784, 128),
nn.ReLU(),
nn.Linear(128, 64),
nn.ReLU(),
nn.Linear(64, 10)
)
def forward(self, x):
return self.net(x)

# === 3. Настройки ===
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = MLP().to(device)
optimizer = optim.SGD(model.parameters(), lr=0.1)
criterion = nn.CrossEntropyLoss()

y_train = torch.argmax(learn_outputs, dim=1).long()
y_test = torch.argmax(test_outputs, dim=1).long()

# === 4. Обучение ===
print("Training started...")
start = time.time()

epochs = 15
batch_size = 64

for epoch in range(epochs):
perm = torch.randperm(len(learn_inputs))
learn_inputs = learn_inputs[perm]
y_train = y_train[perm]

for i in range(0, len(learn_inputs), batch_size):
xb = learn_inputs[i:i+batch_size].to(device)
yb = y_train[i:i+batch_size].to(device)

optimizer.zero_grad()
preds = model(xb)
loss = criterion(preds, yb)
loss.backward()
optimizer.step()

# уменьшение lr
for g in optimizer.param_groups:
g['lr'] *= 0.95

print(f"Epoch {epoch+1}/{epochs} | Loss: {loss.item():.4f} | LR: {optimizer.param_groups[0]['lr']:.5f}")

end = time.time()

# === 5. Тестирование ===
with torch.no_grad():
preds = model(test_inputs.to(device))
acc = (preds.argmax(dim=1) == y_test.to(device)).float().mean().item()

print(f"\nTraining time: {end - start:.2f} seconds")
print(f"Final Accuracy: {acc:.4f}")
print("Done!")


[Ответ][Цитата]
 Стр.14 (17)1  ...  10  11  12  13  [14]  15  16  17<< < Пред. | След. > >>