Форум: Проблемы искусственного интеллекта

Регистрация | Вход

Все темы | Новая тема Стр.1 (2) След. > >> Поиск:

Автор Тема: "Теория переобучения"

mserg
Сообщений: 258

"Теория переобучения"
Добавлено: 30 мар 15 15:24

Собственно работа
http://robotics.stanford.edu/~ang/papers/cv-final.pdf
Кто знает подобные работы или кому есть что сказать, прошу. Общеизвестное теребить не нужно.

[Ответ][Цитата]

Калитеран
Сообщений: 585

На: "Теория переобучения"
Добавлено: 31 мар 15 5:27

Видел такое, когда интенсивно ресёрчил эту тему, но не удосужился собрать воедино для потомков((

ИМХУ могу высказать, так уж получается у меня, но не только у меня, на сколько мне известно у большинства тех кто занимается практически ML, работа идёт с разными алгоритмами и их композициями, причем структура их компоновки, зависит от задачи и затем после притирки этот весь агрегат, в контексте данного датасета, имеет уникальную кривую(ые) обучения, на тестовых данных(контрольной выборке), для КАЖДОГО ML итеративного алгоритма системы.

Например я не использую рандомной инициализации нейросеток, а предварительно откластеризованные данные, центроиды переношу определённым способом в веса нейронов, входного слоя, а потом снова собственным способом, донаращиваю архитектуру, скрытых слоёв, похожим на жадные и газовые техники но с многими дополнениями. Конечно это делается на не входящих в обучающий сет «независимых» данных и много раз(кросвалидация), но можно сказать что у меня нет общей кривой обучения\переобучения, как на классических иллюстрациях и близко, точнее сказать у каждой комплексной структуры своя их коллекция, объединённые только требованием улучшения качества обобщающих характеристики системы.

Общую теорию вряд ли можно создать для всех нюансов композиций систем. Основная суть это скользящий контроль и его вариации для конкретной системы, поиск матожидания экстремума качества обобщения по итерациями тд.

[Ответ][Цитата]

ANGULIMALA
Сообщений: 80

На: "Теория переобучения"
Добавлено: 31 мар 15 6:04

Обобщающая способность. Методы отбора признаков 2014

[Ответ][Цитата]

гость
109.163.234.*

На: "Теория переобучения"
Добавлено: 31 мар 15 8:44

Эвристик и шаманств можно накрутить бесконечно, но главная суть что бы поймать экстремум в пространстве итераций, структурных усложнений и накачки данными, желательно глобальный, естественно на контрольной выборке(ах) не входящих в обучающую.

[Ответ][Цитата]

void
Сообщений: 146

На: "Теория переобучения"
Добавлено: 31 мар 15 10:07
Изменено: 31 мар 15 10:17

Цитата:
Автор: mserg

Собственно работа
http://robotics.stanford.edu/~ang/papers/cv-final.pdf
Кто знает подобные работы или кому есть что сказать, прошу. Общеизвестное теребить не нужно.
Интересная статья, но баян.

PS:
А из чего по Вашему может состоять и на чем базироваться такая теория? Нужно ли её выделять из машинного обучения, в отдельную дисциплину?

На мой взгляд совсем в общем, мало что утверждать можно, в данном контексте, абстрагируясь от конкретных алгоритмов и систем. Вроде: “Существует область насыщения данными и сложностью системы, после которого эффективность не растёт или даже падает” А свойства этого предела разные для разных алгоритмов, как и природы исследуемых данных.

[Ответ][Цитата]

mserg
Сообщений: 258

На: "Теория переобучения"
Добавлено: 31 мар 15 14:34
Изменено: 31 мар 15 14:38

В моем понимании, базироваться теория может на чем хочет. Но такая теория должна быть проверена на большом количестве наборов данных (репозитории). Для обучения должны браться малые объемы данных, но так, чтобы просматривалась практическая применимость. Скажем, для прогнозной аналитики, данные до некоторой даты - обучающие, после - тестовые.

На этих наборах данных может быть разработана и проверена теория, которая в среднем даст сравнительно лучший результат, чем, скажем K-folders или что-то еще.

Выделять в отдельную дисциплину, наверное, не стоит - это просто один из методов верификации модели. Что, конечно, не мешает использовать его для подбора параметров алгоритмов обучения.

[Ответ][Цитата]

void
Сообщений: 146

На: "Теория переобучения"
Добавлено: 31 мар 15 15:37

ML хоть и потомок статистики, но с откровенно инженерно-эвристическим уклоном, а понятие «теория» всё-таки больше относится к олдскульным ТВ и стат. конструктам, более строго формализуемым. Я спросил о желаемом формате «теории» поэтому. Если конструировать такую теорию, то нужно обозначить главные сущности и их отношения. Если «наследоваться» от ML и взять за основу матрицу объекты-признаки, алгоритмическое пространство и функционал качества, то возникает вопрос нужно ли и как задавать свойство переобученности на пространстве алгоритмов, как производный признак, зависящий от способов оптимизационного поиска по функционалу качества.

Вообще свойство очевидно нужное, но для разных алгоритмов разные зависимости его от методов оптимизации. По сути это оптимизация оптимизации. Как по мне это не свойство алгоритма, а параметр процесса оптимизации, некоторая функция от типа алгоритма, количества обработанных данных и динамики качества распознавания. А вся «теория» это некий набор функций или методов их порождения, в зависимости от семейств алгоритмов и природы данных, своего рода таблица.

[Ответ][Цитата]

гость
96.44.189.*

На: "Теория переобучения"
Добавлено: 02 апр 15 8:53

подгонка

[Ответ][Цитата]

mserg
Сообщений: 258

На: "Теория переобучения"
Добавлено: 02 апр 15 23:07

Насчет функционала - как докурю, выложу...
Еще одна работа на этот счет:
http://jmlr.csail.mit.edu/papers/volume11/cawley10a/cawley10a.pdf

[Ответ][Цитата]

Калитеран
Сообщений: 585

На: "Теория переобучения"
Добавлено: 04 апр 15 7:50

Цитата:
Автор: mserg

Насчет функционала - как докурю, выложу...
Да что там курить… каждому ML алгоритму или системе, сопоставить функцию динамики зависимости качества обучения на обучаемых и контрольных данных, от итераций, мощности обучавшего множества и тд. В простейшем случае как то так:

В сложном случае кривые не такие гладкие и нужно их усреднять сглаживать и тп, но глобально принцип будет тот же, замедление скорости уменьшения ошибки на обучаемых данных + разворот на контрольных.

[Ответ][Цитата]

гость
78.108.63.*

На: "Теория переобучения"
Добавлено: 05 апр 15 4:22

смотря какой Вы делаете выбор, счастье или благо, глупец выбирает счастье, мудрый благо, остальное незначимые детали

[Ответ][Цитата]

гость
91.109.247.*

На: "Теория переобучения"
Добавлено: 06 апр 15 10:08

Цитата:
Автор: Калитеран

Ну да, обычно функция от этих двух кривуль, когда расходятся то всё, даже раньше можно

[Ответ][Цитата]

mserg
Сообщений: 258

На: "Теория переобучения"
+1
Добавлено: 07 апр 15 17:20
Изменено: 07 апр 15 17:24

"Настоящее" машинное обучение все же связано с автоматическим подбором "функции", которая описывает реальность. Для простоты, пусть $D$ - исходные данные, $y$ - "измеренная реальность", $f(D)$ - искомая функция, $g(f(D),y)$ - оценочная функция (заданная функция качества, описывающая близость подобранной функции $f(D)$ к "реальности" $y$

Первое, что приходит в голову, это прямая минимизация функции $g$ , а регулятор - "сложность функции" $f$ . В простейшем случае, для сложности можно взять длину функции $L(f)$ (в битах). Получается следующее:
$f_l=argmin(g(f(D),y)|f \in F_C \in F,L(f)=l)$
Здесь $F$ - класс функций,
$F_C$ - семейство функций (функции семейства совпадают с точность до констант, в них входящих),
$f_l$ - функция с "длиной" $l=L(f)$

Если $g$ отражает полиномиальный размер "погрешности", то разумно требовать, чтобы ее уменьшение соответствовало логарифмическому росту $L(f)$ (т.е. наилучшей будет наиболее "информационная" функция).

Этот подход вполне работает, если "данных много", а шумы слабы. Если это не так, то нельзя пользоваться не только $L(f)$ для регуляризации, но и нельзя прямо минимизировать $g$ . Докурю - допишу, почему это так, и как построить функционал для схемы с кросс-проверкой.

[Ответ][Цитата]

mserg
Сообщений: 258

На: "Теория переобучения"
Добавлено: 08 апр 15 4:17
Изменено: 08 апр 15 4:19

Кросс-проверка является частью строимой модели. Данные $D$ делятся на «обучающие» $D_L$ и собственно тестовые $D_T$ , на которых собственно и производится «проверка». При таком делении делается дополнительное предположение, что тестовые данные отражают условия применения модели. Т.е. предположений в модели получается 3 штуки:
1. обучающая часть исходных данных содержат в себе «достаточные» сведения о реальном мире
2. «при прочих равных», наиболее достоверны более простые и точные функции
3. тестовая часть исходных данных содержит в себе «достаточные» сведения об условиях применения модели в реальном мире.
Если все эти предположения более-менее верны, то можно дальше продолжить рассуждения.

Почему, как правило, нельзя прямо минимизировать оценочную функцию $g$ …
Допустим, речь идет о регрессии, т.е. мы верим в существование некоторой закономерности, которая зашумлена. В этом случае, если подобрать функцию $f$ на множестве $D_L$ , то проверка «остатков» g на множестве $D_T$ не должна обнаруживать никакие закономерность – должен быть только шум. Как правило, на практике это не так. Например, есть категорийный признак (скажем, город), который очень значим. Если в выборке данных частоты появления городов маленькие, то остатки g могут обнаружить зависимость от частоты появления городов в выборке. Регуляризация, по большому счету, направлена на то, чтобы убрать эти зависимости. В результате, вместо оценочной функции g минимизируют другую функцию h. Примечательно, что функция h может даже не включать в себя функцию g, как это бывает при классической регуляризации. Например, если функция g – площадь под ROC-кривой, то функция h может быть логистической, или F1-Score и т.п.
To be continued…

[Ответ][Цитата]

Калитеран
Сообщений: 585

На: "Теория переобучения"
Добавлено: 08 апр 15 6:36

Цитата:
Автор: mserg

"Настоящее" машинное обучение...
Если не придираться к деталям, то всё в общем то верно, однако Вы не упомянули собственно про «переобучение».

ML это наука и ремесло о эффективном функциональном\параметрическом поиске, причем особый акцент делается на эффективности, иначе полный перебор рулит. Задавая ограничения, система на основе некоторых априорных мета-характеристиках, маскируется от полного перебора, выделяя более вероятные области поиска. На мой взгляд на это надо смотреть как на неявную имплементацию априорных мета-закономерностей, а не их «автоматический поиск». В действительности мы не генерируем новые функции, а перебираем имеющиеся и их параметризуем.

Участники недавно ознакомившиеся с ML, или гуманитарии, часто мистифицируют разного рода «мета-алгоритмы», мол якобы алгоритм управления алгоритмами, функция от функции, превращает её в нечто новое. Но по сути это просто сложная функция, новую степень свободы можно отобразить просто как дополнительную мерность, так например функционал двухмерных функций может быть представлен как функция 3х аргументов, вопрос удобства, для конкретных манипуляций.

По сути мы имеем дело с иерархией «тулбоксов» для эффективной манипуляции с функциями разного уровня. К примеру есть «разные» по алгоритмическому описанию, классификаторы, байсовские, деревъя, метрические, логические, линейные, нейросети и тп. для каждых есть эвристики их эффективного тюнинга под разные типы задач, но есть также эвристики выбора и самих классификаторов под задачи, также есть композиции их, управление композициями и тп. Всё для одной цели – что бы было попроще, но с необходимым качеством.

Конкретно оверфит, это функция для как для отдельно каждого, или системы элементов машинного обучения, зависящая от динамики ошибки на обучающей и тестовой выборке, сама по себе или усреднённая для мульти прогонов, в случае многократной кросвалидации.

[Ответ][Цитата]

Стр.1 (2): [1] 2 След. > >>

Главная | Материалы | Справочник | Гостевая книга | Форум | Ссылки | О сайте

Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net