Автор: mserg Единичные примеры появились с целью получить от Вас хоть конкретный референс. |
|
Ладно, я не хотел - но таки добью.
Вот тут будет пара референсов:
http://ru.wikipedia.org/wiki/Регуляризация_(математика)
Отличия от Вашей формулы - в:
1) аддитивность штрафа - чисто для того, чтобы находить коэффициенты модели решением СЛАУ. Мультипликативность же даст систему нелинейных уравнений или гемор с линеаризацией.
2) штраф априори (!) учитывается при нахождении коэффициентов модели, а не апостериори (на этапе ранжирования моделей).
3) коэффициент при штрафе - чтобы была возможность гибко балансировать между точностью аппроксимации и выполнением наложенных на модель ограничений.
4) получается именно ОДНА формула, без необходимости в дополнительных алгоритмах вычисления значения l(f) (тут я на Ваши обозначения сослался).
Нет проблем, например, написать и формулу, где штрафом будет сумма модулей или квадратов частных производных f по входам xi, или сумма модулей или квадратов частных производных Е по входам xi. Т.е. можно минимизировать чувствительность выхода модели к колебаниям входов, или чувствительность качества решения задачи к колебаниям входов.
Ещё пример. Строим нелинейные главные компоненты путём обучения нейросети-автоассоциатора (несколько слоёв нейронов, "средний" слой имеет малое число нейронов, число выходов сети совпадает с числом входов, на выходах требуется выдать входы, число нейронов в "узком" среднем слое меньше числа входов). Т.е. строим нелинейный проектор исходных данных в пространство малой размерности (первая половина сети) и, одновременно, нелинейный же проектор из пространства главных компонент в исходное пространство (вторая половина сети). В отличие от статистического метода построения линейных главных компонент - в сети нейроны в среднем слое не упорядочены по их вкладу в точность аппроксимации (а в стат.методе - главные компоненты упорядочены, т.е. вторая главная компонента менее важна, чем первая, и т.д.). Ну так добавим в целевую функцию при обучении сети ещё один компонент - который будет смотреть на влияние нейронов среднего слоя и корректировать решение так, чтобы первая главная компонента (выход первого нейронав среднем слое) была самая важная, и т.д.
Этот абзац - описание возможности наложения ограничений не на всю модель целиком, а на её отдельные элементы (отдельные нейроны сети). Аналогично и в других упомянутых формулах можно вводить штрафы только для части элементов модели (т.е. налагать штраф на какой-то фрагмент модели или её отдельные элементы, а не, например, на абсолютно все её коэффициенты или операнды).
Т.е. для задачи с одной моделью - полно частных примеров, надо только кругозор иметь. Был бы кому-то нужен общий вид - что, думаете, не написали бы Вашу формулу?