GotAI.NET - Форум - Искусственный интеллект

Все темы | Новая тема

Стр.1 (5)

След. > >>

Поиск:

Автор

Тема: Проблема угасания ошибки в алгоритме обратного распространен

кирилл
Сообщений: 3

Проблема угасания ошибки в алгоритме обратного распространен

Добавлено: 09 июл 09 16:27

Попробовал сделать нейронную сеть прямого распространения с большим количеством слоев и обучать ее алгоритмом обратного распространения ошибки. Сеть обучается, однако подстраивание весов происходит на ближайшем к выходу слое и чем глубже слой тем меньше изменение весов.

В итоге для каждой новой выборки подстраивается только ближайший к выходу слой, а остальные остаются как есть.

Это я так напортачил или это действительно проблема?

Потому что из формул для обычной сигмоиды получается:

$F = \frac{1}{1+e^{-NET}}$
$NET = \sum_{j=1}^I W(k,i,j)*x(j)$
$0 < F < 1$

Для производной:

$F' = \frac{e^{-NET}}{(1+e^{-NET})^{2}} = F*(1-F)$
$0 < F' < 0.25$

Корректировка весов для n-ого слоя, ближнего к выходу:

$\sigma (n,i) = F'(n,i)*(F(n,i) - Target(i))$

,где $(n,i)$ означает i-ый нейрон в n-ом слое, для остальных слоев

$\sigma (k,i) = F'(k,i)* \sum_{j=1}^I W(k,i,j)*\sigma(k+1,j)$

,где $W(k,i,j)$ - веса между i-ым нейроном в k-ом слое и j-ым нейроном в (k+1)-ом, далее считаем, что в каждом слое I нейронов

Пусть $max(F(n,i)-Target(i)) = E$ и $|F'| < C$ , тогда $\sigma(n,i)$ можно оценить как

$| \max ( \sigma (n) ) | < C*E$

А для $\sigma(k,i)$ можно записать

$| \sigma (k,i) | < C * I * \max (W) * | \max( \sigma (k+1) ) |$

Пусть $\max(W) = w$ . Разматывая неравенство до $|\max(\sigma(n))|$ получим

$| \sigma (k,i) | < (C*I*w)^{n-k}*C*E$

Откуда следует что $\sigma$ в каждом следующем слое сжимается множетелем $C*I*w$ . Так как вход на нейрон $NET$ можно оценить как

$| NET = \sum_{j=1}^I W(k,j,i)*x(j) | < \max(W)*I$

, потому что $0 < x(j) < 1$ - на входном слое нормализуется, а на последующих является результатом применения сигмоиды, получим

$|NET| < I*w$

То перепишем $C*I*w$ , раскрыв $C$ через $F'$

$C*I*w = I*w*\frac{e^{-I*w}}{(1+e^{-I*w})^{2}}$

Возьмем $I*w = x$ и начертив $G(x) = \frac{x*e^{-x}}{(1+e^{-x})^{2}}$ получим что она достигает максимума в точке ~ 1.58 и максимум равен ~ 0.22 - то есть $\sigma$ всегда сжимается.

Отсюда получается что $\sigma$ лучше было бы домножать на 5, а для слоев шириной $I$ подбирать веса в диапазоне
$\max|W| < \frac{1.6}{I}$

Есть ли тут ошибка?

Форум: Проблемы искусственного интеллекта