новости

материалы

справочник

форум

гостевая

ссылки

Содержание

	Логические подходы
	Нейронные сети
	Генетические алгоритмы
	Разное
	Публикации
	Алгоритмы
	Применение

Кнопки

5. Описание нейронных сетей

Эта глава состоит из четырех частей. В первой части описана система построения сетей из элементов. Описаны прямое и обратное функционирование сетей и составляющих их элементов. Во второй части приведены примеры различных парадигм нейронных сетей, описанные в соответствии с предложенной в первой части главы методикой. В третьей и четвертой частях главы описаны стандарты нейронных сетей.

Как уже говорилось в первой главе, на данный момент в нейросетевом сообществе принято описывать архитектуру нейронных сетей в неразрывном единстве с методами их обучения. Эта связь не является естественной. Так, в первой части этой главы будет рассматриваться только архитектура нейронных сетей. Во второй части будет продемонстрирована независимость ряда методов обучения нейронных сетей от их архитектуры. Однако, для удобства читателя, во второй части главы архитектуры всех парадигм нейронных сетей будут описаны вместе с методами обучения.

Нейронные сети можно классифицировать по разным признакам. Для описания нейронных сетей в данной главе существенной является классификация по типу времени функционирования сетей. По этому признаку сети можно разбить на три класса.

Сети с непрерывным временем (аналоговые сети).
Сети с дискретным асинхронным временем.
Сети с дискретным временем, функционирующие синхронно.

В данной работе рассматриваются только сети третьего вида, то есть сети, в которых все элементы каждого слоя срабатывают одновременно и затем передают свои сигналы нейронам следующего слоя.

5.1 Конструирование нейронных сетей

Впервые последовательное описание конструирования нейронных сетей из элементов было предложено в книге А.Н.Горбаня [64]. Однако за прошедшее время предложенный А.Н. Горбанем способ конструирования претерпел ряд изменений.

При описании нейронных сетей принято оперировать такими терминами, как нейрон и слой. Однако, при сравнении работ разных авторов выясняется, что если слоем все авторы называют приблизительно одинаковые структуры, то нейроны разных авторов совершенно различны. Таким образом, описание нейронных сетей, а значит и стандартизация, на уровне нейронов невозможна. Однако, возможна стандартизация на уровне составляющих нейроны элементов и процедур конструирования сложных сетей из простых.

5.1.1 Элементы нейронной сети

На рис. 1 приведены все элементы, необходимые для построения нейронных сетей. Естественно, что возможно расширение списка нелинейных преобразователей. Однако, это единственный вид элементов, который может дополняться. Вертикальными стрелками обозначены входы параметров (для синапса – синаптических весов или весов связей), а горизонтальными – входные сигналы элементов. С точки зрения функционирования элементов сети сигналы и входные параметры элементов равнозначны. Различие между этими двумя видами параметров относятся к способу их использования в обучении. Кроме того, удобно считать, что параметры каждого элемента являются его свойствами и хранятся при нем. Совокупность параметров всех элементов сети называют вектором параметров сети. Совокупность параметров всех синапсов называют вектором обучаемых параметров сети, картой весов связей или синаптической картой. Отметим, что необходимо различать входные сигналы элементов и входные сигналы сети. Они совпадают только для элементов входного слоя сети.

Из приведенных на рис. 1 элементов можно построить практически любую нейронную сеть. Вообще говоря, нет никаких правил, ограничивающих свободу творчества конструктора нейронных сетей. Однако, есть набор структурных единиц построения сетей, позволяющий стандартизовать процесс конструирования. Детальный анализ различных нейронных сетей позволил выделить следующие структурные единицы:

элемент – неделимая часть сети, для которой определены методы прямого и обратного функционирования;
каскад – сеть составленная из последовательно связанных слоев, каскадов, циклов или элементов;
слой – сеть составленная из параллельно работающих слоев, каскадов, циклов или элементов;
цикл – каскад выходные сигналы которого поступают на его собственный вход.

Очевидно, что не все элементы являются неделимыми. В следующем разделе будет приведен ряд составных элементов.

Введение трех типов составных сетей связано с двумя причинами: использование циклов приводит к изменению правил остановки работы сети, описанных в разд. "Правила остановки работы сети"; разделение каскадов и слоев позволяет эффективно использовать ресурсы параллельных ЭВМ. Действительно, все сети, входящие в состав слоя, могут работать независимо друг от друга. Тем самым при конструировании сети автоматически закладывается база для использования параллельных ЭВМ.

На рис. 2 приведен пример поэтапного конструирования трехслойной сигмоидной сети.

5.1.2 Составные элементы

Название «составные элементы» противоречит определению элементов. Это противоречие объясняется соображениями удобства работы. Введение составных элементов преследует цель упрощения конструирования. Как правило, составные элементы являются каскадами простых элементов.

Хорошим примером полезности составных элементов может служить использование сумматоров. В ряде работ [36, 53, 106, 126, 288] интенсивно используются сети, нейроны которых содержат нелинейные входные сумматоры. Под нелинейным входным сумматором, чаще всего понимают квадратичные сумматоры – сумматоры, вычисляющие взвешенную сумму всех попарных произведений входных сигналов нейрона. Отличие сетей с квадратичными сумматорами заключается только в использовании этих сумматоров. На рис. 3а приведен фрагмент сети с линейными сумматорами. На рис. 3б – соответствующий ему фрагмент с квадратичными сумматорами, построенный с использованием элементов, приведенных на рис. 1. На (рис. 3в) – тот же фрагмент, построенный с использованием квадратичных сумматоров. При составлении сети с квадратичными сумматорами из простых элементов на пользователя ложится большой объем работ по проведению связей и организации вычисления попарных произведений. Кроме того, рис. 3в гораздо понятнее рис. 3б и содержит ту же информацию. Кроме того, пользователь может изменить тип сумматоров уже сконструированной сети, указав замену одного типа сумматора на другой. На рис. 4 приведены обозначения и схемы наиболее часто используемых составных элементов.

Таблица 1

Однородные и неоднородные сумматоры

Название	Однородный сумматор		Неоднородный сумматор
Название	Обозначение	Значение	Обозначение	Значение
Обычный	S		S₊
Адаптивный	A		A₊
Квадратичный	Q		Q₊

Необходимо отметить еще одну разновидность сумматоров, полезную при работе по конструированию сети – неоднородные сумматоры. Неоднородный сумматор отличается от однородного наличием еще одного входного сигнала, равного единице. На рис. 4г приведены схема и обозначения для неоднородного адаптивного сумматора. В табл. 1 приведены значения, вычисляемые однородными и соответствующими им неоднородными сумматорами.

5.1.3 Функционирование сети

Прежде всего, необходимо разделить процессы обучения нейронной сети и использования обученной сети. При использовании обученной сети происходит только решение сетью определенной задачи. При этом синаптическая карта сети остается неизменной. Работу сети при решении задачи будем далее называть прямым функционированием.

При обучении нейронных сетей методом обратного распространения ошибки нейронная сеть (и каждый составляющий ее элемент) должна уметь выполнять обратное функционирование. Во второй части этой главы будет показано, что обратное функционирование позволяет обучать также и нейросети, традиционно считающиеся не обучаемыми, а формируемыми (например, сети Хопфилда). Обратным функционированием называется процесс работы сети, когда на выход сети подаются определенные сигналы, которые далее распространяются по тем же связям, что и при прямом функционировании до входа сети. При прохождении сигналов обратного функционирования через элемент с обучаемыми параметрами вычисляются поправки к параметрам этого элемента. Если на выход сети с непрерывными элементами подается производная некоторой функции F от выходных сигналов сети, то вычисляемые сетью поправки должны быть элементами градиента функции F по обучаемым параметрам сети. Исходя из этого требования определим правила обратного функционирования для элементов сети, приведенных на рис. 1, в предположении, что сеть состоит только из одного элемента.

5.1.3.1 Синапс

У синапса два входа – вход сигнала и вход синаптического веса (рис. 5а). Обозначим входной сигнал синапса через , а синаптический вес через . Тогда выходной сигнал синапса равен . При обратном функционировании на выход синапса подается сигнал . На входе синапса должен быть получен сигнал обратного функционирования, равный , а на входе синаптического веса – поправка к синаптическому весу, равная (рис. 5б).

5.1.3.2 Умножитель

Умножитель имеет два входных сигнала и не имеет параметров. Обозначим входные сигнал синапса через . Тогда выходной сигнал умножителя равен (рис. 6а). При обратном функционировании на выход умножителя подается сигнал . На входах сигналов и должны быть получены сигналы обратного функционирования, равные и , соответственно (рис. 6б).

5.1.3.3 Точка ветвления

В отличие от ранее рассмотренных элементов, точка ветвления имеет только один вход и несколько выходов. Обозначим входной сигнал через x, а выходные через , причем (рис. 7а). При обратном функционировании на выходные связи точки ветвления подаются сигналы (рис. 7б). На входной связи должен получаться сигнал, равный . Можно сказать, что точка ветвления при обратном функционировании переходит в сумматор, или, другими словами, сумматор является двойственным по отношению к точке ветвления.

5.1.3.4 Сумматор

Сумматор считает сумму входных сигналов. Обычный сумматор не имеет параметров. При описании прямого и обратного функционирования ограничимся описанием простого сумматора, поскольку функционирование адаптивного и квадратичного сумматора может быть получено как прямое и обратное функционирование сети в соответствии с их схемами, приведенными на рис. 3б и 3в. Обозначим входные сигналы сумматора через (рис. 8а). Выходной сигнал равен . При обратном функционировании на выходную связь сумматора подается сигнал (рис. 8б). На входных связях должны получаться сигналы, равные Из последней формулы следует, что все сигналы обратного функционирования, выдаваемые на входные связи сумматора, равны. Таким образом сумматор при обратном функционировании переходит в точку ветвления, или, другими словами, сумматор является двойственным по отношению к точке ветвления.

5.1.3.5 Нелинейный Паде преобразователь

Нелинейный Паде преобразователь или Паде элемент имеет два входных сигнала и один выходной. Обозначим входные сигналы через . Тогда выходной сигнал Паде элемента равен (рис. 9а). При обратном функционировании на выход Паде элемента подается сигнал . На входах сигналов и должны быть получены сигналы обратного функционирования, равные и , соответственно (рис. 9б).

5.1.3.6 Нелинейный сигмоидный преобразователь

Нелинейный сигмоидный преобразователь или сигмоидный элемент имеет один входной сигнал и один параметр. Сторонники чистого коннекционистского подхода считают, что обучаться в ходе обучения нейронной сети могут только веса связей. С этой точки зрения параметр сигмоидного элемента является не обучаемым и, как следствие, для него нет необходимости вычислять поправку. Однако, часть исследователей полагает, что нужно обучать все параметры всех элементов сети. Исходя из этого, опишем вычисление этим элементом поправки к содержащемуся в нем параметру.

Обозначим входной сигнал через , параметр через , а вычисляемую этим преобразователем функцию через (рис. 10а). При обратном функционировании на выход сигмоидного элемента подается сигнал . На входе сигнала должен быть получен сигнал обратного функционирования, равный , а на входе параметра поправка, равная (рис. 10б).

5.1.3.7 Произвольный непрерывный нелинейный преобразователь

Произвольный непрерывный нелинейный преобразователь имеет несколько входных сигналов, а реализуемая им функция зависит от нескольких параметров. Выходной сигнал такого элемента вычисляется как некоторая функция , где x – вектор входных сигналов, а a – вектор параметров. При обратном функционировании на выходную связь элемента подается сигнал обратного функционирования, равный . На входы сигналов выдаются сигналы обратного функционирования, равные , а на входах параметров вычисляются поправки, равные .

5.1.3.8 Пороговый преобразователь

Пороговый преобразователь, реализующий функцию определения знака (рис. 11а), не является элементом с непрерывной функцией, и, следовательно, его обратное функционирование не может быть определено из требования вычисления градиента. Однако, при обучении сетей с пороговыми преобразователями полезно иметь возможность вычислять поправки к параметрам. Так как для порогового элемента нельзя определить однозначное поведение при обратном функционировании, предлагается доопределить его, исходя из соображений полезности при конструировании обучаемых сетей. Основным методом обучения сетей с пороговыми элементами является правило Хебба (подробно рассмотрено во второй части главы). Оно состоит из двух процедур, состоящих в изменении «весов связей между одновременно активными нейронами». Для этого правила пороговый элемент при обратном функционировании должен выдавать сигнал обратного функционирования, совпадающий с выданным им сигналом прямого функционирования (рис. 11б). Такой пороговый элемент будем называть зеркальным. При обучении сетей Хопфилда, подробно рассмотренном во второй части главы, необходимо использовать «прозрачные» пороговые элементы, которые при обратном функционировании пропускают сигнал без изменения (рис. 11в).

5.1.4 Правила остановки работы сети

При использовании сетей прямого распространения (сетей без циклов) вопроса об остановке сети не возникает. Действительно, сигналы поступают на элементы первого (входного) слоя и, проходя по связям, доходят до элементов последнего слоя. После снятия сигналов с последнего слоя все элементы сети оказываются «обесточенными», то есть ни по одной связи сети не проходит ни одного ненулевого сигнала. Сложнее обстоит дело при использовании сетей с циклами. В случае общего положения, после подачи сигналов на входные элементы сети по связям между элементами, входящими в цикл, ненулевые сигналы будут циркулировать сколь угодно долго.

Существует два основных правила остановки работы сети с циклами. Первое правило состоит в остановке работы сети после указанного числа срабатываний каждого элемента. Циклы с таким правилом остановки будем называть ограниченными.

Второе правило остановки работы сети – сеть прекращает работу после установления равновесного распределения сигналов в цикле. Такие сети будем называть равновесными. Примером равновесной сети может служить сеть Хопфилда (см. разд. "Сети Хопфилда").

5.1.5 Архитектуры сетей

Как уже отмечалось ранее, при конструировании сетей из элементов можно построить сеть любой архитектуры. Однако и при произвольном конструировании можно выделить наиболее общие признаки, существенно отличающие одну сеть от другой. Очевидно, что замена простого сумматора на адаптивный или даже на квадратичный не приведут к существенному изменению структуры сети, хотя число обучаемых параметров увеличится. Однако, введение в сеть цикла сильно изменяет как структуру сети, так и ее поведение. Таким образом можно все сети разбить на два сильно отличающихся класса: ациклические сети и сети с циклами. Среди сетей с циклами существует еще одно разделение, сильно влияющее на способ функционирования сети: равновесные сети с циклами и сети с ограниченными циклами.

Большинство используемых сетей не позволяют определить, как повлияет изменение какого-либо внутреннего параметра сети на выходной сигнал. На рис. 12 приведен пример сети, в которой увеличение параметра приводит к неоднозначному влиянию на сигнал : при отрицательных произойдет уменьшение , а при положительных – увеличение. Таким образом, выходной сигнал такой сети немонотонно зависит от параметра . Для получения монотонной зависимости выходных сигналов сети от параметров внутренних слоев (то есть всех слоев кроме входного) необходимо использовать специальную монотонную архитектуру нейронной сети. Принципиальная схема сетей монотонной архитектуры приведена на рис. 13.

Основная идея построения монотонных сетей состоит в разделении каждого слоя сети на два – возбуждающий и тормозящий. При этом все связи в сети устроены так, что элементы возбуждающей части слоя возбуждают элементы возбуждающей части следующего слоя и тормозят тормозящие элементы следующего слоя. Аналогично, тормозящие элементы возбуждают тормозящие элементы и тормозят возбуждающие элементы следующего слоя. Названия «тормозящий» и «возбуждающий» относятся к влиянию элементов обеих частей на выходные элементы.

Отметим, что для сетей с сигмоидными элементами требование монотонности означает, что веса всех связей должны быть неотрицательны. Для сетей с Паде элементами требование не отрицательности весов связей является необходимым условием бессбойной работы. Требование монотонности для сетей с Паде элементами приводит к изменению архитектуры сети, не накладывая никаких новых ограничений на параметры сети. На рис. 14 приведены пример немонотонной сети, а на рис. 15 монотонной сети с Паде элементами.

Особо отметим архитектуру еще одного класса сетей – сетей без весов связей. Эти сети, в противовес коннекционистским, не имеют обучаемых параметров связей. Любую сеть можно превратить в сеть без весов связей заменой всех синапсов на умножители. Легко заметить, что получится такая же сеть, только вместо весов связей будут использоваться сигналы. Таким образом в сетях без весов связей выходные сигналы одного слоя могут служить для следующего слоя как входными сигналами, так и весами связей. Заметим, что вся память таких сетей содержится в значениях параметров нелинейных преобразователей. Из разделов "Синапс" и "Умножитель" следует, что сети без весов связей способны вычислять градиент функции оценки и затрачивают на это ровно тоже время, что и аналогичная сеть с весами связей.

5.1.6 Модификация синаптической карты (обучение)

Кроме прямого и обратного функционирования, все элементы должны уметь выполнять еще одну операцию – модификацию параметров. Процедура модификации параметров состоит в добавлении к существующим параметрам вычисленных поправок (напомним, что для сетей с непрерывно дифференцируемыми элементами вектор поправок является градиентом некоторой функции от выходных сигналов). Если обозначить текущий параметр элемента через , а вычисленную поправку через , то новое значение параметра вычисляется по формуле . Параметры обучения и определяются компонентом учитель и передаются сети вместе с запросом на обучение. В некоторых случаях бывает полезно использовать более сложную процедуру модификации карты.

Во многих работах отмечается, что при описанной выше процедуре модификации параметров происходит неограниченный рост величин параметров. Существует несколько различных методов решения этой проблемы. Наиболее простым является жесткое ограничение величин параметров некоторыми минимальным и максимальным значениями. При использовании этого метода процедура модификации параметров имеет следующий вид:

5.1.7 Контрастирование и нормализация сети

В последние годы широкое распространение получили различные методы контрастирования или скелетонизации нейронных сетей. В ходе процедуры контрастирования достигается высокая степень разреженности синаптической карты нейронной сети, так как большинство связей получают нулевые веса (см. например [47, 99, 302. 303]).

Очевидно, что при такой степени разреженности ненулевых параметров проводить вычисления так, как будто структура сети не изменилась, неэффективно. Возникает потребность в процедуре нормализации сети, то есть фактического удаления нулевых связей из сети, а не только из обучения. Процедура нормализации состоит из двух этапов:

Из сети удаляются все связи имеющие нулевые веса и исключенные из обучения.
Из сети удаляются все подсети, выходные сигналы которых не используются другими подсетями в качестве входных сигналов и не являются выходными сигналами сети в целом.

В ходе нормализации возникает одна трудность: если при описании нейронной сети все нейроны одинаковы, и можно описать нейрон один раз, то после удаления отконтрастированных связей нейроны обычно имеют различную структуру. Компонент сеть должен отслеживать ситуации, когда два блока исходно одного и того же типа уже не могут быть представлены в виде этого блока с различными параметрами. В этих случаях компонент сеть порождает новый тип блока. Правила порождения имен блоков приведены в описании выполнения запроса на нормализацию сети.

Оглавление