Автор: гость многослойный персептрон и гугловцы его используют с функцией активации ReLU, сигмоида и гипертангенс сейчас не в тренде, скам |
|
Гугловцы и более широкие народные массы используют РеЛУ потому, что не знали или забыли о возможности быстро вычислять сигмоиды.
Когда же сигмоиды/гиптангенсы вычисляются быстро - то это будет занимать всего несколько процентов (в случае свёрточных нейросеток - 2-3%, не более) в общем времени работы программы.
Т.е. значимого ускорения от перехода к РеЛУшкам - в этом случае не будет.
А вот проблемы - появляются, от нецентрированности (далёкости средних значений сигналов от нуля) сигналов после РеЛУшных нелинейностей (про негативное влияние нецентрированности сигналов на скорость сходимости обучения говорил ещё ЛеКун в 90е - вот народу для успешной работы с РеЛУ и пришлось придумывать-использовать батч-нормализации).
Но у меня в софте больше десятка нелинейных функций нейронов, из них РеЛУ - 5 вариантов. Т.е. я всё пробовал (и пробую для каждой новой задачи). Это только глупцы ограничиваются какой-то модой.