Вход-смещение ("отклонение") не надо никак нормализировать.
Ну и если подумать, то "входом" его считать не надо. Обычный добавочный коэффициент у нейрона. Во-первых, экономия времени (хоть копеечная, но из нескольких старушек набегает целый рубль), поскольку не надо домножать на константу +1. Во-вторых, у нейронов второго и последующих слоев эти коэффициенты тоже есть, и привязывать их к входному вектору (вернее, компоненту этого вектора, содержащему +1) не стоит по причинам опять же усложнения программирования (часть входов нейрон берет с выходов нейронов предыдущих слоев, а один вход со входа всей сети, ну и зачем лишняя управляющая логика для того, чтобы откуда-то снаружи взять обычную +1?)
Зачем смещение нужно? А для того, что класс реализуемых нейроном и/или нейросетью функций получается шире (по сравнению со случаем отсутствия у нейронов коэффициентов смещений). Ведь ненужные коэффициенты сеть при обучении может (будем оптимистами) занулить, чтобы не получать по ним шум или излишнее отклонение в ненужную сторону.
--------------------------
нейронные сети, анализ данных, прогнозирование