>навел меня тут на достаточно известных иследователей, вот например их статьи
>там элементарно показано, что достигается практически необходимая точность
>распознования, а скорость на порядок больше ... (а с моими модификациями - еще больше)
Поскольку я не телепат, то плиз явно сопоставьте тамошние цифирки точности и скорости с данными в указанной мной статье 07г и в статье ЛеКуна с соавторами 98г "Gradient learning applied to document recognition". Эти 2 статьи скачиваются с указанного мной сайта за 1 мин, где искать указанные Вами статьи - я не представляю. Гугл, конечно, может знать, но лень проверять.
Во всех этих (названных и мной, и Вами) статьях применяется одна и та же MNIST-база, поэтому сравнение сетей/методов будет корректным.
>Софта про бэкпроп такого не знаю - т.к. такой софт сколько я и не видел -
>не может взять даже минимальную размерность задачи
Пакет Statistica в двух (или уже трех?) последних версиях включает и нейромодуль. В Матлабе есть Anfis/NNTool. Trajan (это как раз то, что под другим именем включается в Статистику как нейромодуль) можно бесплатно скачать для теста. И т.д. Поиграйтесь-ка с реальными промышленными нейропакетами.
>это для бэкпропа я еще не встречал даже элементарной аргументации - даже нет
>теоремы о сходимости
полсотни лет развития теории градиентной оптимизации - коту под хвост? Бэкпроп - это метод градиентной оптимизации (вернее, единый способ быстрого расчета градиента сложной функции плюс куча вариантов организации собственно использования этого градиента - выполнение шагов именно в сторону наискорейшего спуска либо конструирование более эффективного направления, возможность управления длиной шага вдоль направления спуска, и т.д.). Если не говорят - то только потому, что всё уже давно известно из более древней области знания и с более универсальными тамошними терминами.
Сходится. К локальному минимуму или седловой точке (в зависимости от способа организации использования градиента).
Скорость сходимости - линейная или сверхлинейная, опять же в зависимости от конструкции алгоритма обучения.
>вы же даже не попытались мне помочь
Чем помочь? У меня самого нет никаких проблем с использованием бэкпропа. И у меня нет времени разбираться с конкретными деталями конкретной программы или конкретной задачи - я отвечаю на принципиальный вопрос (правильно/неправильно, так/не так, лучше/хуже,...) базируясь на своем и чужом опыте.
Поэтому да,
>ну, моим результатам вы явно не доверяете
именно потому, что Вы один кричите о каких-то проблемах, а толпа говорит о другом.
>там далеко ходить задачу XOR меньше чем за 1000 итераций решить нельзя
Повторяю - это чисто Ваши проблемы. Взгляните в указанную мной в этом письме статью ЛеКуна с соавторами 98г - там на базе из 60000 картинок с рукописными символами хватало полсотни итераций обучения. Да, всё зависит от особенностей конкретной задачи, но не до такой же абсурдной степени (когда база на 4 порядка бОльшего размера требует на 2 порядка меньше итераций).
>Я надеюсь классическим перцептроном вы называете трехслойный перцептрон
розенблаттовский персептрон с пороговыми нейронами, со случайными связями нейронов первого скрытого слоя только с отдельными ячейками ретины (а не со всей ретиной), и с обучаемым только последним слоем. Т.е. случай не с бэкпропом.
>А вот это тонкий момент
А Вы сначала найдите такие временные ряды в реалиях в сколько-нибудь массовом количестве и в актуальных для прогнозирования задачах.
>если число 5 записать как 101, то перцептрон прогнозируя временный ряд из 101, не спрогнозирует число 5 ?
Сорри, но пример перешел границу, за которой кончилась традиционная ориентация и начались извращения (=мозго@бство)
Ответов больше не будет - рекламную роль ответы для меня исчерпали, иной реальной пользы для самого себя не вижу, есть и иные способы потратить время.