GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.1 (18)След. > >>   Поиск:  
 Автор Тема: Распознование текста
beliy
Сообщений: 20
Распознование текста
Добавлено: 04 янв 08 20:06
Всем доброго времени суток. Недавно загорелся одной идеей, распознование текста. Есть такая вещь в инете как "капчи" - тест на человечность. Спец скрипт коверкает некоторое слово, которое нужно ввести для того что бы доказать что ты не бот. Я сам програмлю плохо. Один знкомый програмер сказал что написл нейронку, которая с высокой степенью вероятности распозновала капчи с mail.ru. Многого о ней не знаю, знаю только то что учил он её в ручную 7 часиков подряд. Внимание вопрос! Есть ли инфа именно по этой теме, есть ли какие то успехи, примеры в коде. Зарание спасибо за ответ.
[Ответ][Цитата]
Следопыт
Сообщений: 35
На: Распознование текста
Добавлено: 04 янв 08 20:24
Тест на человечность - штука хорошая, я бы пару своих знакомых проверил, но они врядли его пройдут

Инфа именно по этой теме в общем таже самая что и по распознаванию текста, только особенность в распознавание капчи состоит в том, что под определенную капчу нужен свой алгоритм предварительной обработки изображения. Убирать шумы, лишние линии, цветовые эффекты, выравнивание символов,масштабирование, убирать слипание символов если есть. И при всем этом универсального алгоритма нет, а если более-менее удачные существуют, то нуждаются в тонкой настройке.
Для начинающего программиста задача распознования капчи вообще нерешаемая.
[Ответ][Цитата]
beliy
Сообщений: 20
На: Распознование текста
Добавлено: 04 янв 08 20:32
То то и оно, что у нужного ресурса капчи однотипные, идного цвета, всегда одно количество символов, да и набор символов невелик, в одновном используются 10-15. Я кому этим занятся у меня есть. Просто того программера я уже месяц найти не могу, алкашина. Я с другим поговорил, он мне сказал, ок, только нужно найти инфы побольше, именно по тому что мне надо, что бы пальцами в небо не тыкать.
[Ответ][Цитата]
Corwin
Сообщений: 1324
На: Распознование текста
Добавлено: 04 янв 08 21:14
Здесь есть неплохая статья по этой теме:
Распознавание образов с помощью шаблонов
[Ответ][Цитата]
Следопыт
Сообщений: 35
На: Распознование текста
Добавлено: 04 янв 08 22:03

Статья неплохая, только кончается на самом интересном месте
[Ответ][Цитата]
beliy
Сообщений: 20
На: Распознование текста
Добавлено: 04 янв 08 22:13
нда, действительно, на самом интересном, точнее на самом нужном.
[Ответ][Цитата]
Victor G. Tsaregorodtsev
Сообщений: 3187
На: Распознование текста
Добавлено: 05 янв 08 17:10
beliy

Нда, как в анекдоте говорил чукча, однако, тенденция
Раньше народ хотел поиметь нейросетевую систему прогнозирования для Форекса (на протяжении пары лет, считай, каждый второй вопрос мне в мыло шел на эту тему), а теперь вот по капчам начали прикалываться: с октября мне аж четыре таких предложения сделали (но я так ни за одно и не взялся, ибо есть более интересные дела), потом на виноградовском форуме вроде бы возникала тема на стыке капчей и НС, и теперь вот тут...

Тут были темы по распознаванию деформированных или сдвинутых на картинке символов, распознаванию рукописного текста (у разных писателей почерк разный = деформации символов) - все рецепты и нейросети для тех задач и для капчей не подкачают. Можно отдельно от нейросеток делать подавление шума, сегментацию картинки на символы - но необходимость этого и конкретные алгоритмы нужно обсуждать для каждого варианта капчей по отдельности

7 часов обучения - это вообще ни о чем. Программинг-отладка гораздо больше времени заняли, а обучение можно и на ночь на компе запустить - пусть себе считает

------------------------------------------------------------------------------------------------------
www.neuropro.ru - нейронные сети, анализ данных, прогнозирование
[Ответ][Цитата]
beliy
Сообщений: 20
На: Распознование текста
Добавлено: 06 янв 08 14:16
Порылся по форуму, что то не нашёл тем которые хоть как то описывали бы процесс распознования рукописных тестов. Да мне и вообще кажется, что создать нейронку которая с высокой степерью вероятности его распазнала практически нериально(в пердставлении моих знаний конечно).
Капчи на сайтах становятся всё сложнее и сложнее, но мне не надо распозновать все виды, есть парочка видов на которых я акцентирую внимание. Насколько я понял, создать саму по себе нейронную сеть не так уж и сложно, к тому же в сети лежит огромное количество материала в примерах + програмные продукты, которые обещают автоматизировать процесс. Главно й проблемой является подавление шума, сегментация и векторизация изображения. Раньше, когда капча была монохромнеой(как показано в большенстве примерах) процесс сегментации не вызывал особого труда. Теперь же приходится поломать голову.
Из-за искажённости символов сложденее стало производить векторизацию. Ввиду того что прочитал еще мало информации, еще меньшую её часть усвоил начал заново изобретать велосипед. Взял понятие вектора, порадил понятие слом вектора(если угол между предыдущим пикселем и текущим больше определённого значения, значит начался новый вектор, если меньше, значит продолжается предыдуший). Каждая буква состоит из опреденённого количества векторов, углов между этими векторами, все вектора имеют определённое соотношение длины(+ - ошибка), средней ширины вектора(+ - отклонение) и узловых точек(точки где заканчивается один вектор и начинается другой). Параметр угла между векторами даёт нам возможность принять искажённую часть символа за один вектор и так же легко идентифицировать например букву "С". Средняя "ширина" вектора поможет отфильтровать основной шум.
Так же нужно решить проблему "разорванности" символов. Для начала катинка переводится в монохромный режим. Сразу видно где буква "разрывается". Нормализуем полученное изображение(не знаю что это значит, но знакомый програмер сказал что это весч не обходимая). А вот дальше тупик.
Вобще это мои первые мысли в данном направлении. Прошу высказаться.
Зарание спасибо.

Нашёл в интернете статью про распознованию рукописного текста. Умная до жести, ничё не понятно http://www.recognition.mccme.ru/pub/RecognitionLab.html/methods.html#tthFtNtAAB
[Ответ][Цитата]
daner
Сообщений: 4593
На: Распознование текста
Добавлено: 06 янв 08 15:06
что-то я вас не пойму спрашивали про нейронку, а рассуждаете про векторизацию . Это разные способы. Есть конечно (скорее всего) совмещение двух способов, но это само по себе скорее всего в процессе исследования, и до стандартов в этом плане еще далеко.
А темы и правда были на форуме. И не так уж мало.
[Ответ][Цитата]
daner
Сообщений: 4593
На: Распознование текста
Добавлено: 06 янв 08 15:08
отличную статью вы нашли. Хороший обзор разных способов!!! формулы конечно в HMTL читать не возможно лучше бы в PDF публиковали.
[Ответ][Цитата]
daner
Сообщений: 4593
На: Распознование текста
Добавлено: 06 янв 08 15:27
а у них там постскрипт версия оказывается есть. Если кому-то надо в PDF (а сам перевернуть не умеет), то могу прислать. Есть 2 варианта: 1) 381КБ в архиве, с низкой резолюцией, и 2) 5.2МБ в архиве, с нормальной резолюцией
[Ответ][Цитата]
beliy
Сообщений: 20
На: Распознование текста
Добавлено: 06 янв 08 15:41
Я видать чего то недопонимаю.Как я понял, сначала с ихсодным объектом нужно провести отделение букв от фона, подавление шума, кластеризацию, векторизацию. Потом уже на основе получившийся выборке обучить нейросеть.
[Ответ][Цитата]
daner
Сообщений: 4593
На: Распознование текста
Добавлено: 06 янв 08 18:47
Цитата:
Автор: beliy
Я видать чего то недопонимаю.Как я понял, сначала с ихсодным объектом нужно провести отделение букв от фона, подавление шума, кластеризацию, векторизацию. Потом уже на основе получившийся выборке обучить нейросеть.

Нееее... Зачем. Нужно конечно провести некоторую обработку. Ну скажем буквы отделить друг от друг, ну может развернуть их правильно, увеличить и все такое. Но согласитесь, это намного проще чем отделять их от фона, убирать шум и находить контур.
[Ответ][Цитата]
beliy
Сообщений: 20
На: Распознование текста
Добавлено: 06 янв 08 18:52
Мне кажется что для того что бы отделить буквы друг от друга, повернуть и увеличить нужно как раз с начала отделить их от фона, убрать шум, найти их контур.
[Ответ][Цитата]
daner
Сообщений: 4593
На: Распознование текста
Добавлено: 06 янв 08 20:07
Цитата:
Автор: beliy
Мне кажется что для того что бы отделить буквы друг от друга, повернуть и увеличить нужно как раз с начала отделить их от фона, убрать шум, найти их контур.

Да нет, не обязательно.
[Ответ][Цитата]
 Стр.1 (18): [1]  2  3  4  5  ...  18След. > >>