1. Андрей, в ответ должен сказать, что если вам интересно, то ваш метод я оцениваю высоко. В нем есть железная логика. Однако, я не вижу как его можно использовать для распознавания текстов. Может и можно, просто у меня не было еще времени, чтобы лучше проанализировать идею.
2. Для распознавания "смысла", я использую не только отклонения от идеального. Отклонения, то есть аномалии, используются для определения особого смысла, уже после распознавания событий.
Автор: Андрей Вообще стОит на процедуре распознавания остановится детальнее. |
|
Для распознавания я использую анализ закономерностей текста. Для этого собирается статистическая информация самая разнообразная. И также, используется несколько словарей (словарь имен, персонажей, картографии, эмоционально окрашенных слов).
Вот список информации которую я собираю для анализа (этот список не полон, он еще формируется. В него постоянно добавляются новые пункты, а лишние постоянно выбрасываются. То есть этот список в активном становлении):
1. ТАЙМИНГ
1.1. Разбиваем текст на абзацы.
1.2.Собираем колличественные параметры текста.
1.3. Длина диалогов и длина абзацев.
1.4. Соотношение диалогов к описательным абзацам.
1.5. Соотношение глаголов с другими частями речи на разных
этапах.
1.6 Диалог – это действие в реальном времени.
1.7. Определяем эпизоды.
1.8. Определяем сцены.
1.9.
2. АНАЛИЗ ИМЕН
2.1. Поиск имен по тексту.
2.2. Определяем главного героя.
а). Имя, встречающееся чаще других.
б). Есть ли имя в названии книги? В подзаголовках?
в). Равноменое распределение имени гл. героя.
2.3. Абзацы, в которых не упоминается имя главного героя.
2.4. Определяем второстепенных персонажей.
2.5. Определяем эпизодических персонажей.
2.6. Схема взаимодействия персонажей.
2.7. Пропадающие и появляющиеся персонажи.
2.8. Формы имен.
2.9. Фантомые имена.
2.10. Родственники (фамилии и отчества).
2.11. Форма имен в диалогах (как обращаются).
2.12. Преобладание мужских или женских имен.
2.13. Окружение имени.
2.14. Приставки к имени (сэр, мистер, его величество, д-р).
2.15. Особенности имен:
- Пол:
- Национальность:
- Основная форма имени:
- Благозвучность:
- Степень распространенности:
- Длинна имени:
- Не устаревшее ли имя:
- К какой эпохе принадлежит имя:
- Вычурность:
- Говорящие имена:
- Нарицательные имена:
- Имена знаменитостей:
2.16. Особенности распределения имен.
а). Высокая концентрация персонажей на опр. участках.
б).
2.17
3. ПЕРСОНАЖИ И ИХ РОЛИ
3.1. Количество персонажей.
3.2. Ассоциация с именами.
3.3. Колличество персонажей без имен.
3.4. Типы персонажей.
3.5. Атрибутика персонажей.
3.6. Роли персонажей.
(Группа персонажей, выполняющих роль – «Вождь»: Начальник, Вожак, Вождь, Директор, Царь, Император, и т.д. и т.д.).
3.7.
4. КАРТОГРАФИЯ
4.1. Страны.
4.2. Города
4.3. Другие населенные пункты.
4.4. Реки, моря, океаны, горы, вулканы.
4.5. Рельеф местности.
4.6. Достопримечательности, памятники.
4.7. Жилище (функциональные помещения – кухня, спальня и т.д.).
4.8. Замки, дворцы, монастыри, культовые сооружения.
4.9. Исторически значимая местность (с яркой историей).
4.10. Атрибутика местности (город, поселок, природа, страна).
4.12. Особые типы местности.
4.13. Архитектурные сооружения (мосты, арки).
4.14. Специальные здания (тюрьмы, больницы, пожарка и т.д.).
4.15.
5. АНАЛИЗ ЭМОЦИОНАЛЬНО ОКРАШЕНЫХ СЛОВ
5.1. Распределение по тексту эмоциональных полюсов (негатив-позитив).
5.2. Эмоциональные полюса, окружающие имена и персонажей.
5.3. Эмоциональные полюса, окружающие те или иные события.
5.4 Эмоционально нейтральные эпизоды.
5.5.
6. НОРМЫ И ОТКЛОНЕНИЯ ОТ НИХ (АНОМАЛИИ)
6.1. Случайный параметр. (Берем любой статистический параметр текста, находим среднее значение а затем ищем аномалии. Аномалии всегда приходятся на ключевые моменты в истории. К тому же, некоторые аномалии, несут в себе определенный смысл.)
6.2. Аномалии и юмор
6.3. Аномалии и ирония
6.4. Аномалии и мораль
6.4. Отклонение от нормы (идеального мира), всегда является ключевым моментом в истории.
6.5.
7. СМЫСЛОВЫЕ ПЕРЕХОДЫ
7.1. Смысловые переходы бывают пяти видов:
– От момента к моменту:
– От действия к действию:
– От обьекта к обьекту;
– От места к месту;
– От аспекта к аспекту.
7.2. Определение смыслового перехода «от объекта к объекту» методом исключения.
7.3. Другие способы определения смыслового перехода «от объекта к объеекту».
7.4. Логика и закономерности перехода «от аспекта к аспекту».
-------------------------
Используя эту информацию и различные методы и алгоритмы, я в данный момент все это дело тестирую на примере сказки "Золушка".
Добился следующих результатов:
1. Определен тайминг истории - приблизительное время - 3-4 дня. + скорость происходящих событий на разных участках текста (где текст "ужимается" или "разжимается").
2. Правильно определен главный герой.
3. Текст правильно разбит на эпизоды.
4. Эпизоды правильно разбиты на сцены.
5. Определены все второстепенные персонажи.
6. Определены все эпизодические персонажи.
7. Цель главного героя определена как "принц, дворец и бал"
8. Правильно определены все ключевые моменты истории (не смысл, а лишь фрагменты текста, в которых находятся эти ключевые моменты, их еще предстоит распознавать).
9. Выявлен сюжетный повтор внутри истории.
10. Определено место действия, для каждого из эпизодов.
11. Наметилась общая схема взаимодействия персонажей.
Вот такие успехи пока что. Проблем тоже хватает. Например "Фея", "Крестная" и "Волшебница", определились как три разных героя

. Вообще - проблем очень много...
За программу пока не брался, алгоритм проверяю вручную (но скурпулезно и последовательно, как это делала бы программа). Пример:
1.1. Разбиваем текст на абзацы.
Подсчитываем колличество абзацев в заданном тексте. Абзацы нумеруем. При этом, любой диалог считаем за 1 отдельный абзац. В сказке «Золушка» абзацев – 80. Откладываем прямую и делим ее на 80 частей. На шкале, каждый квадратик соответствует своему абзацу:

2.2. Определяем главного героя.
а). Имя, встречающееся чаще других.
Золушка – (46)
Жавотта – (3)
б). Есть ли имя в названии книги? В подзаголовках?
«Золушка» присутствует в заголовке (названии сказки).
в). Равномерное распределение имени гл. героя.

Единственное имя, которое более-менее равномерно распределяется по тексту – «Золушка».
Таким образом, согластно всем трем пунктам а, б и в, главный герой единогласно – «Золушка».
-----------------
Когда закончу анализ сказки, не зависимо от того, успех будет или неудача - поделюсь результатами.
P.S. Соори за список - я его писал для себя, так что...

небольшая такая каша получилась. Многое держу в голове, и записывал временами не последовательно.