новости  материалы  справочник  форум  гостевая  ссылки Поиск с Яндексом  
Новости
Материалы
  Логические подходы
  Нейронные сети
  Генетические алгоритмы
  Разное
  Публикации
  Алгоритмы
  Применение
Справочник
Форум
Гостевая книга
Ссылки
О сайте
 

Модель структурного представления
текстовой информации и метод ее тематического
анализа на основе частотно-контекстной
классификации (аннотация)


Автор: Валерий Леонидович Чугреев
Веб-сайт автора: http://chugreev.ru
Дата: Октябрь 2003 г.
Научный руководитель: д.т.н., проф. С.А. Яковлев
Специальность: 05.13.01 - Системный анализ, управление и обработка информации (технические системы)
Учебное заведение: Санкт-Петербургский государственный электротехнический университет "ЛЭТИ" им. В.И. Ульянова (Ленина)

Список всех документов:



Представленная работа просвещена вопросам тематического анализа неструктурированной текстовой информации. Неструктурированной текстовой информации означает, что у этой самой информации, или, проще говоря, текста отсутствует какая-либо регулярная структура, а именно отсутствует введение, разделы, параграфы, оглавление, реквизиты и т.д. Есть просто текст или фрагмент текста и необходимо выполнить его тематический анализ, а именно идентифицировать его тематику, определить, о чем собственно идет в данном тексте речь, т.е. получить некоторое упрощенное представление о содержании текста. В данной работе представлен метод, позволяющий это сделать. Собственно в работе решаются две основные задачи:

  1. Выделение (идентификация) тематики текста.
  2. Вычисление тематической близости текстов.

Эти задачи позволяют реализовать поиск документов по образцу. Такой поиск, когда человек задает некоторый документ в качестве образца своих информационных потребностей, а система реализует поиск документов подобных заданному, по содержанию, по тематике. Говоря проще, сидит человек за компьютером, просматривает в браузере странички, читает что-то очень интересное и полезное для себя, после этого нажимает на "волшебную кнопку" и браузер подбирает ему странички тематически близкие к понравившейся.

Целью работы являлась разработка метода тематического анализа неструктурированной текстовой информации естественно-языкового представления позволяющего решать задачи поиска документов по образцу, т.е. позволяющего сделать ту самую "волшебную кнопку" и данная цель в работе выполнена.

Естественно, что представленные результаты диссертационной работы не ограничиваются одним лишь решением задач информационного поиска, помимо этого существует широкий спектр задач, в которых можно использовать данную работу, в том числе и в задачах искусственного интеллекта.

Автору представляется перспективным использование представленных результатов в задачах обработки и анализа речевых высказываний (текстовая информация как раз и является одной из форм представления данных высказываний) и событийных сценариев, потоков, последовательно развивающихся во времени, т.е. все те задачи, в которых, так или иначе, фигурируют цепочки событий.

Более того, первоначально работа как раз и начиналась с решения задач систем искусственного интеллекта, конкретно решалась задача прогнозирования нечисловых (номинальных, категориальных) величин представленных временным рядом. Если учесть, что одной из базовых способностей интеллекта является способность к прогнозированию, то становится понятным актуальность и значимость исследований в данном направлении.

В работе представлена модель структурного представления событийных потоков (в рамках работы рассматривается текст как частный случай таких потоков), на базе, которой может быть реализован аппарат прогнозирования временных рядов номинальных (категориальных) величин, т.е. аппарат прогнозирования событий.

Помимо этого работа, безусловно, решает свою первоначальную цель и предоставляет теоретический и практический инструментарий решения задач поиска документов по образцу. Теоретическая разработка доведена до уровня практической реализации, а именно, представлена в виде фрагментов кода на языке C#, поясняющих детали реализации конкретной модели, метода и алгоритма.