GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.1 (1)   Поиск:  
 Автор Тема: Как заменить редактора новостей искусственным интеллектом
гость
194.68.101.*
Как заменить редактора новостей искусственным интеллектом
Добавлено: 12 май 04 14:12
такой вопрос - не уверен точно что по теме сайта или нет, но уж сами решите - есть база данных новостей, необходимо автоматически определять к какому разделу (или разделам) отнести каждое сообщение. тупой поиск по ключевым словам, боюсь, даст не со всем тот результат - вероятно есть какие-то алгоритмы для определения веса того или иного найденного ключа

как синоним задачи видится определение релевантности ссылки в результатах поиска поисковой системы, типа яндекс
[Ответ][Цитата]
гость
80.139.192.*
На: Как заменить редактора новостей искусственным интеллектом
Добавлено: 13 май 04 1:14
не густо
[Ответ][Цитата]
Victor G. Tsaregorodtsev
Сообщений: 3187
На: Как заменить редактора новостей искусственным интеллектом
Добавлено: 16 май 04 14:51
Да, разделение по заранее заданным ключевым словам не сработает. Нужно кластеризовать весь массив сообщений и смотреть, какие слова отличают один кластер от другого. Мы три года назад так делали. Не помню, есть ли возможность авторубрикации в Астарте от Cognitive Technologies, но вроде должна быть и работать по подобной схеме.
[Ответ][Цитата]
гость
80.139.206.*
На: Как заменить редактора новостей искусственным интеллектом
Добавлено: 16 май 04 15:34
а попонятней можно объяснить? самому это реально сделать?
[Ответ][Цитата]
Victor G. Tsaregorodtsev
Сообщений: 3187
На: Как заменить редактора новостей искусственным интеллектом
Добавлено: 16 май 04 16:37
Реально.
Составляется список присутствующих в текстах слов, вернее, нормализованных словоформ с отброшенными окончаниями (чтобы с падежами-временами не заморачиваться). Выкидываются предлоги, союзы. Выкидываются слова, представленные только в очень малом проценте всех текстов, да и присутствующие в подавляющем большинстве текстов откидываются тоже (по часто присутствующим словам рубрикация по темам невозможна, поскольку слова эти встречаются в текстах всех тем, а редко используемые слова связаны с редкими единичными нетипичными событиями, которые вряд ли повторятся).
Остается список из нескольких сотен или тысяч слов, с ним и будем работать. Каждый текст характеризуется вектором, в котором столько компонент, сколько отобранных слов. Значением каждой компоненты каждого вектора будет относительная частота встречаемости соответствующего слова в этом тексте относительно других слов. Если некоторого слова в данном тексте нет, то компонент вектора приравниваем к нулю.
Т.е. получаем набор векторов в многомерном пространстве, далее пытаемся разделить эту кучу на несколько кластеров каким-нибудь алгоритмом автоматической кластеризации. Далее для каждого кластера смотрим, какие слова наиболее четко его характеризуют, и даем кластеру осмысленное наименование (война, политика, экономика и т.д).
Т.е. основные затраты времени приходятся на начальное составление и исправление словаря и на финальную интерпретацию выделенных смысловых категорий текстов. А сам алгоритм использования частотных словарей общий и может применяться к текстам разного смысла и разной длины (хотя лучше все-таки более-менее однородность текстов иметь - поэтому ленты новостей здесь как раз одни из лучших кандидатов).
Когда приходит новый текст, кодируем его вектором частот его слов и смотрим, к какому классу в смысле евклидова расстояния он ближе, и относим к соответствующей группе.
Если тексты достаточно длинные (т.е. новости не в виде абзаца-двух, а в виде длинного текста), то можно вдобавок смотреть взаимное расположение слов в тексте, место (ближе к началу или к концу текста), где встречается слово. Т.е. кодировать причинно-следственные цепочки.
[Ответ][Цитата]
гость
80.139.211.*
На: Как заменить редактора новостей искусственным интеллектом
Добавлено: 17 май 04 1:53
Виктор, спасибо за детальный ответ
[Ответ][Цитата]
admin
Сообщений: 292
На: Как заменить редактора новостей искусственным интеллектом
Добавлено: 17 май 04 11:34
Я думаю, что Вам было бы не безынтересно познакомится с диссертацией на тему очень близкую к Вашему вопросу, размещенную у нас на сайте: "Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации" (http://www.gotai.net/documents/doc-art-006.aspx)
[Ответ][Цитата]
Gexon
Сообщений: 103
На: Как заменить редактора новостей искусственным интеллектом
Добавлено: 11 сен 10 3:47
для начала нужен искусственный интеллект
[Ответ][Цитата]
Slava
Сообщений: 3070
На: Как заменить редактора новостей искусственным интеллектом
Добавлено: 11 сен 10 14:25
гость 194.68.101.* 12 май 04 14:12
[...есть база данных новостей, необходимо автоматически определять к какому разделу (или разделам) отнести каждое сообщение. тупой поиск по ключевым словам, боюсь, даст не со всем тот результат - вероятно есть какие-то алгоритмы для определения веса того или иного найденного ключа...]

Не знаю, что за база у вас, но лет десять назад мы рассматривали возможность анализа ройтеровских новостных лент, чтобы получить дополнительную информацию при биржевом прогнозировании. Оказалось, что их можно эффективно кодировать с помощью некого аналога филморовских падежей. После этого уже можно было бы к ним применять наши методы анализа и прогнозирования. Работа не была завершена, так как исчез заказчик и источник данных.
[Ответ][Цитата]
 Стр.1 (1)