Форум: Проблемы искусственного интеллекта

Регистрация | Вход

Все темы | Новая тема Стр.3 (14) << < Пред. | След. > >> Поиск:

Автор Тема: На: Распознавание смысла

daner
Сообщений: 4633

На: Распознавание смысла
Добавлено: 31 авг 08 19:28

Цитата:
Автор: Юрий Федорченко

Ура - первый пост по теме Мда, а я и не знал что такие алгоритмы существуют. А нет ли у Вас, чего-то почитать на эту тему? Интересно чего уже добились, на каком этапе все это находится, какой следующий этап должен быть, и будет ли он, ну и т.д.

Я к сожалению этой темой не интересуюсь (ну так только для общего кругозора). Так что материала нет даже примерно. Искать это надо в темах по Text Mining. Это на стыке Natural Language Processing and Data Mining.

[Ответ][Цитата]

Андрей
Сообщений: 3944

На: Распознавание смысла
Добавлено: 31 авг 08 19:55

Цитата:
Автор: Юрий Федорченко
...надо двигаться в этом направлении?
...РЕАЛЬНО ли предпринять что-то в этом направлении?
В каком направлении можно искать?
Насколько далеко в этом можно продвинуться?
Вот Вы используете привычные слова, для постановки вопросов об интеллекте. Но даже не замечаете, что высказываете этими словами самую суть интеллекта и отвечаете на свои же вопросы. Нету в уме никаких 50 сюжетов, есть только направления, в которых можно двигаться или не двигаться. Больше ничего.

Про автоматическую генерацию текстов. Имхо, совершенный бред.

[Ответ][Цитата]

Dreamer
Сообщений: 268

На: Распознавание смысла
Добавлено: 01 сен 08 13:14

Ой, да тут мою статью критикуют! А я и не заметил На всякий случай отвечу на сделанные в ее адрес замечания. Должен заметить, что статью я писал в те времена, когда только начинал интересоваться психологией и ИИ, и сейчас она мне кажется просто наивной: нет ни метода, ни обобщений, ни конструктива, да и сами определения оставляют желать лучшего. Статью я непременно перепишу, но и от той, что лежит на сайте, открещиваться вовсе не собираюсь и готов ответить на критику, если кому-то не лень ее критиковать

to Андрей: Спасибо на добром слове

Юрий Федорченко: <Я просто хотел сказать, что многие люди отличавшиеся мышлением, обладали так называемыми "недостатками", что никак не повлияло на их "эффективность". >
----------------
Откуда уверенность, что это никак не повлияло на их эффективность? Чтобы это утверждать, надо знать, какова их эффектиность без этих недостатков, возможно, она была бы еще выше.

daner: <Ну и что, что кто-то свое мнение подкрепляет мнением какого-то авторитета? в чем здесь ошибка?! Наоборот, это очень правильно!!! Когда от этого фанатеют -- это плохо, а когда нет -- замечательно!
>
-----------------
Полностью с Вами согласен. Напомню, что в пункте 2 написано Преклонение перед авторитетами. Подразумевается отсутствие своего мнения, а не то, что цитировать известных людей плохо.

daner: <
Нельзя называть "соль" вредным продуктом, если от неправильного употребления она портит пищу.
Назовите этот список, "основные тенденции мышления" или еще как-то (не знаю, это не мой список), НО НЕ ОШИБОК. В нем, не перечислены ошибки!!!
>
----------------
Все правильно, кроме утверждения, что в статье не перечислены ошибки. Дело в том, что я вовсе не "называл соль вредным продуктом", а как раз таки приводил примеры ее чрезмерного (или недостаточного) употребления. В перечне ошибок часто встречаются (или подразумеваются) слова "излишний", "чрезмерный", и т. д.

daner:<.......по моему мнению, такой список просто не верно составлять!
>
-----------
Не согласен категорически. Определенные подходы к решению задач и установки в восприятии действительности вполне могут составлять проблему для их обладателя - та же психотерапия с того и кормится, что помогает желающим их осознать и изменить. Поэтому идею такого перечня я считаю вполне удачной и обязательно буду развивать.

[Ответ][Цитата]

Dreamer
Сообщений: 268

На: Распознавание смысла
Добавлено: 01 сен 08 13:14

Теперь по теме.

Юрий Федорченко:
<
Чтобы осознать смысл какого-либо сообщения, ЕИ распознает его, «натягивая» уже имеющийся эталон, на структуру сообщения. Другими словами, мы можем понять что-либо, только если нам удастся сообщение, уложить в эталонную схему (сюжет).
>
-------------
Мысль вполне здравая - да, чтобы понять сообщение, нужен контекст. Осталось выяснить, откуда этот контекст берется в голове, не так ли?

Юрий Федорченко:
<
Можем ли мы моделировать так называемый "внутренний мир", пока что 50 "сюжетами", и можем ли мы "научить" программу - распознавать эти сюжеты? Поскольку нет сейчас надежды, на то, что мы можем научить программу полноценно понимать естественный язык, понимать все возможные смыслы и т.д.>
--------------------------
Мысль о возможности моделирования внутреннего мира человека с помощью 50 сюжетов лично на мою голову не налазит. Из того, что какой-нибудь филолог выделил 50 шаблонов и назвал их базовыми, совершенно не следует, что в голове у человека работает что-нибудь подобное. Если уж на то пошло, я б скорее предположил, что шаблонов миллионы, и они организованы в сложную переплетающуюся иерархию, которая растет по мере развития интеллекта. Внизу этой иерархии находятся примитивные действия или образы, вроде "сделать шаг", или "ножка стула", а на самом верху - сюжеты (я так понял, определенные социальные роли), о которых толкуете Вы.

Юрий Федорченко:
<
Но как-то же надо двигаться в этом направлении? Поэтому, я предлагаю, чтобы программа не пыталась распознать смысл текста, а попыталась подобрать, или подогнать под текст, одну из заложенных в нее 50 схем, или - "сюжетов". На основании каких-то закономерностей, баз данных, словарей, моделей, не знаю - экспрессии слов, слов-паразитов, устойчивых выражений. По стилю - разговорный не разговорный. По статистике "тематических" слов и т.д. и т.п.>
--------------------
Чегой-то я перестаю понимать, чего Вы хотите. Вроде речь шла о смысле, а теперь Вы предлагаете простой классификатор. Такие классификаторы, разумеется, существуют, и они способны, скажем, более-менее точно раскидать по категориям ворох документов, облегчив работу аналитику, но причем здесь смысл? Считать, что они оперируют смыслом, примерно то же самое, что сказать о сказать о микроволновке, которая отключилась по таймеру "она поняла, что ей пора выключаться". Так что тут надо выбирать - или смысл, или классификаторы. Но если интересует именно смысл, то надо подходить к нему не со стороны социальных сюжетов, а с самого начала: каким образом мы воспринимаем действительность, приспосабливаемся к ней, учимся, вырабатывая все более сложное поведение. Говоря попросту - если строишь дом, не стоит начинать с потолка. Успехов

[Ответ][Цитата]

Юрий Федорченко
Сообщений: 119

На: Распознавание смысла
Добавлено: 01 сен 08 17:31

Но это еще не факт как человек воспринимает действительность. Кто это действительно точно знает? Я вот, со своей конечно колокольни, вижу, что человек вставляет себя в "сюжет", и ведет себя согластно этому "сюжету". Воспринимает мир он тоже согластно "сюжету". Если провести аналогию со строительством дома, то наверное это будет чертеж дома. То есть все уже готово и ясно нужно только сделать. Также и у меня выходит (пример с собеседованием)- "сюжет" (чертеж) готов, нужно лишь пройти это по "сюжету". Если хотите - сыграть его.

Если продолжить развивать аналогию со строительством дома, то заметьте, что выбранная наугад часть чертежа бессмысленна. Если я вам дам кусочек чертежа - вы даже не поймете что это такое. Ну и представте себе 100000 таких кусочков. Сколько лет вам придется потратить на то, чтобы сложить их и осознать что это такое? А тем более из этого чертежа, если он большой и подробный, можно как из конструктора сложить многие вещи.

Когда я знаю, что это чертеж дома, то глядя на маленький кусочек, этот кусочек обретает уже для меня смысл, я знаю что на нем начерчено, для чего и где оно располагается относительно дома и т.д. и т.п. Поэтому я считаю что лучше двигаться сверху вниз а не снизу вверх. Но это, конечно, лишь мое мнение. Я не говорю что по-другому нельзя. Наверно как-то можно, но я не вижу как.

Что касается классификаторов - то это метод, котрый должен входить с такую систему, поскольку и естественный интеллект занимается классификацией. Но к этому, конечно, все не сводится. Тут важно другое - определить актуальный на данный момент "сюжет", и интрепретировать данные согластно этому сюжету. А интерпретировать эти данные, когда известен "сюжет" намного легче и проще. А как по другому интерпретировать данные, без всякого сюжета, я даже затрудняюсь себе представить.

[Ответ][Цитата]

Dreamer
Сообщений: 268

На: Распознавание смысла
Добавлено: 01 сен 08 18:44

Да, мы с Вами явно думаем на разной волне. Но тем интереснее будет прийти к взаимопониманию

Цитата:

Автор:Юрий Федорченко
Что касается классификаторов - то это метод, котрый должен входить с такую систему, поскольку и естественный интеллект занимается классификацией. Но к этому, конечно, все не сводится. Тут важно другое - определить актуальный на данный момент "сюжет", и интрепретировать данные согластно этому сюжету. А интерпретировать эти данные, когда известен "сюжет" намного легче и проще. А как по другому интерпретировать данные, без всякого сюжета, я даже затрудняюсь себе представить.

1) Это ваше слово "сюжет" крайне неудачное. Под "сюжетом" обычно подразумевают что-то сложное, но в нашем случае это необязательно так. Например, когда мы слышим фразу "Иди сюда", уже услышав слово "Иди", мы предполагаем, что за ним прозвучит место, в которое надо идти. Т. е. у нас в голове есть паттерн - глагол "идти" с указанием места, и он, этот паттерн, срабатывает, в частности, после слова "Иди", активизируя гипотезу, которая облегчает восприятие следующего слова.
2) Рассмотрим этот же пример в контексте Вашего "я считаю что лучше двигаться сверху вниз а не снизу вверх". В данном случае мы сначала восприняли слово "иди", а уже потом с его помощью активизировался паттерн, который подразумевает движение по определенному направлению (это движение снизу вверх), и подкорректировал восприятие следующего слова (сверху вниз). Т. е. здесь имеет место взаимное влияние: снизу вверх активизируется иерархия (подчеркиваю, иерархия, а не один отдельный "сюжет") все более высокоуровневых паттернов, а сверху вниз идет прогноз, который они формируют. При этом прогноз далеко не всегда оказывается правильным, и ошибочные паттерны отключаются снизу из-за расхождения. Например, если после "Иди" прозвучит "Амин, лидер Уганды", паттерн, связанный с глаголом "иди", мгновенно отключится. А из Ваших слов создавалось впечатление, что эти "сюжеты" падают откуда-то с неба, после чего и начинается оное движение сверху вниз.
3) Неплохо бы определиться, откуда эти сюжеты в интеллекте-то берутся. Предполагается, что будем заниматься обучением, или же вручную набросаем список сюжетов и впаяем в интеллект?
4) А Вам вообще зачем - запрограммировать, пофилософствовать или просто поболтать?

[Ответ][Цитата]

daner
Сообщений: 4633

На: Распознавание смысла
Добавлено: 01 сен 08 20:37

QUOTE Автор: Dreamer

Цитата:
1) Это ваше слово "сюжет" крайне неудачное. Под "сюжетом" обычно подразумевают что-то сложное, но в нашем случае это необязательно так. Например, когда мы слышим фразу "Иди сюда", уже услышав слово "Иди", мы предполагаем, что за ним прозвучит место, в которое надо идти. Т. е. у нас в голове есть паттерн - глагол "идти" с указанием места, и он, этот паттерн, срабатывает, в частности, после слова "Иди", активизируя гипотезу, которая облегчает восприятие следующего слова.

если под словом сюжет подразумевается именно Dreamer-ской паттерн, то я с Dreamer-ом согласен.

Цитата:
2) Рассмотрим этот же пример в контексте Вашего "я считаю что лучше двигаться сверху вниз а не снизу вверх". В данном случае мы сначала восприняли слово "иди", а уже потом с его помощью активизировался паттерн, который подразумевает движение по определенному направлению (это движение снизу вверх), и подкорректировал восприятие следующего слова (сверху вниз). Т. е. здесь имеет место взаимное влияние: снизу вверх активизируется иерархия (подчеркиваю, иерархия, а не один отдельный "сюжет") все более высокоуровневых паттернов, а сверху вниз идет прогноз, который они формируют. При этом прогноз далеко не всегда оказывается правильным, и ошибочные паттерны отключаются снизу из-за расхождения. Например, если после "Иди" прозвучит "Амин, лидер Уганды", паттерн, связанный с глаголом "иди", мгновенно отключится. А из Ваших слов создавалось впечатление, что эти "сюжеты" падают откуда-то с неба, после чего и начинается оное движение сверху вниз.

И опять согласен. Описывается классическая BDI Hierarchical Behavior-based Architecture of Control
Цитата:
3) Неплохо бы определиться, откуда эти сюжеты в интеллекте-то берутся. Предполагается, что будем заниматься обучением, или же вручную набросаем список сюжетов и впаяем в интеллект?

А это смотря какие сюжеты и смотря сколько их. Если это что-то постоянное, то ручками, а если что-то динамическое, то ... если задаче зависимое, то off-line обучение перед тем как действовать, если же зависит от ситуации, то адаптивные методы обучения (on-line).
Цитата:
4) А Вам вообще зачем - запрограммировать, пофилософствовать или просто поболтать?

а два последних имеют разницу?

[Ответ][Цитата]

Dreamer
Сообщений: 268

На: Распознавание смысла
Добавлено: 01 сен 08 21:28

Цитата:

Автор: daner
Описывается классическая BDI Hierarchical Behavior-based Architecture of Control

Нет, я такое не выговорю

Цитата:

Автор: daner
Dreamer>:А Вам вообще зачем - запрограммировать, пофилософствовать или просто поболтать?
------------
а два последних имеют разницу?

Имеют, хотя порой ее нелегко почувствовать . Но, я думаю, Вы принципиально не против философии?

[Ответ][Цитата]

Юрий Федорченко
Сообщений: 119

На: Распознавание смысла
Добавлено: 01 сен 08 23:15

Мне - чтобы запрограммировать. Хотя и пофилософствовать тоже можно.
-----------
Dreamer и daner, я согласен с тем, что вы говорите. Что вы, в самом деле, меня за дурака держите... Ясно, что информацию мы получаем от органов чувств, в процессе обучения, а не в процессе, например, божественного откровения. Дело не в этом.

Вот моя терминология, плохая она хорошая... какая есть:
«Сюжет» - последовательность событий.
«Смысл» - 1. Интерпретация данных. 2. Геометрическая точка, в которой располагается «текст», на прямой «сюжета».
«Контекст» - те, или иные закономерности «сюжета» (алгоритмы).
«Обстоятельства» - однозначные факты, изложенные в заданном тексте, которые не являются частью контекста. Иначе говоря, это – значения переменных, а не сами переменные.

Чего я хочу добиться:
Пока что создать систему, которая способна дополнять или продолжать смысл, заданного пользователем текста. Или, скажем так, систему, которая будет способна адекватно интерпретировать данные, и предсказывать их изменение во времени. Можно было бы, даже, топик назвать так - "система интерпретации данных". Данные в моем случае - осмысленный текст.

Итак, я полностью согласен, что движение происходит как "снизу-вверх", так и "сверху-вниз". Однако при "распознавании" естественного языка, мы сразу же столкнемся тут с огромными проблемами. Так как многие слова, могут включить практически любой "паттерн", в вашей терминологии, или "сюжет" в моей. И что мы будем с этим делать? Как это облегчит понимание следующего слова? Слова слишком неоднозначны, размыты, абстрактны. То есть хватает проблем.
Кроме того, представим даже, что первое предложение было удачно смоделировано. Например: "Иди сюда". И что нам дальше с этим делать? Как это поможет "распознать" следующее предложение? Это же, сколько нужно "паттернов"?
Ну думаю, тут расписывать нечего, вы и сами знаете эти проблемы. То есть для несложных, или сложных но специфических задач, эта система может хорошо работать. Но вот именно для "распознавания" естественного языка она не подходит.

Коротко, основная идея:
Система должна "подогнать" под текст один из готовых "контекстов", который имеет свои закономерности, общие для всех подобных "смыслов". Пусть он будет пока максимально абстрактным, но в нем уже будут какие-то правила. Затем, имея эту дополнительную информацию, мы снова возвращаемся к тексту, и снова обрабатываем его, на основе этой дополнительной информации, вытягивая из текста ее еще больше. Затем, имея более полный контекст, мы снова возвращаемся к тексту. И т.д. Это происходит до тех пор, пока программа не определит однозначно «смысл» текста. То есть, не отнесет текст однозначно к какому либо из заданных 50 "сюжетов". И не разместит его на линии сюжета как точку, или как отрезок.
Затем, программа предсказывает дальнейшее развитие событий, и таким образом – дополняет текст, или – продолжает его. Конечно, получится что сюжет, один на множество ситуаций "смыслов", но ведь исходные данные у нис никуда не делись, поэтому мы сможем в самом конце, использовать эту исходную информацию для конкретизации результата.
"Распознавание" ведется не пословно, а сразу по всему тексту, на основе разных методов.
Не знаю, понятно ли объяснил. Но думаю общую суть уловить можно.

Откуда взялось 50 сюжетов?
На личном опыте все знают, что, например, разные фильмы, художественные книги (это относится и к жизни) имеют в целом, одинаковые сюжеты, или одинаковые части – микро-сюжеты. Так вот таких микро-сюжетов – 50. Это, конечно, не строгая классификация. Их можно разделить на подвиды, или объединить в более общие группы. Но 50, с моей точки зрения, наиболее оптимальное число – при этом, в процессе обобщения, не теряется важная информация, и с другой стороны, количество подвидов не разрастается до не контролируемых размеров.

[Ответ][Цитата]

daner
Сообщений: 4633

На: Распознавание смысла
Добавлено: 02 сен 08 0:38

за дурака мы вас не держим (ну как минимум я, уверен что и дример тоже)

идея ваша понятна... но с трудом в нее вериться.
А почему именно 50? вы что, их все перечислить можете? Каким именно образом вы получили именно эти 50? просто опыт или логически как-то дошли до этого?

[Ответ][Цитата]

Dreamer
Сообщений: 268

На: Распознавание смысла
Добавлено: 02 сен 08 0:43

Цитата:

Автор: Юрий Федорченко
Итак, я полностью согласен, что движение происходит как "снизу-вверх", так и "сверху-вниз". Однако при "распознавании" естественного языка, мы сразу же столкнемся тут с огромными проблемами. Так как многие слова, могут включить практически любой "паттерн", в вашей терминологии, или "сюжет" в моей. И что мы будем с этим делать? Как это облегчит понимание следующего слова?

Здесь нет никакой проблемы. Если имеющиеся у нас данные не дают четкого прогноза, то мы ничего и не прогнозируем - просто ждем следующего слова. Возможно, оно все прояснит, если нет - ждем еще. Пример - первое слово "двенадцать" - ничего не дает, за ним идет "часов" - сразу все проясняет, и слово "двенадцать" присоединяется к паттерну времени "задним числом".

Цитата:

Автор: Юрий Федорченко
Кроме того, представим даже, что первое предложение было удачно смоделировано. Например: "Иди сюда". И что нам дальше с этим делать? Как это поможет "распознать" следующее предложение? Это же, сколько нужно "паттернов"?
(...)
То есть для несложных, или сложных но специфических задач, эта система может хорошо работать. Но вот именно для "распознавания" естественного языка она не подходит.

Во-первых, это предложение не обязано непосредственно помогать распознать следующее. Это-то мы и так распознали отдельно, и со следующим справимся. Во-вторых, по нему все же можно судить о стиле беседы (фамильярный, командный), это может помочь в формировании паттерна более высокого уровня (например, общего формата разговора).
Во-вторых, паттернов, разумеется, нужно будет много. И никуда нам от этого не деться
В-третьих, эта система вполне подходит для анализа текстов на ЕЯ, и применяется с этой целью. Видел где-то описание алгоритма вроде того, что я привел, как раз для анализа ЕЯ, увы, никак не могу найти ссылку.

Цитата:

Автор: Юрий Федорченко
...
"Распознавание" ведется не пословно, а сразу по всему тексту, на основе разных методов.
Не знаю, понятно ли объяснил. Но думаю общую суть уловить можно.

Мда... Вопрос: а Вы вообще-то думали, как это программировать будете? То, что я прочел выше, мне абсолютно непонятно с точки зрения реализации. Например, что значит "Система должна "подогнать" под текст один из готовых "контекстов", который имеет свои закономерности, общие для всех подобных "смыслов"."? Каким образом подогнать?

Цитата:

Автор: Юрий Федорченко
Откуда взялось 50 сюжетов?
(...) 50, с моей точки зрения, наиболее оптимальное число – при этом, в процессе обобщения, не теряется важная информация, и с другой стороны, количество подвидов не разрастается до не контролируемых размеров.

Вы могли бы привести пример разбора текста с помощью одного из этих сюжетов?

[Ответ][Цитата]

Юрий Федорченко
Сообщений: 119

На: Распознавание смысла
Добавлено: 02 сен 08 13:53

Процесс "распознавания", я представляю примерно так, очень грубо:

Например, один из микро-сюжетов, связан с подарком ключевой вещи. В сказках это почти всегда происходит. Также и в фильмах, художественных книгах. Некто дарит герою какую-то волшебную вещь, или ключевую вещь, которая станет судьбоностной. Если мы по ключевым словам и каким-то другим методам, обнаружим что в сюжете есть такой подарок, то мы получим хороший контекст, который прямо может и не заложен в текст. Например:
1. Эта вещь, сыграет ключевую роль, при последнем столкновении главного героя со злом.
2. Главный герой попадет в безвыходную ситуацию перед использованием вещи.
3. Главный герой слабее чем зло (иначе зачем ему вещь?)
4. Даритель находится на стороне главного героя.
и т.д. и т.д. (нужно еще очень хорошо подумать над этим)
То есть мы уже имеем хороший контекст, хорошие взаимосвязи с которыми можем работать дальше. Мы со всем этим можем вернуться к тексту и посмотреть, например, когда была использована эта ключевая вещь в последний раз. Вот этот кусок текста, примерно, будет предположительно о победе главного героя над злом. А сразу перед этим, должна идти безвыходная ситуация.
Если же мы обнаружим, что ключевая вещь используется несколько раз, то, значит, "сюжет" имеет фрактальную природу ("Крепкий орешек", "Ромео и Джульетта", "10 негретят") То есть "сюжет" строиться из повторения одинаковых "сюжетов", которые каждый раз повторяються но выходят на новый уровень. Тогда мы, для анализа, разбиваем "сюжет" на "подсюжеты".
ну и т.д. и т.п.

Отвечая на вопрос daner'а, о 50 сюжетах. Я бы никогда не смог бы провести такой колоссальной работы, по выявлению сюжетов. Это сделали за меня люди, которые посвещали этому свои жизни. Были исследованны колоссальные массивы информации - мифы и сказки, литература, исторические "сюжеты", фильмы, поэзия (все из разных культур) и т.д. и т.п. Были выяснены и описаны "микро-сюжеты", которые повторяются из раза в раз. Так в сказках насчитывается около 50 микро-сюжетов (например, подарок ключевой вещи). Но что интересно, например, в США существует институт, кторый специализируется на моделировании истории, как прошлой так и настоящей - моделирвании на основе микро-сюжетов из сказок! И они в частности, даже предсказывают дольнейшее развитие современной истории на этой основе.
В настоящее время, я списки эти классифицирую, уточняю и модифицирую, так, чтобы это были наиболее оптимальные списки для моих целей.

Как это программировать я найду. Но, очевидно, бессмысленно начинать писать программу, пока точно не будет ясно какие сюжеты использовать, пока не будут выявлены контексты этих сюжетов, пока не будет ясно какие алгоритмы использовать, составить ключевые слова. А на основе ключевых слов, например, разработать анализ энтропии этих слов. и т.д. и т.п. То есть проблем хватает.

[Ответ][Цитата]

Dreamer
Сообщений: 268

На: Распознавание смысла
Добавлено: 02 сен 08 18:06

Цитата:

Автор: Юрий Федорченко
Например, один из микро-сюжетов, связан с подарком ключевой вещи. В сказках это почти всегда происходит. Также и в фильмах, художественных книгах. Некто дарит герою какую-то волшебную вещь, или ключевую вещь, которая станет судьбоностной. Если мы по ключевым словам и каким-то другим методам, обнаружим что в сюжете есть такой подарок, то мы получим хороший контекст, который прямо может и не заложен в текст.

Для того, чтобы с высокой надежностью выделить в тексте что-то столь сложное, необходимо этот текст предварительно понять.

Цитата:

Автор: Юрий Федорченко
(...)
То есть мы уже имеем хороший контекст, хорошие взаимосвязи с которыми можем работать дальше. Мы со всем этим можем вернуться к тексту и посмотреть, например, когда была использована эта ключевая вещь в последний раз

Для чего, опять-таки, надо уже понимать этот текст.

Лично на мой взгляд, эти 50 сюжетов могли бы пригодиться для какого-то специфического анализа текста, нужного филологам, библеистам и прочим литературоведам, но уже после того, как этот текст будет понят - и не наоборот. А попытка использовать их как раз для понимания текста - это, повторюсь, строительство дома с потолка, но не решение задачи.
Хотя, разумеется, попробовать можно. Результата не будет, но зато разберетесь в проблеме и, возможно, изберете другой вариант ее решения.

[Ответ][Цитата]

Юрий Федорченко
Сообщений: 119

На: Распознавание смысла
Добавлено: 03 сен 08 5:30

Вот, как я думаю, можно было бы начать:

Давайте представим, что у нас есть некий неизвестный текст. Мы не можем его увидеть, следовательно, мы не можем его прочитать. Мы можем лишь запускать конкретные алгоритмы, и видеть то, что нам возвращает алгоритм.

1. Запускаем словарь на поиск имен. Получаем список: Марья, Василий, Иван, Кощей, Петр, Ольга, Кузьма, Зигмунд.

2. Теперь посчитаем сколько раз упоминается в тексте каждое имя. Видим, что два имени встречаются чаще всего: «Иван»(60) и «Петр»(45).
Скорее всего, главного героя зовут Иван, но мы точно этого не знаем. Кто знает, каков сюжет? Может Петр по сюжету ищет своего брата Ивана, поэтому имя Иван часто встречается. Или может тут два главных героя. Или это два разных Ивана. В общем, нужно уточнить.

3. Нам нужно создать, для начала, временную шкалу текста, в которой развивается сюжет. Запускаем алгоритм, разбивающий текст на абзацы. Видим – 200 абзацев. Откладываем прямую и разбиваем ее на 200 частей.

4. Откладываем прямую Х по-горизонтали, и делим ее на 200 частей. Откладываем прямую У по-вертикали, и делим ее на 60 частей (количество упоминаний Петра). То же самое мы делаем с Иваном.
Потом мы пишем алгоритм (функцию), который будет чертить график. И запускаем его. Затем берем графики с кривыми, и изучаем-сравниваем.
- Если имя появляется где-то по ходу книги, будет всплеск графика на конкретном абзаце. Значит - это не главный герой.
- Если имя появляется практически сразу, в первом абзаце, но потом кривая «тухнет», то есть имя встречается реже и реже, или вообще исчезает, - это тоже не главный герой.
- Если кривая равномерна в целом, но где-то обрывается, а потом через много абзацев возникает, то это не главный герой.
- Если кривая равномерна от начала и до конца – вот это уже главный герой.
Итак, мы видим, что у нас главный герой – Иван, его кривая равномерна. Кривая Петра появляется сразу в первых абзацах, но на 100 абзаце «тухнет».
Таким образом, мы обрабатываем все имена и расставляем их на прямой времени, разделенной на 200 частей (абзацев).

В итоге, что мы видим?
Вначале присутствуют Марья, Василий, Иван и Кощей.
Затем Марья и Василий исчезают, зато появляется Петр.
Долгое время присутствуют только Иван и Петр.
Потом, всего на несколько абзацев появляется Ольга.
На половине книги исчезает Петр.
Через пару абзацев, появляются сразу двое: Кузьма и Зигмунд, и оба быстро исчезают.
Появляется и исчезает Ольга.
В конце текста появляется Кощей, Кузьма и Зигмунд
Кощей исчезает, и в последних абзацах остаются Иван и Ольга.

5. Ну, во-первых, мы совершенно спокойно можем поделить текст на отдельные, скажем этапы, ориентируясь на возникновение новых персонажей, и их уход из текста. Так как каждый персонаж, это какой-то важный этап, какая-то сила, которая воздействует на развитие всего сюжета. Запускаем алгоритм – «ножницы», который отсчитывает 1-2 абзаца назад, от появления нового имени, и режет текст. Итого у нас получится пока что 10 этапов. Это уже неплохо.

6. Если у нас существует микро-сюжет с «подарком ключевой вещи», то этот дар должен произойти после появления нового персонажа. В абзацах, где не появляются персонажи нам искать не нужно. Итак, давайте проверим на подарок «Кузьму» и «Зигмунда». Пока по ключевым словам: «подарок», «дар», «подношение». К сожалению, не нашлось ни одного слова. Идем дальше.

7. Мы знаем, что в процессе написания текста, автор, сменяет персонажей, события и обстановку. Так, автор ничего не говорит о персонажах, событиях и обстановке которые еще не появились. Затем, при появлении нового персонажа, события, обстановки, он как раз тут о них больше всего и говорит, так как именно с ними связанны происходящие здесь и сейчас события. Ну и переходя к следующим событиям, персонажам, обстановке, автор реже и реже упоминает прошлые события, так как их вытесняют новые.
Опираясь на этот факт, мы можем построить хитрый алгоритм, который позволит нам, выделить конкретные «сцены» в тексте. Когда меняется сцена, происходят некоторые закономерности – возникают массово персонажи, события и обстановка. Уходят старые персонажи, события, признаки обстановки, графики резко падают, а затем медленно затухают, сходя на нет. А также (как вспомогательный проверочный факт) - возникают абзацы без имен (без действия персонажей) – описательные абзацы.
…
И какой может быть следующий шаг?

[Ответ][Цитата]

Dreamer
Сообщений: 268

На: Распознавание смысла
Добавлено: 03 сен 08 11:37

Судя по описанию, анализ технических текстов Вас не интересует, хотя они тоже важны и, по идее, проще для машинной обработки. Но не суть важно.
Что касается Вашего описания алгоритма - ИМХО, понимание текста по ключевым словам и графикам не есть серьезно, ибо тут же увязнете в неоднозначностях. Но, как говорится, попытка не пытка - если вдруг сумеете хотя бы классифицировать тексты по базовым сюжетам, уже будет неплохо. Действуйте

[Ответ][Цитата]

Стр.3 (14): 1 2 [3] 4 5 6 7 ... 14 << < Пред. | След. > >>

Главная | Материалы | Справочник | Гостевая книга | Форум | Ссылки | О сайте

Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net