GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.7 (8)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Модель Logos AI 3
Плюмаж
Сообщений: 110
На: Модель Logos AI 3
Добавлено: 06 окт 09 6:25
Давайте, я разведу немного тарасовщины. Сверим наш взгляды.

Текст - это последовательность некоторых событий (букв). Если рассматривать живой организм (животное), то можно либо все возможные состояние его рецепторов свести в алфавит и в каждый момент времени, животное принимает один символ этого "текста" и вынуждено выдавать (своим поведением, влияющим на его-же собственные рецепторы) следующий (однопотоковая модель).

Либо, можно считать, что на вход поступает одновременно множество текстов разных азбук ("абука" состояний слухового рецептора; "азбука" состояний ощущения тепла правым задним ухом и т.д.) - многопотоковая модель.

Очевидно, что в реальных случаях, размер алфавита однопотоковой модели стремится к бесконечности - например, если у нас есть 100 рецепторов, которые либо возбуждены, либо нет, то алфавит состоит из 2^100 символов. (В случае многопотоковой модели, мы имели-бы в нашем примере 100 входящих текстов, алфавит каждого из которых состоит всего из двух символов).

Неясным остается проблема фразы. Мне кажется, это не естественное деление т.к. трудно, не впадая уж в явную демагогию, выделить аналог фразы в "естественном" "тексте" событий животного. (животное тоже "естественное", естественно ).

(Демагогия т.к. мы слишком мало знаем - версий будет очень много, а подвердить их нечем. Например, фраза, это:

- период бодрствования животного (самое очевидное, но... уж очень огромный размер фразы)

- содержимое кратковременной памяти (возможно, но... как-то все это туманно)

- одна "буква" текста (довольно интересно, но вопросов много)

и т.д.
)

Вотъ.
[Ответ][Цитата]
гость
89.208.11.*
На: Модель Logos AI 3
Добавлено: 06 окт 09 9:15
[Удалено ибо нефиг]
[Ответ][Цитата]
daner
Сообщений: 4593
На: Модель Logos AI 3
Добавлено: 06 окт 09 11:22
QUOTE's Автор: Плюмаж

Давайте, я разведу немного тарасовщины. Сверим наш взгляды.

Цитата:
Текст - это последовательность некоторых событий (букв). Если рассматривать живой организм (животное), то можно либо все возможные состояние его рецепторов свести в алфавит и в каждый момент времени, животное принимает один символ этого "текста" и вынуждено выдавать (своим поведением, влияющим на его-же собственные рецепторы) следующий (однопотоковая модель).

При таком определение, откуда тогда термин "Фраза" появляется? Ну и чем это отличается от "Слова" (я про ваш "Текст") в классическом его определении? Множите термины? Не похвалил бы вас Окам за такие дела.
Но вот что мне напоминают ваши определения. Если определите "Текст" как последовательность "Фраз", а те в свою очередь, как последовательность "Слов" (или сразу "Букв"), а вот их уже как последовательность "Букв", то на сколько я понимаю, у вас получиться что-то тупа Лингвистической Геометрии с ее Иерархией Языков (когда алфавит более высокого языка состоит из слов более низкого).


Цитата:
Либо, можно считать, что на вход поступает одновременно множество текстов разных азбук ("абука" состояний слухового рецептора; "азбука" состояний ощущения тепла правым задним ухом и т.д.) - многопотоковая модель.

Очевидно, что в реальных случаях, размер алфавита однопотоковой модели стремится к бесконечности - например, если у нас есть 100 рецепторов, которые либо возбуждены, либо нет, то алфавит состоит из 2^100 символов. (В случае многопотоковой модели, мы имели-бы в нашем примере 100 входящих текстов, алфавит каждого из которых состоит всего из двух символов).


Совершенно верно. Только не понятно какой вывод вы из этого делаете. Хочу заметить, что хоть вы и останетесь с символами, они практически не будут взаимосвязаны друг с другом (возьмите две разных книги, причем на разных языках). Что дадут вам эти независимые последовательности? Но как только вы начнете определять связи между ними, вы автоматически будете определять алфавит из символов (по максимому).

Цитата:
Неясным остается проблема фразы. Мне кажется, это не естественное деление т.к. трудно, не впадая уж в явную демагогию, выделить аналог фразы в "естественном" "тексте" событий животного. (животное тоже "естественное", естественно ).

Добавлю свой вариант к вашим:
- Фразой можно считать последовательность, которая представляет из себя некий законченный образ.
[Ответ][Цитата]
Corwin
Сообщений: 1324
На: Модель Logos AI 3
Добавлено: 06 окт 09 19:38
Приятно видеть что не я один занимаюсь подобными разработками.

Плюмаж> Ваша система делает вывод на одном-единственном правиле? В смысле, ей не нужно давать несколько однотипых правил, чтобы система могла построить вывод?

Когда-то раньше я работал над моделью которая могла обучаться всего с одного примера, но как показали исследования даже на небольшом фрагменте текста можно найти несколько тысяч закономерностей и их использование не представлялось возможным. В общем пришел к выводу что для нормального обучения необходимо проанализировать хотя бы два однотипных примера. Такой подход существенно уменьшает количество найденных лишних закономерностей. Впрочем иногда кажется что даже два примера это за мало.

Плюмаж> Вариант был прекрасен, за тем небольшим недостатком, что не работал на зашумленных текстах (к чему, собственно и стремление).

Вот честно говоря я не совсем понимаю что значит зашумленость, если программа обучается с нуловой БД. Откуда знать что какой-то символ, слово, фраза является шумом а не полезной информацией? Можете привести примеры?

И еще пару вопросов относительно ваших примеров.

1. 1x2y3
2. 4y5z6
3. 7z|

Если предложения 1 и 2 поменять местами то ваша программа сможет продолжить третье предложение? Или если между 1, 2, 3 будет находиться еще несколько предложений которые не имеют отношения к этой задаче?

sABCbCBAt+
sDEFbFEDt+
А в этом примере ваша программа сможет обратить строку если количество символов в проверке не будет соответствовать количеству символов в обучающем примере? Скажем если дать
sQWERTYb|?

Ну и еще пару вопросов: Вы как-то занимались приоритетностью логических выводов? Скажем если на поставленую задачу есть несколько логических выводов, какой вывод вы выберете как конечный? Или будете использовать все выводы? А если некоторые логические выводы полностью исключают другие?
[Ответ][Цитата]
гость
89.208.11.*
На: Модель Logos AI 3
Добавлено: 06 окт 09 21:14
отключаете конструктивную критику корвин?
заметьте, мнение было обоснованным и корректным.

вот твоя личинка то и вылезла.
никто в общем и не сомневался...

From Corwin: Отнюдь. Мнение не может считаться обоснованным и конструктивным если его автор описывает какой-то бред который существует только в его голове и при этом экстраполирует этот бред на вполне реально существующую разработку. Проще говоря не понимаете как что-то работает - не лезьте со своими описаниями этих принципов работы.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Модель Logos AI 3
Добавлено: 06 окт 09 22:46
Одного примера может быть достаточно если правило применено пару раз. Например в ABC операция "взять следующую по алфавиту букву" применена уже два раза. Но в любом случае сколько бы раз гипотеза не подтверждалась она останется гипотезой, так что искать идеал бесполезно. Против разных вариантов есть хороший принцип МДО (минимальная длина описания). Если самое простое объяснение даже интуитивно не самое верное, то оно скорее всего содержится и в более верном, при этом если интуиция ошибается простейшая модель этих лишних ошибок не содержит. Но количество информации относительно, поэтому "сложность" тоже просто еще одна оценка с потолка, да и вычислять ее может быть трудно.
[Ответ][Цитата]
Плюмаж
Сообщений: 110
На: Модель Logos AI 3
Добавлено: 07 окт 09 1:30
День добрый, Daner.

Вы несомненно правы (относительно "фразы", Оккама и умножения терминов). (тарасовщина-же). Что меня больше всего удивляет так это то, в данной проблеме возникает необходимость ПОЯВЛЕНИЯ фраз. Т.е. да, текст - это последовательность (или множество) фраз (даже, если текст состоит из одной фразы), но вот ПОЧЕМУ возникает этот промежуточный уровень - не ясно. Во всех своих попытках (быть может, просто бегаю, как цирковая лошадь, по кругу) рано или поздно возвращаюсь к необходимости разбиения текста на фразы. Причем, остается твердая уверенность, что это деление неестесвенное и от него необходимо избавляться. Прошу прощения за неточность формулировок.


Относительно вывода про животное с его сотней рецепторов: как кажется, следует копать в направлении многопотоковости и искать там решения (один из явных признаков того, что некоторый текст может быть разбит на несколько парралельных потоков - это то, что подобие символов текста может принимать не только значения 0 и 1, но и промежуточные ( поясню, например, символ "а" подобен сам себе с уверенностью 1, но символы "а" и "А" тоже могут быть (в некоторых случаях) подобны друг-другу (например, порой регистр не важен, а порой - важен), значит, этот текст можно разбить на два параллельных потока - поток симолов и поток регистров этих символов ) )

Плюс, к выводам, помимо перспективности (и, увы, сложности) многопотоковости, вернусь, опять-же, к важности избавления от фраз.

Ваш вариант (Фразой можно считать последовательность, которая представляет из себя некий законченный образ) хорош, безусловно, но (мне кажется) страдает тоже легкой туманностью (как и мои).

Представьте себе собаку. Вот она сидит в клетке лаболатории. Загорелась красная лампочка, после чего, щелчок и в клетку падает кусок мяса. Отличная фраза текста "Жизнь собаки" (не будем углубляться в алфавит): <Красная лампочка> <щелчок> <мясо>.

Проблема в том, что имеется шум. Каждый такой случай (с краснолампочным кормлением) сопровождается неизбежными отличиями друг-от-друга:

День первый: <Почесал правое ухо> <Пришла лаборантка Любочка> <Красная лампочка> <что-то загудело> <щелчок> <мясо, пахнущее лошадью>

День второй: <Иван Денисыч курит> <красная лампочка> <пролетела муха> <щелчок> <жилистый кусок чего-то мясного>

...

В каждой вышеприведенной фразе есть образ. Каждый уникальный. Но законченный-ли? Что случилось с мухой? Откуда пришла Любочка? Почему иногда мясо пахнет лошадью, а иногда - нет? Можно, конечно, сказать, что образ "кормление" в каждой фразе закончен. Да, но... когда он начинается? В какой момент можно сказать, что это вот началась фраза кормления? И когда она заканчивается? Что, если иногда, через пять минут после красной лампочки мы будем наступать собаке на хвост? (это будет фраза "живодерство", содержащая в себе фразу "кормление").

Т.е. в естественных случаях нет четкого деления на фразы. А вот в модели никак не удается уйти от этого (разумеется, это скорее проблема дилетантизма моделирующего).

(не знаю, что хочу сказать, ладно, оставим )


P.S. Спасибо за реакцию
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Модель Logos AI 3
Добавлено: 07 окт 09 1:36
без фраз, точнее в одной, каждое слово встречалось бы только 1 раз
[Ответ][Цитата]
Плюмаж
Сообщений: 110
На: Модель Logos AI 3
Добавлено: 07 окт 09 2:18
>Corwin

Зашумленность. Мне трудно это объяснить словами, но попробую.

Есть однотипные примеры, но каждый из них содержит отличия собственные отличия.

Факты:

sABrCDe
sEF1GHe

Правила:

wCDqABt
wGHqEFt

Глядя на данный текст, можно придти к выводу, что вопросы типа w<A>q<B>t "делают" вывод на фактах типа s<B>r<A>e

Тут все ясно. А вот шум - это такие "вкрапления", которые уникально отличают каждую фразу от другой. Например, в факте sXYZr12e <A>=12 , а <B>=XYZ и здесь "шумит", помимо прочего то, что длина XYZ равна трем символам, но в обучающем примере не было переменных с длиной отличной от двух. (это простой пример шума). В случае Логоса, полагаю, что там мельчайшей неделимой частью является слово. Значит, шумом будет вкрапление слов.

Обучение:

Вася купил мяч в магазине.
Что купил Вася? Мяч?

Проверка с шумом:

Нина купила красную розу в цветочном магазине.

Вася к-у-п-и-л мяч в мОгОзине. // конечно, нечестный прием, если слова неделимы


Другой случай шума - это повторяющиеся ... кхм.. атомы (буквы, слова). Например, переменная содержит в себе что-то, что случайно полностью или частично совпадает с теми признаками, по которым одна переменная отделяется от другой.

Шаблон факта: a <B> c <D> e
Здесь, описанный шум появится. если, например, <B> содержит в себе символ (слово) "c" (или часть его).

В естественных случаях полно шума. Например, слова "мыла" (глагол) и "мыло" (существительное) - очень подобны (отличие не одну букву) но, даже если мы допустим очепятку(!) то все равно фраза "мама мыло раму" будет понятна. (поясню, что здесь, опечатка - это "классический" шум - искажение)


Далее, к Вашим вопросам:

"
Если предложения 1 и 2 поменять местами то ваша программа сможет продолжить третье предложение? Или если между 1, 2, 3 будет находиться еще несколько предложений которые не имеют отношения к этой задаче?
"

Если хотите, я могу выложить "летний" пример, с оговорками про зашумленность, незаконченность и т.п.

Если предложения 1 и 2 поменять местами, то тот вариант, если не ошибаюсь, не сможет сделать вывод. (Там строилось из предпложения, что та фраза, из КОТОРОЙ делается вывод, была в тексте ДО той фразы, КОТОРАЯ этот вывод делает).

1. Вася - мой брат.
2. Мой брат в соседней комнате.
3. Кто в соседней комнате? Вася.

Здесь вывод идет по цепочке - фраза 3 находит фразу 2 ДО себя, а та находит фразу 1 тоже ДО себя.

"если между 1, 2, 3 будет находиться еще несколько предложений которые не имеют отношения к этой задаче?"

Они не помешают (опять-же шум - если эти вставочные фразы не будут сильно щуметь т.е. если мы система не примет их ошибочно за часть, на котороый строится вывод)

"А в этом примере ваша программа сможет обратить строку если количество символов в проверке не будет соответствовать количеству символов в обучающем примере? Скажем если дать
sQWERTYb|?"

Сейчас проверю.. нет, выдает [t]

С другой стороны

sABbBAt+
sCDEFbFEDCt+
sXYZ|bZYXt

Это случай шума... кхм... длины (прошу прощения за аляповатость термина - если пошутить, то "шум" - это когда не работает ).


"Ну и еще пару вопросов: Вы как-то занимались приоритетностью логических выводов? Скажем если на поставленую задачу есть несколько логических выводов, какой вывод вы выберете как конечный? Или будете использовать все выводы? А если некоторые логические выводы полностью исключают другие?"

Кхм... ответ, скорее нет. Я поясню. Ваша модель это(как мне кажется), своего рода, векторная графика - рисунок (текст) содержит объект "линия", "квадрат" и т.д. Здесь-же мы имеем своего рода растровую графику. В рисунке можно выделить и линию и квадрат, но этого ничего нет - есть кучка цветных точек. Прошу прощения, за неточность - старался, как мог.

Спасибо.
[Ответ][Цитата]
Плюмаж
Сообщений: 110
На: Модель Logos AI 3
Добавлено: 07 окт 09 9:00
Цитата:
Автор: daner
...(возьмите две разных книги, причем на разных языках). Что дадут вам эти независимые последовательности?


Возможно, я не так понял, но возражу следущее. Есть (была) такая женщина по имени Хелен Келлер. Несчастье ее состояло в том, что она в раннем детстве потеряла зрение и слух. Вопрос, как установить контакт с таким ребенком? Ответ: обучающий (к сожалению не помню имени - Сьюзан, кажется) макала одну руку Хелен в холодную воду, а на ладони второй писала пальцем "вода".

Мы имеем здесь две последовательности. Очевидно, что это разные последовательности (ощущение холода и влажности одной рукой, а также, тактильные ощущения, получаемые второй рукой). Но они, эти последовательности, связаны между собой одновременностью. Пример с книгами на двух языках подходит, при условии, например, что мы знаем, какое предложение одной книги соответствует... кхм... одновременностью... какому предложению другой книги.

Хелен Келлер выучилась читать, писать, окончила университет.

(честно говоря, рука не подымается сразу после Хелен говорить о собаках и выработке рефлекса...нет, не буду ).

Прошу прощения, если не так понял. В целом-же, прошу не принимать моих "рассуждений" всерьез - это так, просто так.
[Ответ][Цитата]
гость
188.162.53.*
На: Модель Logos AI 3
Добавлено: 07 окт 09 10:23
[Удалено]
From Corwin: Больной, когда до вас дойдет что то, что вы себе НАФАНТАЗИРОВАЛИ вовсе не означает что такое есть или будет работать в РЕАЛЬНОСТИ.
[Ответ][Цитата]
daner
Сообщений: 4593
На: Модель Logos AI 3
Добавлено: 07 окт 09 13:04
>>>>>>>> Плюмаж

поняли Вы правильно, но не до конца. Естественно, я догадывался о том, что тексты синхронизированы и именно поэтому, написал
Цитата:
Но как только вы начнете определять связи между ними, вы автоматически будете определять алфавит из символов (по максимому).

Одновременность событий это уже связь между ними, таким образом вы уже объединяете тексты в один комбинированный (картезианским умножением алфавитов).
Здесь возможно очень кстати будет разбиение текстов на "фразы", т.е. образы, т.е. переход к языку старше по иерархии. Таким образом, умножение (картезианское) будет делаться на алфавитах, которые состоят уже состоят из слов.

Для пояснения использую ваш примера с мокрой ладонью и надписью:
Два текста/потока: тактильный одной руки и тактильный другой.
лев.рука: л1, л2, л3, ..., лН
пра.рука: п1, п2, п3, ..., пМ
(цифры указывают порядок, но не время).
если выделить фразы (т.е. создать алфавиты уровнем выше и взять из них по одной букве) лф13:=(л10,л11,...,л25) и пф32:=(п24,п25,...,п67)
И если именно эти фразы имеют связь одновременности/синхронности (заметьте, сами события из которых они состоят совершенно не обязательно должны быть синхронизированы между собой), то карт.умножение приведет к появлению нового алфавита в котором будет символ лпФ122:=(лф13,пф32).

Как Вы можете видеть Новый алфавит будет существенно меньше чем алфавит текста лев.рука Х пра.рука (это именно то, что вы и хотели добиться разбивая один текст на потоки). Думаю теперь совершенно очевидно и необходимость в самих "фразах" (т.е. в переходе на язык более высокого уровня, а говоря по простому, увеличению уровня абстракции).

Кстати, обратите внимание, на один момент. Это не просто игра в разбиение, с целью уменьшения языков и все такое. Если не сделать этот мето-переход, то возможно в общем тексте (в объеденных потоках) мы вообще не смогли бы увидеть всей картины. Хочу напомнить, что символы внутри лф13 и пф32 не синхронизированы между собой, а так же "одновременность" лф и пф фраз может отличаться от "одновременности" символов л и п.
Например, если "одновременность" у л и п это доли секунды, то для лф и пф это могут быть минуты. Да и вообще это может быть совершенно другая зависимость, а не только по времени.

П.С.
Кстати, вы говорили о проблеме подобия некоторых фраз (ну типа один раз это кость которая пахнет свиньей, а другой раз, которая пахнет чело... э... пардон, кониной).
Тогда можно говорить об определении каждого слова высшего уровня (фразы) как о множестве (или функции) последовательностей символов.

ПП.С.
Что касается нашей не способности определить границы фразы, еще не говорит о том, что такое разбиение не имеет смысла. Смысл имеет то, что можно использовать. Выделение BLOBs (Binary Large OBject), т.е. определение фразы как законченного образа, штука безусловно полезная (в отличии, например, от определения фразы как периода бодрствования, ИМХО).
[Ответ][Цитата]
daner
Сообщений: 4593
На: Модель Logos AI 3
Добавлено: 07 окт 09 13:15
[OFFTOP]
>>>> Corwin
Советую просто ПОЛНОСТЬЮ стирать все посты (в независимости, от того что еще в них написано), если в посте присутствуют оскорбления или переход на личности.
[Ответ][Цитата]
NO.
Сообщений: 10700
На: Модель Logos AI 3
Добавлено: 07 окт 09 13:54
Преображенский собирался таким заняться, на Мембране была тема, но заглохла.
Это вообще практически центральная тема в ИИ. Но с такими маленькими строками количество сильно меняет качество, такое уже ближе к теоретической шифровке/дешифровке, на практике опять же все по-другому. В методологии залезания в бутылку каждый долже разочароваться на своем опыте. Месяц плотных занятий или два-три года в обычном для ИИ-форумов темпе.
Дрю тоже мог бы поинтересоваться, например HMM инвертировать строку не сможет. Но он предпочитает кусать локти.
[Ответ][Цитата]
Corwin
Сообщений: 1324
На: Модель Logos AI 3
Добавлено: 07 окт 09 21:17
Плюмаж

Здесь пожалуй разрешу себе не согласиться с Вами. В частности ваше понимание шума довольно спорно. Вот к примеру если есть предложение "Вася не купил мяч в магазине." будет ли часточка "не" считаться как шум? Или опять же можно ли считать отличия в предложениях "Нина купила красную розу в магазине" и "Нина купила красную розу в цветочном магазине" как шум, ведь в последнем предложении наводиться фрагмент полезной информации (которую вообщем-то можно и проигнорировать) но никак не шум. Ну и еще конечно это зависит от разницы в наших реализациях, но к примеру "шума длины" у меня не существует. Если есть совокупность ранее не известных единиц информации (в моем варианте это слова) то они считаются как единое целое до того момента как появиться дополнительная информация способная их классифицировать как отдельные объекты.

Кстати Вы совершенно зря не занимаетесь приоритетностю логических выводов. Для меня сейчас это пожалуй самый главный вопрос. Вот к примеру на вопрос "Что купил Вася?" можно дать два ответа "Я не знаю" и "Мяч". При этом ответ "Мяч" должен полностью поглощать ответ "Я не знаю". В принципе тот механизм который я использую сейчас позволяет выключить лишние лог выводы, но (как показали последние исследования) далеко не все и не всегда.

>Если хотите, я могу выложить "летний" пример, с оговорками про зашумленность, незаконченность и т.п.

Кончено, это было бы весьма интересно.
[Ответ][Цитата]
 Стр.7 (8)1  ...  3  4  5  6  [7]  8<< < Пред. | След. > >>