GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.4 (5)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: Система и метод создания и улучшения словаря для ИИ.
mss
Сообщений: 2505
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 20 фев 20 9:44
Да пошел ты... Мудак.
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 25 фев 20 7:42
Цитата:
Автор: mss

Да пошел ты... Мудак.


Преимущество словаря в том что это замкнутая система. Например определение каждого слова каждого определения содержится в словаре, оно проиндексировано и может быть с легкостью найдено. То есть создавая уникальность слова возможно практически мгновенно расширить его словарное определение до многих десятков и сотен параграфов словарных определений.
А поскольку ИИ-разбор продуцируют фразы состоящие из 3-5 слов, то каждую фразу можно уникально определить 30-100 и более параграфами определений.
При использовании для создания уникальности случайных контекстов, так как это делают Microsoft и OpenAI, нет уверенности что есть в наличии определения всех образующих их слов. Действительно, то что используют вышеприведенные компании, вполне вероятно не являются замкнутыми системами и не все используемые слова определенны.
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 27 фев 20 5:53
1. NRC Word-Emotion Association Lexicon aka NRC Emotion Lexicon aka EmoLex: association of words with eight emotions (anger, fear, anticipation, trust, surprise, sadness, joy, and disgust) and two sentiments (negative and positive) manually annotated on Amazon's Mechanical Turk. Available in 40 different languages.
Version: 0.92
Number of terms: 14,182 unigrams (words), ~25,000 word senses
Association scores: binary (associated or not)
Creators: Saif M. Mohammad and Peter D. Turney
https://saifmohammad.com/WebPages/AccessResource.htm

Как видите этот словарь создан вручную, т.е. эмоции оценивались субъективно. Естественно об получении объективных подтекстов речи никакой не идёт; где подтексты это словарное-энциклопедические определения и ссылки на синонимичные кластеры из других текстов.
Что такое «ссыслки на синонимичные кластеры»? Это эмоции которые вызывают другие, неявно-подтекстуально имеющиеся в виду тексты.

To develop their poetry generation system, Bena and Prof. Kalita first gathered a large corpus of text from the Project Gutenberg and UC-Santa Cruz Dreambank databases. They browsed through the Gutenberg database looking for words included in EmoLex, an emotion-lexicon dataset developed by the National Research Council of Canada.
https://techxplore.com/news/2020-02-language-creative-poetry.html

Значит изначально накладывается субъективное восприятие составителей EmoLex на выбор слов и фраз, при генерации того что называется «Машинной Поэзией».

The researchers then split the resulting dataset into different 'emotion categories," looking at the number of EmoLex words contained in each extract, and used this data to the train a deep neural network. The model they trained is an adaptation of GPT-2, an architecture that learns to generate new fragments of text by modeling the style of language used in the data its trained on.

Я считаю ошибкой искать слова! Нужно искать синонимичные кластеры, поскольку они описывают какими подтекстами наделены слова и фразы. Значит эксперимент изначально порочен!

"We also fed our artificial neural network a combination of dream data and poetry to create what is known as 'dream poetry,'" Bena explained. "In the end, we had five separate emotion models for the emotions of joy, sadness, trust, anger and anticipation, but we also had a dream poetry model. This system, as stated previously, focuses less on the structure found in a lot of poetry generation work and more on a free-verse style of poetry that looks to imitate and reproduce the finesse and creativity of real poets."

А почему пять? а если это смесь эмоций, как отделить одну от другой? Между тем наличие ссылок на синонимичные кластеры позволяет идентифицировать эмоции почти с абсолютной точностью, каковая определяется при сравнении подтекстов содержащихся в индивидуальных профилях.

The researchers asked human users to evaluate the poems created by their system, while also employing the Coh-Metrix tool to assess the quality of the verses it generated. They found that it produced poems that effectively elicited sadness and joy 87.5% and 85% of the time, respectively. In addition, when trained on both dream data and poetry, their system generated unique 'dreamlike' poetry verses that captured elements of what is known as 'dream poetry' with a score of 3.2 on the Likert scale.

Река-канал видите даже при таких грубейших ошибках был достигнут совершенно поразительный результат, что объясняется использованием контекстов как замены синонимичных кластеров при создании словаря и:
“Our findings suggest that text can, in fact, be generated so that it elicits emotion in readers and that it can resemble the types of creativity that artists look to inject in their work," Bena said.

[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 27 фев 20 7:33
Saif M. Mohammad and Peter D. Turney вручную создали словарь на эмоции, основываясь на контекстах и известных им подтекстах.
Я же запатентовал метод как создавать такой словарь без участия человека, автоматически.
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 27 фев 20 10:54
Изменено: 27 фев 20 11:09
The odd error isn’t too problematic in menial circumstances, like a tourist trying to translate their dinner order. However, for crucial materials like conference minutes and business documents, nothing less than a perfect translation will be acceptable. There’s no guarantee that Google will pick up on the context and nuance which underlies everyday language, and the program may also fail to register tone of voice, perhaps missing hints of sarcasm, compassion or other distinctly human states and emotions.
https://www.information-age.com/google-translates-latest-update-end-professional-translations-123487957/


То и есть причина почему я настаиваю на словарных-энциклопедических определениях и аллюзиях к синонимичным кластерам из других текстов: применение оных сводит вероятность ошибок к практическому минимуму.
[Ответ][Цитата]
гость 31.211.0.*
Сообщений: 1747
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 27 фев 20 14:03
Илья, вы человек явно не глупый, но для меня совершенно непонятен энтузиазм с которым вы пытаетесь вывести ИИ из вербальной активности. Предельно ясно, вербальная активность человека является продуктом уже вполне сформированного интеллекта, а никак не наоборот.
Такие попытки равнозначны стремлению разобраться с конструкцией радиоприемника на основе анализа передач радиостанции Маяк.
Сначала интелект, и уже потом говорить, слушать, писать, читать, понимать.
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 27 фев 20 15:00
Изменено: 27 фев 20 15:03
Для этого необходимо создавать Лексический Клон. Например наследие Достоевского — 30 томов (33 книги), Диккенс — 30 томов, Ландау как минимум 8 томов. У Бора тоже книжонки есть, и у Резерфорда... У Черчиля есть, Цезарь написал «Галльскую войну». (Кстати говорил с Цезарем, неприятный Самовлюбленный типчик.)

В ближайшей перспективе предполагается восстановление тестов, прочитанных в процессе обучения (как обязательная программа в школе и институте, например; или в церковноприходском околотке и ПТУ) и добавления их в Персональные Лексические Клоны. Также туда добавляются тексты связанные с работой и повседневной деятельностью. (Поскольку это неимоверно дорого, то скорее всего это будет делаться на личных устройствах, с предоставлением абсолютно приватности; а деньги получатся за доставку информации, за которую платят те кто хочет ее доставить.)

В более отдаленной перспективе Лексические Клоны Будут расти вместе с их владельцами; то есть речи об сформированном интеллекте не идёт, а об формировании его в параллель.
[Ответ][Цитата]
гость 31.211.0.*
Сообщений: 1747
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 28 фев 20 12:12
Идея лексического клона небезинтересна, такая вот личная история говорения. С другой стороны, как она связана со способностью индивида попадать в двери и "не бится об косяки"?
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 28 фев 20 12:40
Изменено: 28 фев 20 14:26
Цитата:
Автор: гость 31.211.0.*

Идея лексического клона небезинтересна, такая вот личная история говорения. С другой стороны, как она связана со способностью индивида попадать в двери и "не бится об косяки"?


Проект возник как ответ на вызов NIST TREC QA, как чисто коммерческое предприятие. Искусственного Интеллекта в повестке NIST не было, было только интеллектуальное нахождение информации.
Я уверен что моя поисковая технология, вероятно в какой-то не слишком близкой перспективе, может быть использована для ИИ, после многих лет обрастания мясом исследований и продуктов.
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 01 мар 20 14:12
Изменено: 03 мар 20 6:09
— Есть словарное определение, назовём его А1.
— каждое слово этого А1 определения определенно своим словарным определением, скажем названных Б1—Б30; поскольку А1 состоит из 30 слов.
При этом Б1—Б30 выбираются так чтобы наиболее подходить под контекст текста А1: если существует 30 определений БА1—БА30, то выбирается скажем БА24.
— словарное определение имеет синонимы, например 20 синонимов; назовём их С1—С20. Из них выбирается одно, чтобы создать уникальность словарного определения; например С12, как наиболее подходящее под контекст.
— каждый синоним есть определение, состоящие из слов; где каждое слово предельно в словаре; назовём их Д1—Д30 (для синонима С12), исходя из предположения что эти определения также состоят из 30 слов.

Итого, если мы используем только один слой словарных определений, то для одного слова мы получаем 30 + 30*30=900 + 30 слов определения, которы делают слово уникальным.
Но возможно добавление второго и большего количества слоев определений словаря.

Теперь если слова определяются контекстами... Майкрософт и OpenAI используют Гигабайты текстов: представьте себе объемы операций необходимых для создания только одного слоя для уникальности? Это надо последовательно, для каждого слоя, исследовать 40—160 Гигабайтов.
И это в то время как стандартный словарь (например Webster) всего около 25 Мегабайт. И это не говоря о том что стандартны словарь превосходно индексирован, не надо последовательно перебирать все 25 Мегабайтов, а только несколько десятков Байтов! И при этом есть абсолютная уверенность что такой словарь содержит в себе все слова, в то время как с простыми случайными текстами (40—160 Гигабайт) такой уверенности нет: случайные могут содержать слова которые встречаются только один раз и не объяснены контекстом.

То есть идея объяснять слова случайными контекстами не выдерживает никакой критики.
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 03 мар 20 7:56
Изменено: 03 мар 20 8:00
В действительности конечно речь не идёт об «30 + 30*30=900 + 30 слов определения»! Из этих слов формируются синонимичные кластеры.
— Предположим что 30 слов формируют 7 фраз.
— Эти семь фраз могут произвести 3—7 синонимичных кластеров, к примеру.
— Каждый кластер может быть 1—10 фраз.
Итого, 30 слов могут принести до 70 фраз, слово может быть определённо 7-2.000 фраз, приблизительно.
Каждая фраза состоит из трёх-пяти слов; каждая фраза аннотирована/ объяснена 3—10.000 фраз.
Не пугайтесь количеством! Большая часть фраз это одно и то же, просто слова в них заменены их синонимами, что облегчает поиск.
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 18 мар 20 10:52
Probabilistic Computing Research Focus
The fundamental uncertainty and noise that are modulated into natural data are a key challenge for the advancement of AI. Algorithms must become adept at tasks based on natural data, which humans manage intuitively but computer systems have difficulty with.
Having the capability to understand and compute with uncertainties will enable intelligent applications in diverse AI domains. For example, in medical imaging, based on the uncertainty measures one can prioritize which images a radiologist needs to look at and show on the image regions highlighted with low uncertainty. In case of smart assistant at home, an agent can interact with the user by asking clarifying questions to get better understanding of a request when there is a high uncertainty in the intent recognition.
https://www.intel.com/content/www/us/en/research/neuromorphic-computing.html

Словарные определения и есть то что создаёт интуицию, они подразумеваются неявно.
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 18 мар 20 11:00
WSJ, today — Intel to Release Neuromorphic-Computing System
Pohoiki Springs, an experimental system to be rolled out this month, mimics the way human brains work to do computations faster with less energy
https://www.wsj.com/articles/intel-to-release-neuromorphic-computing-system-11584540000?mod=searchresults&page=1&pos=1
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 20 мар 20 18:30
Изменено: 20 мар 20 18:31
Амазон:

Sentiment Analysis

The Sentiment Analysis API returns the overall sentiment of a text (Positive, Negative, Neutral, or Mixed).
Example: In this example, a customer is posting his feedback on a pair of shoes. The API identifies the sentiment expressed by the customer along with a confidence score.

Sample Text: I ordered a small and expected it to fit just right but it was a little bit more like a medium-large. It was great quality. It's a lighter brown than pictured but fairly close. Would be ten times better if it was lined with cotton or wool on the inside.
Sentiment Score
Mixed 0.89
Positive 0.09
Negative 0.01
Neutral 0.00
https://aws.amazon.com/comprehend/features/

Зная как активно Амазон использует ярлыки (labels), можно предположить что Амазон вручную аннотирует специфичные слова. При этом все сводится к использованию стандартного словаря, в котором каждому слову противопоставляется некое специфическое словарное определение, с совершенно однозначной эмоциональной нагрузкой в данном контексте. И вуаля! слово получает эмоциональную окраску.
[Ответ][Цитата]
Ilya Geller
Сообщений: 3372
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 26 апр 20 16:48
Без понимания смысла слов нет и быть не может ИИ.
[Ответ][Цитата]
 Стр.4 (5)1  2  3  [4]  5<< < Пред. | След. > >>