GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.1 (5)След. > >>   Поиск:  
 Автор Тема: Система и метод создания и улучшения словаря для ИИ.
Ilya Geller
Сообщений: 4883
Система и метод создания и улучшения словаря для ИИ.
Добавлено: 25 дек 19 9:06
Изменено: 25 дек 19 9:06

Я запатентовал систему и метод автоматического создания и улучшения словаря для ИИ: если встречается незнакомое слово то в словарь добавляется параграф, из которого оно пришло. При этом мною запатентовано получение и референции синонимичных кластеров, относящихся к фразе(ам) в которой слово обнаружено. Т.е. слово становится объяснённым огромным количеством синонимичных кластеров, в которых все слова реферируемы к словарным-и-энциклопедическим определениям. Незнакомое слово сразу включается в весь массив словаря.

11. The computer readable medium of claim 10 wherein the following functions are performed during the extraction of the textual definition if none is found in the dictionary:
remove the ending from the noun that is not found in the dictionary;
extract the textual definition from the dictionary for the noun without the ending;
if no definition is found for the noun without the ending, determine the part of speech of the noun without the ending;
treat the paragraph including the noun that is not found in the dictionary as the textual definition of the noun without the ending for the entire textual input.
US8447789B2
United States
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 28 дек 19 16:26
Изменено: 28 дек 19 19:02
Смысл слов определяется пересеченияем множеств фраз параграфа, эти слова содержащего. Чем больше количество участвующих в пересечении таких фраз, тем более очевидным, выпуклым, рельефным становится смысл слов. В этом смысле параграфы словарных определений идеальны для аннотаций, таковые обычно намного превосходят параграфы случайных текстов; поскольку случайные параграфы могут содержать (и обычно содержат) намного меньше фраз раскрывающих истинный смысл слов в их контекстах.
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 28 дек 19 19:01
Кроме того, при структурировании случайных текстов (для последующего аннотирования ими слов) возможно возникновение сильного лексического шума, который делает смысл аннотируемых слов намного менее чётким и размытым. При аннотировании же словарными определениями возможность появления лексического шума сводится к минимуму. (Such lexical noise is typically superfluous predicative definitions that do not explain the central themes contained within the digital textual information and, accordingly, removal of such noise often results in an improvement in the quality of the structured data. United States Patent 8,447,789)
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 05 янв 20 16:46
Изменено: 05 янв 20 17:08
Вся прелесть словаря в том что все слова из него объяснены им же, то есть словарь — это замкнутая система.
А вот случайные тексты, выбранные для аннотации, не являются частью замкнутой системы! Они, их слова объясняются где-то и как-то, но где и как зачастую неизвестно. И в конечном итоге, при аннотации слов случайных текстов, всё равно прийдётся обратиться к словарю. Или энциклопедии.

Так почему сразу не начать со словаря? Зачем тратить время и ресурсы (которые есть деньги) на аннотацию случайными текстами, если всё равно в конечном итоге прийдётся прийти к словарю.
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 19 янв 20 1:54
To complete our probing tasks, we built WIKI-PSE, a Wikipedia-based resource for probing semantics in word embeddings. Wikipedia is suitable for our purposes since it contains nouns–both proper and common–disambiguated and linked to Wikipedia pages via anchor links. To find more abstract meanings than Wikipedia pages, we annotate the nouns with semantic classes. Semantic classes act as proxies for meanings. For example, “lamb” has the meanings “food” and “living thing.” WIKI-PSE has around 80,000 such words annotated with 34 semantic classes.

Vectors are trained based on the context that words appear in.

https://www.microsoft.com/en-us/research/blog/analyzing-ambiguity-and-word-embeddings-by-probing-semantic-classes/

Как видите Майкрософт использует Вики как словарь.
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 19 янв 20 17:31
Лучше всё-таки использовать энциклопедию в параллель со словарём, поскольку нет никакой уверенности что определения Вики образуют замкнутую систему; в том смысле что все слова Вики уникально определенны и истолкованы ею же самой.

Хотя я и сказал что энциклопедия, такая как Вики, может использоваться самостоятельно:
It should be noted, that in certain embodiments, the dictionary used may be an encyclopedia, in which case each paragraph would not be a definition for the noun, and in which case the Definition Paragraph would include all, or several, of the paragraphs in the definition.
United States Patent 8,447,789
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 24 янв 20 8:32
IBM приступило к использованию словаря для аннотаций.
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 07 фев 20 15:40
Гугл создаёт словарь:
The questions were collected from people who wanted an answer but who didn’t yet know the answer, so as to head off original questions that contained the same words as the answer. To inspire questions, the researchers showed contributors a passage from Wikipedia written in their native language. They then had them ask a question — any question — as long as it wasn’t answered by the passage and they actually wanted to know the answer. (i.e., “Does a passage about ice make you think about popsicles in summer? Great! Ask who invented popsicles.”) Importantly, the questions were written directly in each language, not translated, such that many questions were unlike those seen in an English-first corpus. (E.g., সফেদা ফল খেতে কেমন?, or “What does sapodilla taste like?”)
https://venturebeat.com/2020/02/06/google-releases-tydi-qa-a-data-set-that-aims-to-capture-the-uniqueness-of-languages/
То есть Гугл привлекает инструкторов для создания словаря. Помогая им Гугл предлагает использовать определения из Вики:
For each of the questions, the researchers performed a Google Search for the best-matching Wikipedia article in the appropriate language and asked a person to find and highlight the answer within that article.
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 13 фев 20 4:32
Использование случайного контекста, из которого пришло слово, как определене слова — не работает, поскольку нет никакой уверенности что в данном контексте слово употреблено правильно, т.е. именно в том смысле в котором оно значимо и которое близко к словарному определению. Потом контекст слова может быть весьма нечёток, не передавать его смысл в силу субъективности его создавшего.

Вероятно это и есть причина почему мне удалось заставить упрямцев из IBM обратить внимание на “external knowledge”. Кажется ранее IBM Watson не использовал словарь как внешний источник знания о смысле слова...
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 13 фев 20 9:34
The use of external knowledge helps the model to be robust and improves prediction accuracy, the researchers wrote. They said they found "an absolute improvement of 5-20% over multiple text-based entailment models."
https://www.techrepublic.com/article/ibm-highlights-new-approach-to-infuse-knowledge-into-nlp-models/

Это IBM конечно лжёт, видимо не хочет привлекать внимания и создавать ажиотажа. На самом деле аннотирование слов фраз — единственный способ сделать компьютер Искусственным Интеллектом.
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 17 фев 20 4:10
Контекст используется OpenAI (и другими компаниями) для того чтобы определить что слово
1) значит
2) и как оно используется.
Значит контекст используется как
1) замена словарному определению,
2) и описание как слово используется.
Контекстов огромное количество и они все непохожи один на другой,
1) что приводит к большому количеству словарных определений, при этом неизвестно какого качества,
2) и не менее немалому количеству примеров как слов используется.

Теперь посмотрите на словарь?
1) любое слово имеет четкое определение (несколько определений), написаных профессионалами,
2) обычно даётся пример (несколько примеров) как слов используется.
Словарь может быть легко структурирован, то есть ИИ-разобран на фразы:
— алгоритм довольно прост,
— подавляющее большинство слов имеют синонимы, которые позволяют аннотировать определения слов,
— все слова определения имеют свои определения, которые формируют аннотации на слова определений.
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 17 фев 20 12:57
Изменено: 17 фев 20 13:06
И самый главный аргумент! Слова в словаре имеют синонимы! А где синонимы для случайно найденых текстов-контекстов? Нет их.
Значит случайные контексты не могут быть использованы — в принципе! — как определения слов.
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 17 фев 20 13:18
Цель структурирования текстов в получении синонимичных кластеров, совершенно необходимых при поиске информации. А как возможно создать эти кластеры не зная синонимы, то есть не используя словарь?
[Ответ][Цитата]
Ilya Geller
Сообщений: 4883
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 17 фев 20 14:14
Изменено: 17 фев 20 14:17
Используемые, к примеру, Майкрософтом, Гуглом и OpenAI контексты, как определения слов, не имеют синонимов. Что делает невозможным создание синонимичных кластеров и, следовательно, поиск информации.
Например есть параграф:
-- Иван и Марфа весело смеются, она любит это. Улыбка — прекрасно!
После ИИ-разбора появляется набор осмысленных фраз:
- и Иван весело смеётся 0.0625
- и Марфа весело смеётся 0.625
- она любит смеятся 0.125
- Марфа любит смеятся 0.125
- она любит это 0.125
- Марфа любит это 0.125
- это любимо ею 0.25
- это любимо Марфой 0.25
- смех любим ею 0.125
- улыбка есть любима 0.25
- улыбка есть прекрасно 0.25
Здесь есть несколько синонимичных кластерам. Один из них:
- улыбка есть любима 0.25
- улыбка есть прекрасно 0.25
Очевидно что без использования синонимов этот кластер не может быть сформирован и фраза «улыбка есть любима 0.25» появится не может. Однако используя контексты, как определения слов, Майкрософт-Гугел-OpenAI теряют эту фразу, поскольку у контекстов нет синонимов. И, значит, при поиске информации они теряют совпадения фраз и не находят нужного.
То есть доверять тому что продают, используя контексты как определения слов, нельзя!
[Ответ][Цитата]
mss
Сообщений: 2659
На: Система и метод создания и улучшения словаря для ИИ.
Добавлено: 17 фев 20 15:00
Изменено: 20 фев 20 9:48
.
[Ответ][Цитата]
 Стр.1 (5): [1]  2  3  4  5След. > >>