 Автор Тема: IBM
Ilya Geller
Сообщений: 5277
Добавлено: 20 янв 20 13:55
Изменено: 20 янв 20 13:55
Phrase rules only work on a sentence scope, and it will check all tokens/annotations in the analysis. Aggregate rules are more flexible/powerful; i) you can set the scope to be the sentence, the paragraph or the whole document; ii) they only see annotations (coming from dictionaries, parsing rules..), and will skip over other tokens or punctuation.

– Phrase rules: Rules that use textual patterns using custom dictionary entries and different parts-of-speech, in addition to some previously created annotations. The scope of these rules is sentence boundary.
– Aggregate rules. The scope of these rules is not limited with sentence or paragraph boundaries. They are more powerful and have a larger cover than the Phrase rules.

Create parsing rules - FTP Directory Listing - IBM
Ilya Geller
Сообщений: 5277
Добавлено: 20 янв 20 17:54
Watson Explorer Content Analytics provides a number of UIMA annotators for advanced text analysis.

When documents are processed through the document processing pipeline, the annotators extract concepts, words, phrases, classifications, and named entities from unstructured content and mark these extractions as annotations. The annotations are added to the index as tokens or facets and are used as the source for content analysis. Some annotators support user-defined dictionaries, user-defined rules, and custom configurations.

When configuring the document processing pipeline for a collection, an administrator selects the annotators to be used. Some of the key functions the annotators support include:

Populating the common analysis structure to a relational database with specific text analysis results.
Capturing special words of interest as the subject of text analytics.
Capturing patterns of words as the subject of text analytics.
Capturing named entities, such as persons, places, and organization names.
Categorizing documents.
Fundamental text analytics, such as parsing content to identify sentence ranges, lemmas of words, and parts of speech.
Multilingual text analytics capabilities. The results of analytics can vary based on the language of the input document.
Ilya Geller
Сообщений: 5277
Добавлено: 20 янв 20 18:07
Я бы рекомендовал России не ждать пока закончат создание словаря и базы данных, которая заместит Русский Интернет. Будут проблемы.
Ilya Geller
Сообщений: 5277
Добавлено: 21 янв 20 12:49
Изменено: 22 янв 20 8:23
A core technique used to help machines reason, known as argument mining, involves building software to analyze written documents and extract key sentences that provide evidence for or against a given claim.
To train their AI, lead researcher Noam Slonim and his colleagues at IBM Research in Haifa, Israel, drew on 400 million documents taken from the LexisNexis database of newspaper and journal articles. This gave them some 10 billion sentences, a natural-language corpus around 50 times larger than Wikipedia.
As well as helping us make better decisions, such tools could be used to catch fake news—undermining dodgy claims and backing up factual ones—or to filter online search results, returning relevant statements rather than whole documents.

Как видите IBM готово к cозданию базы данных и вытеснению Интернета - to filter online search results.
Ilya Geller
Сообщений: 5277
Добавлено: 22 янв 20 9:22
IBM, как видите, тоже выбрало Wikipedia как энциклопедию. Действительно, словарь делать долго, это ручная работа.
Ilya Geller
Сообщений: 5277
Добавлено: 22 янв 20 10:29
IBM предельно близко к запуску первого коммерческого ИИ. Осталось бувально ничего, по мелочи доделать.
Ilya Geller
Сообщений: 5277
Добавлено: 22 янв 20 15:41
Изменено: 22 янв 20 15:48
Как тяжело боротся с такими гигантами как IBM! Не пускают, не дают публиковатся, не дают найти инвестиций. Тормозят ИИ-технологию всеми способами, только не убили пока.

In the dataset “Thematic Clustering of Sentences” sentences are annotated for their thematic clusters. This annotation enables to evaluate thematic clustering methods. The dataset was generated automatically by leveraging the partition of Wikipedia articles into sections. The underlying assumption of its creation was that the section structure of a Wikipedia article can serve as ground truth for the thematic clustering of its sentences.

It should be noted, that in certain embodiments, the dictionary used may be an encyclopedia, in which case each paragraph would not be a definition for the noun, and in which case the Definition Paragraph would include all, or several, of the paragraphs in the definition.
United States Patent 8,447,789

IBM в течении многих лет, совершенно осознанно, отказываeтся использовать словарь и получать синонимичные кластеры. Это ведь приведёт к разрушению абсолютно всей IT индустрии США, потери лидерства США в компьютерных технологиях и контроля надо всем миром. В частности над Россией.

Слив ИИ-технологию в России я заставил местных блядей и педиков начать суетится. Теперь мяч на половине Русских, им решать как оно будет.
Ilya Geller
Сообщений: 5277
Добавлено: 22 янв 20 15:54
Небоскрёбы, небоскрёбы, а я маленький такой...
Ilya Geller v the US.
Сообщений: 1944
Добавлено: 22 янв 20 16:44
Автор: Ilya Geller
IBM, как видите, тоже выбрало Wikipedia как энциклопедию. Действительно, словарь делать долго, это ручная работа.

Если словарь, это ручная работа, а с момента Вашего открытия прошло пятнадцать лет,
то у Вас на руках готовый словарь?
Ilya Geller
Сообщений: 5277
Добавлено: 22 янв 20 17:02

IBM просто отказывается использовать Merriam и Oxford словари, где мотивация к тому имеет чисто политический характер. IBM, в частности, теряет свой бизнес на DB2 SQL базах данных и свой бизнес на суперкомпьютерах. Посмотрите как быстренько IBM смогла придушить Гугл, который использовал мою ИИ-суперпозицию и ИИ-индексацию, для своего якобы "квантового" компа?
Никто в Америке не хочет создания Искусственного Интеллекта. Им всем ИИ нафик не нужен, поскольку разоряет их дотла.
Ilya Geller
Сообщений: 5277
Добавлено: 22 янв 20 17:49
Думаю IBM могла себе позволить потратить 2 * $20 и купить оба словаря, но вот уже 10 лет как-то не покупает. Почему?
- IBM Watson осуществляет текстуальный поиск в НЕструктурированных данных, где каждая запись обретает уникальность будучи аннотирована текстом; например уникальным словарным определением.
- В DB2 (SQL) базах данных поиск осуществляется в уже структурированных данных, где уникальность записи посредством уникальных строк-и-колонок-таблиц.
Значит, все DB2 становится никому не нужным при наличии IBM Watson, поскольку IBM Watson может заместить их.
Но в случае замещения DB2 США теряют контроль за доброй частью мира, которая использует DB2. Поэтому IBM решило одновременно иметь и IBM Watson, и DB2; что есть чистая политика.
Ilya Geller
Сообщений: 5277
Добавлено: 12 фев 20 17:59
В IBM наконец увидели свет в конце тоннеля:

The use of external knowledge helps the model to be robust and improves prediction accuracy, the researchers wrote. They said they found "an absolute improvement of 5-20% over multiple text-based entailment models."
Ilya Geller
Сообщений: 5277
Добавлено: 13 фев 20 4:38
Судя по этому признанию IBM продавало дерьмо, зная что продаёт... Почему? Видимо не хотело терять DB2.
Ilya Geller
Сообщений: 5277
Добавлено: 23 фев 20 9:04
Хотите почитать идиота? Пожалуйста!

M. Tim Jones
Published June 13, 2017
Speaking out loud
An introduction to natural language processing

Посмотрите что он предлагает?
The first step in parsing is to tokenize the sentence—that is, simply breaking down the sentence into its individual parts (or tokens). The tokens that make up my simple sentence are The, other, boy, runs, and the ending period (.). Tokenization yields the complete set of individual words that make up the sentence.

The next step is called stop word removal. The goal of stop word removal is to remove commonly used words in the language to permit focus on the important words in the sentence. There is no single definition of the stop word set, but there are common words that are easily removed.

After removing the stop words, I focus on removing punctuation. Punctuation in this context refers not only to commas and periods but also to the variety of special symbols used (parentheses, apostrophes, quotation marks, exclamation points, and so on).

Now that I’ve cleaned up my sentence, I’ll focus on the process of lemmatization (also called stemming). The goal of lemmatization is to reduce the words to their stem, or root form. For example, walking would be reduced to walk. In some cases, the algorithm changes the word choice to use the correct lemma (for example, changing better to good). In this example, I reduce runs to its root form, run.

The final phase in the parse is called part-of-speech (POS) tagging. In this process, I mark up the words as they correspond to a part of speech based on their context. I identify my remaining word tokens that correspond to a determiner, a noun, and a verb.

Варварство! Пусть он сделает ЭТО для текста и попробует его прочитать? Что он сумеет понять после ЭТОГО?
Ilya Geller
Сообщений: 5277
Добавлено: 23 фев 20 9:14
Я думаю эта статья - провокация, попутка ввести конкурентов и вообще всех в заблуждение. Очевидно что это традиционный, использовавшийся уже как минимум 70 лет подход. Так а какого лешего IBM умудрилось вдруг выиграть Jeopardy! в 2011? Почему не в 1992м? Не 20-30 лет назад?
То есть налицо злостная дезинформация, попытка обмануть. Именно на это клюнул Президент России В.В.Путин, позволив своим Американским партнерам обвести себя вокруг пальца. Теперь Россия заплатит за эту промашку....
