Автор: Slava Не фиксировал, но со многими обсуждали такое Нужны большие базы данных, каких нет, и хоть ориентировочное решение проблемы понимания, чего тоже пока нигде нет. Но к этому потихоньку идет. А без этого, думаю, ничего серьезного тне тполучится |
|
ну как это нет решения проблемы понимания? сознание все понимает. Человек учится поэтому. Понятно что нельзя в этом смысле взять и заставить машину быть сознательной. А ориентировочное решение есть. все же посмотрите
http://www.paulmckevitt.com/phd/mathesis.pdf - целая диссертация - решение этой проблемы и готовая программа (плюс другие аналогичные). на английском правда
"Нужны большие базы данных, каких нет, "
частично согласен. Взять словарь одного языка - там будет несколько тысяч слов - если словарь базовый. А так - сто тысяч слов или больше. А если считать сочетания слов. Но это другое. Это теория вероятности - сколько получится разных текстов из одних и тех же слов языка. Но это тоже ни к чему. вобщем есть уже готовые тексты. По ним можно просто снять фильмы. А можно и это упростить. Снимать фильм - это ведь не просто тоже ходить с камерой и все записывать. Нужно найти этих актеров, нужно чтобы они делали что нужно по сценарию. Ну и также нужны разные сцены где будут все события происходить. Ведь вручную вырезать персонажей с каждого кадра и ставить другую картинку в фон например - это очень не рационально. А так в програмее - можно - и актера смоделировать, и фон. Но это вопрос конечно визуализации... как я понимаю в играх этот вопрос решается - там же есть свой язык ИИ - для движений виртуальных существ. То о чем говорится здесь - "Вице-президент «Базелевс» Сергей Кузьмин рассказывает о проекте своей компании «Киноязык» " это что то аналогичное.
кто нибудь знает бесплатные обработчики текстов для ЛИСП? ну или для других языков программирования? обработчики в смысле - взятьпредложение, разобрать по словам - какая часть речи (сопоставить со словарем) - part-of-speech tagging
http://en.wikipedia.org/wiki/Part-of-speech_taggingконечно вики дает список -
http://www-nlp.stanford.edu/links/statnlp.html#Taggersно я виду только
Original Xerox Tagger
A common lisp HMM tagger available by ftp.
ftp://parcftp.xerox.com/pub/tagger/и
Penn XTAG project
A wide-coverage tree-adjoining grammar written in a mixture of C and Common Lisp. Also includes a large coverage morphological analyzer. Now includes more tools such as TCL/Tk tree viewer.
http://www.cis.upenn.edu/~xtag/и это только одна часть - поставить теги для слов. и я не уверено что они используют тот же диалект ЛИСПа. И какие у них лицензии? платно или нет? коммерческие или нет?
можно ли использовать их исходник - у себя? пусть даже в открытой программе с указанием ссылки на них?
вот правда даже есть что-то для русского -
TreeTagger
A decision tree based tagger from the University of Stuttgart (Helmut Scmid). It's language independent, but comes complete with parameter files for English, German, Italian, Dutch, French, Old French, Spanish, Bulgarian, and Russian. (Linux, Sparc-Solaris, Windows, and Mac OS X versions. Binary distribution only.) Page has links to sites where you can run it online.
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.htmlи есть корпусы текстов размеченнЫе -
European Corpus Initiative Multilingual Corpus I (ECI/MCI)
A 98 million word corpus, covering most of the major European languages, as well as Turkish, Japanese, Russian, Chinese, and Malay. Cheap. Need to sign a license agreement available at either the WWW site. Also available from the LDC.
http://www.elsnet.org/resources/eciCorpus.htmlэто - за € 50.00 евро
Russian
Russian National Corpus
150 million words, 5 million words POS-tagged, some in dependency treebank.
http://ruscorpora.ru/en/ Library of Russian Internet Libraries
Various literary works.
http://www.orc.ru/~patrikey/liblib/enauth.htmвобщем здесь таки да еще есть вопросы
http://ru.wikipedia.org/wiki/Категория:Обработка_естественного_языка
но в этом ведь тоже можно разобраться?