GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.1 (2)След. > >>   Поиск:  
 Автор Тема: Доступный Морфологический словарь (словарь словоформ)
гость
213.87.80.*
Доступный Морфологический словарь (словарь словоформ)
Добавлено: 01 фев 09 17:06
Предлагаю скачать морфологический словарь (словарь словоформ) по очень доступной цене в удобном и популярном формате MS Access. Содержит более 5 миллионов словоформ и 170 тысяч лексем. Очень полезен при разработке программного обеспечения по компьютерной лингвистике и искусственному интеллекту.

здесь

Приятного использования!
[Ответ][Цитата]
гость
83.149.19.*
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 01 фев 09 17:44
Предлагать базу в Access за разумную цену И за какое время идет поиск необходимой словоформы? На текст в 10 слов сколько секунд необходимо? Стоит ли это того, чтобы тащить с программой базу в 765МБ, когда стеммер с аналогичными возможностями и скоростью работы в 30000 слов в секунду весит всего 2МБ. Изучайте матчасть - Дэн Гасфилд "Строки, деревья, последовательности в алгоритмах", стеммер
[Ответ][Цитата]

Сообщений: 768
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 01 фев 09 18:16
Понятно теперь зачем открыли этот проект, денег сильно хочется...
сделайте что то стоящее, тогда и просите.
А в том виде, как предлагаете вы, это "развод"
... перебьетесь без денег
[Ответ][Цитата]
shuklin
Сообщений: 2053
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 01 фев 09 22:36
Цитата:
Автор: гость
Приятного использования!

Еще один с открытыми исходниками под лицензией MSPL (т.е. совершенно бесплатно ) здесь http://www.codeplex.com/Morphology БД кстати близка к нормальной форме. При надобности конвертнуть в РБД больших трудов не составит.
[Ответ][Цитата]
shuklin
Сообщений: 2053
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 01 фев 09 22:48
Цитата:
Автор: гость
тащить с программой базу в 765МБ

да, СУБД на основе реляционной модели данных "рулят" по сравнению с СУБД на основе сетевой модели данных ))))))))
[Ответ][Цитата]

Сообщений: 768
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 02 фев 09 22:43
Цитата:
Автор: shuklin
Еще один с открытыми исходниками под лицензией MSPL (т.е. совершенно бесплатно ) здесь http://www.codeplex.com/Morphology БД кстати близка к нормальной форме. При надобности конвертнуть в РБД больших трудов не составит.

У меня к вам вопрос, а как практически переконвертировать в РБД ваш объектный формат?
... и как так получилось что ваша база, учитывая что вы ставите акценты на ее функциональные(и иследовательские) возможности, на ПОРЯДОК меньше аналогичной базе в MSACCESS это что разница в объектном и реляционном подходе?
... и еще насчет конвертации, если я переконвертирую ваш Церебрум в ACCESS у меня что в результате получится, опять сотни мегабайт?
[Ответ][Цитата]
Sergey
Сообщений: 26
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 03 фев 09 0:38
Здравствуйте mascon!
Вы спрашиваете:
Цитата:
Автор: mascon
У меня к вам вопрос, а как практически переконвертировать в РБД ваш объектный формат?

Для этого нужно сделать экспорт данных в текстовое представление. Как это сделать описано в документации. В результате получится 4-е текстовых файла: ZlAttributes.csv, ZlSpecifiers.csv, ZlTransforms.csv, ZlStatements.ini. Фактически это и есть таблицы для РБД. При конвертировании нашего формата в РБД дополнительно потребуется нормализовать отношение многие ко многим между ZlAttributes.csv и ZlSpecifiers.csv.
[Ответ][Цитата]
shuklin
Сообщений: 2053
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 03 фев 09 16:53
Mascon, Здравствуйте!

C обсуждаемой системой я тоже знаком, поэтому добавлю и от себя.

Цитата:
Автор: mascon

... и как так получилось что ваша база, учитывая что вы ставите акценты на ее функциональные(и иследовательские) возможности, на ПОРЯДОК меньше аналогичной базе в MSACCESS это что разница в объектном и реляционном подходе?
... и еще насчет конвертации, если я переконвертирую ваш Церебрум в ACCESS у меня что в результате получится, опять сотни мегабайт?


При обсуждении нужно разделять задачи, связанные с анализом и обработкой собственно исходных данных морфологии как объектов исследования хранимых в БД морфологии, а так же применение этих данных в генеративной и распознающей грамматике. Генеративная и распознающая грамматики строятся уже на основе условно идеальных исходных данных морфологии. Морфологические данные, представленные в виде универсальной БД имеют собственную ценность т.к. позволяют выполнять различные операции анализа и обработки данных морфологии. Обработка морфологических данных в отрыве от их использования в практических задачах интересна для исследования, подготовки, отладки и оптимизации БД морфологии как объекта исследования. Для такой БД требуется представить данные в схеме удобной для оперативной обработки. Генеративная грамматика предназначена для порождения всех корректных словоформ вместе со своими грамматическими характеристиками. Порождение может выполняться по одной словарной статье либо по всему корпусу языка. Распознающая грамматика предназначена для обработки текстов, т.е. нахождения для заданной словоформы той словарной статьи, к которой принадлежит данная словоформа и грамматических характеристик заданной словоформы. При реализации генеративной грамматики индексы для быстрого поиска словоформ не нужны, т.к. при генерации всех возможных словоформ будет необходимо перебрать все корректные комбинации приставок и окончаний слова, т.е. провести полный перебор всех данных.
Если при конвертации в РБД Вы сохраните общую концепцию схемы БД морфологии и ограничитесь только хранением данных в нормализованной форме, или же воспользуетесь схемой РБД морфологии применяемой в АОТ, то размер БД для РСУБД даже уменьшится по сравнению с текущей БД на основе Cerebrum. Это связанно со следующими эффектами: 1. Текущая реализация морфологии хранит в БД не только непосредственно данные для генеративной грамматики, а и индексы для распознающей грамматики. Перенос в РБД только данных, достаточных для генеративной грамматики сократит БД за счет индексов. Исключение индексов из БД уменьшит и размер текущей БД морфологии для ООСУБЗ Cerebrum; 2. Если не ставить задачу реализовать распознающую грамматику, то текущую схему данных легко привести к нормальным формам, требуемым для хранения в РБД, это было сделано специально для облегчения потенциальной возможности решения задачи переноса БД морфологии из ООСУБЗ Cerebrum на другие СУБД. 3. Текущая реализация хранилища данных в ООСУБЗ Cerebrum не оптимизировалась для компактного хранения узлов. РСУБД предназначены для хранения отношений в табличном виде. Такое представление данных позволяет более плотно размещать отдельные записи рядом друг с другом без служебных промежутков между порциями данных. Cerebrum предназначен для хранения узлов с нерегулярной и заведомо неизвестной внутренней структурой. Если рассматривать задачу хранения данных с заранее известной и регулярной структурой, то текущая реализация ООСУБЗ Cerebrum проигрывает текущим реализациям РСУБД. Окончательная нормализация схемы данных позволит представить все данные в виде таблиц и расположить все записи максимально плотно друг к другу, что должно привести к дальнейшему сокращению объема файла БД при использовании РСУБД. Границу возможной оптимизации размера БД легко оценить по размерам исходных текстов БД морфологии, предоставляемых AOT.ru В текстовом виде данные занимают чуть более 5 мегабайт, в сжатом виде чуть более 1 мегабайта. Следовательно, не избыточный формат представления данных будет требовать около 1 М . За такой формат придется заплатить. Данные в таком формате будет неудобно подготавливать и отлаживать. Например, АОТ для подготовки БД морфологии применяет не текстовое представление, а хорошо нормализованную РБД, схема которой описана у них на сайте. Мало вероятно, что по нормализованной БД удастся быстро выполнять операции поиска.

Другим интересным вопросом может быть: «как удалось при: - хранении данных не в специализированном формате, а в СУБД общего назначения; - в СУБД с дополнительными накладными расходами на реализацию сетевой модели данных; - с хранением данных и индексов в одном файле БД; добиться более чем 10 кратного превосходства по сравнению с реализацией той же задачи на основе РСУБД ?»

За счет того, что индексы распознающей грамматики и записи таблиц, образующие генеративную грамматику, представляют собой одни и те же фрагменты семантической нейронной сети. Данные не дублируются. Например, приставка (по) во всех словах, начинающихся с этой приставки и в модели словоизменения приставок - везде представлена одним и тем же фрагментом СНС. Без учета слоя рецепторов, сама приставка образуется двумя нейронами и в каждом вхождении этой приставки в некоторую нейронную структуру представлена там в виде одного нейрона, т.е. при каждом использовании этой приставки в слове или модели экономится один узел нейронной сети. Несмотря на то, что один нейрон соответствует одному символу, но сам требует для своего хранения гораздо больше места, чем 1 байт, организация индекса на основе семантической нейронной сети упаковывает данные и дает некоторую экономию размера файла БД при сохранении возможностей оперативной обработки морфологических данных, поиска словоформы и динамической генерации словоформ по модели морфологии.
[Ответ][Цитата]
гость
93.72.122.*
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 15 фев 09 17:31
Здравствуйте, я тоже интересуюсь данной тематикой, но у меня есть проблема.

Я пытался на Windows XP извлечь эти 4 файла, не получилось извлечь только
ZlStatements.ini, даже после работы в несколько часов, во время работы даже не видно,
что этот файл появляется и растет в размерах, а потом программа выдает,
что файлы экпортированы, но этого файла там нет, хотя просматривать таблицу в
программе можно. Можете мне помочь в данной проблеме, или выложить где-то этот файл?

С уважением, Сергей
[Ответ][Цитата]
Sergey
Сообщений: 26
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 16 фев 09 0:54
Здравствуйте Сергей!
На http://www.codeplex.com/Morphology в релизе опубликовал примеры экспорта данных.
database-sources.zip - это архив с файлами ZlAttributes.csv, ZlSpecifiers.csv, ZlTransforms.csv и ZlStatements.ini.
all-word-forms.zip - это полный список слов, который генерируется программой на основе базы данных морфологии.
[Ответ][Цитата]
гость
77.222.142.*
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 16 фев 09 14:52
Спасибо. Очень благодарен!
[Ответ][Цитата]
гость
88.215.147.*
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 20 фев 09 12:43
Цитата:
Автор: Sergey
Здравствуйте Сергей!
На http://www.codeplex.com/Morphology в релизе опубликовал примеры экспорта данных.
database-sources.zip - это архив с файлами ZlAttributes.csv, ZlSpecifiers.csv, ZlTransforms.csv и ZlStatements.ini.
all-word-forms.zip - это полный список слов, который генерируется программой на основе базы данных морфологии.

Спасибо, весма полезно!
особенно понравися текстовый файл из архива all-word-forms.zip
72 метра текста, это хороший повод проверить свои навыки по работе обработке текста... :-)
одно немного недопонял, есть сомнения насчет чистоты словарной базы
естественно в ручную я ее не просматривал, но заинтересовался, что это за слова в которы за 30 буков...
к примеру:
спецнефтеэнергомонтажавтоматика
спецнефтеэнергомонтажавтоматике
спецнефтеэнергомонтажавтоматике
спецнефтеэнергомонтажавтоматики
спецнефтеэнергомонтажавтоматико
спецнефтеэнергомонтажавтоматико
спецнефтеэнергомонтажавтоматику
средневолжсксельэлектросетьстро
средневолжсксельэлектросетьстро
средневолжсксельэлектросетьстро
средневолжсксельэлектросетьстро
средневолжсксельэлектросетьстро
средневолжсксельэлектросетьстро
ставропольскагропроммехмонтажам
ставропольскагропроммехмонтажам
ставропольскагропроммехмонтажах
ставропольскагропроммехмонтажей
ставропольскагропроммехмонтажем
ставропольскагропроммехмонтажов
ставропольскагропроммехмонтажом
старопохвистневоагропромтрансам
старопохвистневоагропромтрансам
старопохвистневоагропромтрансах
старопохвистневоагропромтрансов
старопохвистневоагропромтрансом
20421,875
[Ответ][Цитата]
Sergey
Сообщений: 26
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 26 фев 09 21:47
Здравствуйте!
В файле all-word-forms.zip есть повторения слов. Это связано с тем, что существуют слова, которые полностью совпадают по написанию, но у них разные наборы атрибутов.
По поводу чистоты словарной базы могу сказать лишь то, что всю базу перепроверить вручную просто нереально. Для этого нужна уйма человекочасов. База собиралась из разных источников, о которых написано в документации. Поэтому ошибки неисключены. У тех слов, которые Вы опубликовали в этом посте есть обрезанные окончания, но в базе слова находятся с нормальными окончаниями.
Длинные слова это еще не самое страшное. Например у слова "крокировать" больше 130 различных форм.
[Ответ][Цитата]
гость
88.215.147.*
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 26 фев 09 23:28
да все так, но смысл не в том. Возможно базу хорошобы было структурировать разбив словарь на подмножества к которым можно обращаться по надобности, вариантов разбивки и надобностей, много, вопрос в принципе есть ли в этом смысл?
[Ответ][Цитата]
Sergey
Сообщений: 26
На: Доступный Морфологический словарь (словарь словоформ)
Добавлено: 27 фев 09 0:37
Думаю это Вам решать. Всё зависит от поставленной задачи. Технически это сделать не так уж сложно. В проекте Cerebrum.Vocabulary.Library есть класс Cerebrum.Vocabulary.Library.Transform. Он предоставляет АПИ для доступа к базе. В нём можно дописать функции, которые будут выбирать из базы нужное подмножество слов.
Что касается текстового представления, то слова уже разбиты по группам в ини файле.
[Ответ][Цитата]
 Стр.1 (2): [1]  2След. > >>