Автор: гость есть большие корпуса тектов (литературных) - какие проблемы по формальным признакам вырезать из них диалоги?? |
|
И щас в теме выскочит Эгг - насчёт парсинга
Топикстартеру: а вообще-то, я на форуме уже упоминал идею 2007г от Yoshua Bengio - гуглить словосочетание baby ai project.
Там всё генерировалось автоматически. Вернее, автоматически генерировались картинки и наборы вопросов-ответов насчёт того, что же изображено на картинке (вопросов на тему указать количество объектов, цвет какого-то объекта, размер, положение,.. - и правильных ответов на эти вопросы).