|
Kek Сообщений: 1133 |
|
|
На: Как создать искусственный интеллект. Руководство к действию.
Добавлено: 12 фев 12 15:09
|
Автор: covax А без БПФ слабо? Спрашиваю от того, что все недостатки БПФ известны и он принципиально не пригоден для работы с потоком реального времени. |
|
Слабо. Поинтересуйтесь стронием уха. Но однако замечу. Использование только БПФ ни к чему не приведет интересному. Кроме БПФ необходимо анализировать интегральную огибающую речевого сигнала. Именно это делает внешнее ухо. И анализировать ее надо непременно в совокупности с поведением основных гармоник. И важен не сам факт значеня амплитуды гармоники, а поведение гармоники во времени, т.е огибающая гармоники. И так мы имеем: временную реализацию огибающей речевого сигнала + временную реализацию каждой гармоники. Вся эта информация в совокупности может быть необходима и достаточна для рапсознавания только фонем. Пока никакого смысла. После распознавания фонем включются нейронные алгоритмы и методы скрытых Марковских цепей.
|
|
|
Kek Сообщений: 1133 |
|
| |
Kek Сообщений: 1133 |
|
| |
NO. Сообщений: 10700 |
|
| |
|
На: Как создать искусственный интеллект. Руководство к действию.
Добавлено: 12 фев 12 17:11
|
Автор: Kek Slava, я конечно не копал так глубоко. Если у вас есть конкретные ссылки, буду признателен. |
|
Вообще-то, это лишь частично моя проблема, так что конкретные ссылки мне будет дать сложно. Но вы спокойно и сами сможете поискать, близкое вам по духу в работах тех времен по вокодерам и распознаванию речи. Сходу вот так я могу вспомнить лишь Цемеля, Пирогова и Чистович. Думаю, что все это и сопутствующее есть только на бумаге, хотя может и повезти. По ссылкам у них можно увидеть и других тоже. Могу проводить вас в нашу библиотеку, но сам этого сделать не смогу, так как у меня пылевая аллергия. Поспрашиваю у коллег, кто еще в теме
|
|
|
| |
| |
Kek Сообщений: 1133 |
|
|
На: Как создать искусственный интеллект. Руководство к действию.
Добавлено: 12 фев 12 17:42
|
Автор: Victor G. Tsaregorodtsev Так вроде же недавно на форуме пробегала ссылка на арксивовский препринт по убыстрению БПФ? |
|
Честно говоря не очень понимаю в чем проблема БПФ. Оно что не такое быстрое? В моей проге массив из 1000 значений раскладывается на 256 гармоник за 16 милисекунд. Частота дискретизации 20000 гц, значение 16 бит.
|
|
|
|
На: Как создать искусственный интеллект. Руководство к действию.
Добавлено: 12 фев 12 18:00
|
Автор: Victor G. Tsaregorodtsev
Так вроде же недавно на форуме пробегала ссылка на арксивовский препринт по убыстрению БПФ? |
|
Видимо пропустил. И поиск ничего не дал. Но вопрос в том, используется ли более быстрый и точный, не БПФ, алгоритм для распознавания? И почему нет?
|
|
|
| |
|
На: Как создать искусственный интеллект. Руководство к действию.
Добавлено: 12 фев 12 19:08
|
Автор: Kek
Честно говоря не очень понимаю в чем проблема БПФ. Оно что не такое быстрое? В моей проге массив из 1000 значений раскладывается на 256 гармоник за 16 милисекунд. Частота дискретизации 20000 гц, значение 16 бит. |
|
Ну, во первых, БПФ - для периодических функций, именно поэтому у него появляются краевые эффекты искажения спектра . Во вторых, вам придётся брать интервалы не по 1000 значений через 1000, а по несколько тысяч (чтобы захватить НЧ) и причём на каждый тик (чтобы захватить ВЧ). Можно оценить скорости, хотя бы, по вашим результатам. Для 20КГц у вас будет уходить по 16мс на тик (для ваших 1000 отсчётов). А каждый тик у нас 1/20000 = 50мкс. То есть, по самым грубым подсчётам, вы уже выбились из реального времени на три порядка. А при хорошем приближении вы отстанете на 5 порядков и более. 2Slava: Спасибо. Почитаем
|
|
|
|
На: Как создать искусственный интеллект. Руководство к действию.
Добавлено: 12 фев 12 19:30
|
Автор: covax
Ну, во первых, БПФ - для периодических функций, именно поэтому у него появляются краевые эффекты искажения спектра . |
|
С чего вы решили, что именно для периодических? Любая фильтрация даст краевые эффекты. Автор: covax А каждый тик у нас 1/20000 = 50мкс. То есть, по самым грубым подсчётам, вы уже выбились из реального времени на три порядка. А при хорошем приближении вы отстанете на 5 порядков и более.
|
|
На самом деле, для практических целей хватит и 1мс. А если частота дискретизации 11025, то можно и 5мс. Проверено опытным путем. 2Кек Если прочитаете хотя-бы вводный курс психоакустики той-же Алдошиной, то можем пообщаться на тему речи, но в отдельной ветке, без флера ИИ.
|
|
|
Kek Сообщений: 1133 |
|
|
На: Как создать искусственный интеллект. Руководство к действию.
Добавлено: 12 фев 12 19:51
|
Автор: covax Во вторых, вам придётся брать интервалы не по 1000 значений через 1000, а по несколько тысяч (чтобы захватить НЧ)
|
|
Это ясно. Для измерений это так, а для речи, которая лежит в области 400 - 4000 гц. вполне себе достаточно. Наибольшая чувствительность именно в этой области.
|
|
|
Kek Сообщений: 1133 |
|
| |
| |
|