Мнение об использовании голосового управления в MajorDoMo, а также разборка массива микрофонов из PlayStation Eye.
Очень часто задаваемый вопрос на форуме и в чате Telegram - как прикрутить голосовое управление к MajorDoMo?
Лично я в своем УД управление голосом в повседневном режиме практически не использую. Пара раз в качестве теста или wow-эффекта для гостей не в счет. Но, видимо, уже настало время подстроиться под современные тренды, поэтому начинаю постепенно погружаться в эту тему.
В MajorDoMo уже есть как минимум три способа управления голосом:
В принципе все они вполне могут использоваться на практике. Но в то же время имеют ряд недостатков, которые ограничивают возможности их практического применения.
Основой любого голосового управления является правильное преобразование речи в текст (распознавание, speech to text - STT), которое в свою очередь напрямую зависит от качества аудио записи, полученной с микрофона. Соответственно можно сделать вывод, что все упирается в качество микрофона. Использовать для этих целей встроенный микрофон, usb-микрофон и т.п. одноканальные микрофоны - тупиковый вариант. Перспективный и, имхо, единственно верный вариант - это применять массив микрофонов с последующей цифровой обработкой сигнала с помощью специализированного сигнального процессора (DSP). Именно такой подход применяется в коммерческих продуктах таких, как Amazon Echo (Alexa) и Google Home (Ok, Google).
Массив микрофонов (4 и более микрофона) совместно с DSP обеспечивают шумоподавление, эхоподавление, АРУ, бимформинг, определение направления на источник звука.
Для любителей DIY на рынке есть несколько KIT-решений для самостоятельной сборки аналогов Amazon Echo и Google Home:
Хороший сравнительный обзор и тестирование этих микрофонных массивов приведены в Benchmarking Microphone Arrays.
Помимо специализированных массивов в тестировании также участвовала usb-камера от Sony PlayStation 3 - PlayStation Eye. Данная камера имеет на борту микрофонный массив из 4-х микрофонов (4х16-bits/channel, 48kHz, SNR 90db) и по результатам тестирования показала на удивление хорошие результаты, несмотря на то, что в ней отсутствует специализированный DSP. Поэтому для начала остановился именно на ней.
В настоящий момент PlayStation Eye официально не продается, но ее вполне можно найти на барахолках, avito, в ломбардах. Мне удалось купить ее за 600 р. в местном клубе любителей PlayStation.
P.S. Пользователем форума immortal разрабатывается шилд голосового ассистента, подробности о котором можно узнать в чате Telegram