Яндекс

Исследователи Яндекса раскрыли принципы работы нейросети для распознавания голосовых команд на фоне шума

30 июля 2025

Исследователи Яндекса опубликовали научную статью с подробным описанием нейросетевой технологии, которая позволяет распознавать голосовые команды даже на фоне шума. Это решение уже применяется в устройствах Яндекса, а теперь его смогут воспроизвести разработчики со всего мира. Статью приняли на крупнейшую международную конференцию по речевым технологиям Interspeech, которая пройдёт в этом году в Нидерландах. На конференции будут представлены также работы Microsoft, Google DeepMind, Google AR и других технологических компаний и научных центров.

Технология, описанная в научной работе,  применяется в умных колонках и ТВ Станциях Яндекса и доказала свою эффективность. Благодаря ей устройства с Алисой улавливают  команды на фоне самых разных шумов: звуков музыки, льющейся воды, вечеринки или стройки за окном. Например, пользователю не нужно выключать пылесос или перекрикивать песню, чтобы быть услышанным. Эта разработка позволит компаниям ускорить создание собственных ассистентов и устройств с голосовым управлением, а также снизить число ложных срабатываний. В свою очередь, пользователи получат продукты с удобным голосовым управлением.  

Обычно в умных устройствах и ассистентах используют алгоритмы эхоподавления, которые помогают распознать голос на фоне музыки. Уменьшить другие фоновые звуки помогают алгоритмы шумоподавления, но они ухудшают и человеческую речь. Для решения этой проблемы Яндекс разработал нейросетевой attention-механизм, который получает на вход сразу два сигнала — с шумоподавлением и эхоподавлением. В каждый момент времени нейросеть выбирает наиболее чёткий сигнал, что и позволяет распознавать команды на фоне самых разных звуков.

Дмитрий Солодуха,
руководитель направления голосовой активации

До сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который был бы одинаково надёжен в лабораторных тестах и в реальных условиях. Многие компании и исследователи сталкиваются с похожими проблемами, но не имеют доступа к промышленным решениям и вынуждены тратить ресурсы на их разработку с нуля. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведёт к появлению большего количества удобных и надёжных голосовых устройств.

Interspeech — крупнейшая ежегодная научная конференция, посвящённая речевым технологиям. Её организует Международная ассоциация по речевой коммуникации (ISCA). В 2025 году конференция пройдёт 17–21 августа в Роттердаме.

Контакты:

Пресс-служба компании «Яндекс»
Татьяна Репина
Тел.: +7 495 739-70-00
Электронная почта: pr@yandex-team.ru

МКПАО «ЯНДЕКС»

Основной офис
119021, Москва, ул. Льва Толстого, 16
Коммерческий отдел
Отдел по связям с инвесторами
Отдел по связям с общественностью
Корпоративный секретарь
Отдел устойчивого развития