Распознавание голоса целевого спикера

Нейросетевая модель на основе сверточных нейронных сетей, которая позволяет выделять речь целевого спикера в потоке и подавлять речь других людей.

Задачи

Для системы голосового общения в условиях зашумленности (Cocktail Party Challenge - когда одновременно слышно речь множества людей) на основе образца речи:

обеспечить выделение речи целевого спикера;
удалить шумы;
удалить постороннюю речь;
воспроизвести SOTA шумоочистку без выделения целевого спикера.

Решение

В ходе работы были проведены эксперименты на следующих моделях: модель end-to-end шумоочистки со встроенным распознаванием целевого спикера. В качестве основы использовались DEMUCS, во внутренние слои которого мы подавали эмбеддинги речи целевого спикера. модель personalized voice activity detection - для выделения фрагментов (10-80 миллисекунд) речи, где присутствует речь целевого спикера. SOTA шумоочистка без выделения целевого спикера - нам не удалось добиться результатов, сопоставимых с опубликованными и достигнутыми нашим заказчиком (делали мы около 3 месяцев, заказчик решал задачу несколько лет).

Для исследования использовались два вида данных: Публичные датасеты (LibriSpeech, VoxCeleb2, и другие) - общий объем данных превышал 1 Тб, по части экспериментов делалась предобработка датасетов (конвертация, аугментация), которая длилась больше 10 часов на nvme SSD диске Небольшие датасеты от заказчика (использовались для тестирования)

В ходе проекта было проведено более 100 экспериментов с различными параметрами моделей и процесса обучения. Были периоды, когда мы по несколько дней и недель непрерывно обучали на 3 машинах модели с различными параметрами.

Этап 1 (Phase 2) (21.10.20 – 28.02.21): PVAD: near-field EER < 5%, far-field EER < 10%; Denoiser: найти данные, найти модели, обучить.

Этап 2 (Phase 3) (01.03.19 – 30.04.21): PVAD: Улучшение на тесте конечного заказчика (Delivery test) Denoiser: сделать как у SOTA (18 dB)

Этап 3 (Demo preparation) (01.05.21 – 30.09.21): PVAD: Исправление демки на телефоне Denoiser: cancelled

Спецификация

Заказчик

Имя заказчика защищено соглашением о неразглашении

Сфера применения

системы конференц-связи, шумоподавление

Технологии и алгоритмы

Обработка звука, Machine Learning