Применение частотного маскирования при MFCC-параметризации речи на фоне шумов

К. К. Томчук

doi:10.15217/issn1684-8853.2016.3.8

Томчук К. К. Санкт-Петербургский государственный университет аэрокосмического приборостроения

DOI:

https://doi.org/10.15217/issn1684-8853.2016.3.8

Аннотация

Цель: при параметризации речевых сигналов широко применяются мел-частотные кепстральные коэффициенты (MFCC), однако эффективность их использования резко падает при появлении в сигнале шумовой составляющей. Ставится задача модификации традиционного алгоритма вычисления MFCC-коэффициентов, осуществляемой путем введения дополнительных преобразований сигнала, учитывающих механизмы речеобразования и речевосприятия. Результаты: предложено использовать психоакустическую модель, позволяющую учитывать в расчете MFCC-коэффициентов эффект частотного маскирования при восприятии звуков человеком. Дополнительно, учитывая механизм образования в спектре речевого сигнала формантных областей, предложено воздействовать на спектральные отсчеты, соответствующие кратным гармоникам основного тона. Модифицированный алгоритм исследован на базе системы распознавания одиночных слов, адаптированной под параметризацию речевого сигнала только MFCC-коэффициентами. Показан положительный эффект от использования в алгоритме параметризации предложенных дополнительных преобразований речевого сигнала. Практическая значимость: представленный в работе подход к вычислению MFCC-коэффициентов сегмента речевого сигнала позволяет повысить эффективность их применения при наличии фоновых шумов в широком круге речевых приложений.

Обработка информации и управление

Применение частотного маскирования при MFCC-параметризации речи на фоне шумов

DOI:

Аннотация

Опубликован

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Мы в сети