УДК 004.5

РАСПОЗНАВАНИЕ ШЕПОТНОЙ РЕЧИ С ИСПОЛЬЗОВАНИЕМ СММ И ЧАСТОТНОГО ПРЕОБРАЗОВАНИЯ ПО Μ-ЗАКОНУ

Й.Н. Галич, С.Т. Йовичич, В.Д. Делич, Б.Р. Маркович, Д.С. Шумарац Павлович, Г.Т. Гроздич

Аннотация


Отсутствие достаточного количества данных шепотной речи для обучения является серьезной проблемой для современных систем автоматического распознавания речи (АРР). Из-за большого акустического различия между обычной и шепотной речью АРР системы значительно снижают производительность при обработке шепота.
В статье приведен анализ подходов к распознаванию нейтральной и шепотной речи на основе традиционных скрытых марковских моделей (СММ) для дикторозависимых (SD) и дикторонезависимых (SI) случаев. Особое внимание уделяется распознаванию шепотной речи с использованием нейтральной речи на этапе обучения (сценарий N/W). Система АРР разработана для распознавания изолированных слов из базы данных (Whi-Spe), включающей пары слов реально произнесенной речи нейтрально и шепотом. В сценарии N/W увеличение надежности достигается с применением предлагаемого частотного преобразования, изначально разработанного для сжатия и декомпрессии речевого сигнала в цифровых телекоммуникационных системах. Вместе с тем сохраняются хорошие показатели в распознавании нейтральной речи.
По сравнению с базовой моделью распознавания с применением Мел-частотных кепстральных коэффициентов (MFCC) точность распознавания слов с использованием кепстральных коэффициентов, полученных с помощью предложенного частотного деформирования (обозначаемого как μFCC), улучшена на 7,36% (SD) и 3,44% (SI) в абсолютных значениях. Кроме того, F-мера (гармоническое среднее значение точности и полноты) для векторов признаков μFCC увеличивается на 6,90% (SD) и 3,59 %(SI). Статистические тесты подтверждают значимость достигнутого улучшения точности распознавания.

Ключевые слова


автоматическое распознавание речи извлечение признаков скрытые марковские модели; человеческий голос; шепот; обработка речи

Полный текст:

PDF (English)

Литература


  1. Zhang C., Hansen J.H.L. Analysis and classification of speech mode: whispered through shouted // Eighth Annual Conference of the International Speech Communication Association. 2007. pp. 2289–2292.
  2. Ito T., Takeda K., Itakura F. Analysis and recognition of whispered speech // Speech Communication. 2005. vol. 45. no. 2. pp. 129–152.
  3. Ghaffarzadegan S., Boril H., Hansen J.H.L. UT-VOCAL EFFORT II: Analysis and constrained-lexicon recognition of whispered speech // 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. pp. 2544–2548.
  4. Marković B., Jovic̆ić S.T., Galić J., Grozdić Đ. Whispered speech database: Design, processing and application // International Conference on Text, Speech and Dialogue. 2013. pp. 591–598.
  5. Lee P.X. et al. A whispered Mandarin corpus for speech technology applications // Fifteenth Annual Conference of the International Speech Communication Association. 2014. pp. 1598–1602.
  6. Kozierski P. et al. Kaldi toolkit in Polish whispery speech recognition // Przeglad Elektrotechniczny. 2016. vol. 92. pp. 301–304.
  7. Fan X., Hansen J.H.L. Speaker identification for whispered speech based on frequency warping and score competition // Ninth Annual Conference of the International Speech Communication Association. 2008. vol. 1. pp. 1313–1316.
  8. Zhang C., Hansen J.H.L. Advancements in whisper-island detection using the linear predictive residual // 2010 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). 2010. pp. 5170–5173.
  9. Zhang C., Hansen J.H.L. Whisper-island detection based on unsupervised segmentation with entropy-based speech feature processing // IEEE Transactions on Audio Speech and Language Processing. 2011. vol. 19. no. 4. pp. 883–894.
  10. Ghaffarzadegan S., Bořil H., Hansen J.H.L. Model and feature based compensation for whispered speech recognition // Fifteenth Annual Conference of the International Speech Communication Association. 2014. pp. 2420–2424.
  11. Ghaffarzadegan S., Bořil H., Hansen J.H.L. Generative modeling of pseudo-whisper for robust whispered speech recognition // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. vol. 24. no. 10. pp. 1705–1720.
  12. Grozdić Đ. et al. Comparison of cepstral normalization techniques in whispered speech recognition // Advances in Electrical and Computer Engineering. 2017. vol. 17. no. 1. pp. 21–26.
  13. Grozdić Đ., Jovičić S.T. Whispered Speech Recognition Using Deep Denoising Autoencoder and Inverse Filtering // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2017. vol. 25. no. 12. pp. 2313–2322.
  14. Marković B., Galić J., Mijić M. Application of Teager Energy Operator on Linear and Mel Scales for Whispered Speech Recognition // Archives of Acoustics. 2018. vol. 43. no. 1. pp. 3–9.
  15. Swerdlin Y., Smith J., Wolfe J. The effect of whisper and creak vocal mechanisms on vocal tract resonances // The Journal of the Acoustical Society of America. 2010. vol. 127. no. 4. pp. 2590–2598.
  16. Tartter V.C. Identifiability of vowels and speakers from whispered syllables // Perception & psychophysics. 1991. vol. 49. no. 4. pp. 365–372.
  17. Fan X., Hansen J.H.L. Speaker identification with whispered speech based on modified LFCC parameters and feature mapping // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009). 2009. pp. 4553–4556.
  18. Hermansky H. Perceptual linear predictive (PLP) analysis of speech // The Journal of the Acoustical Society of America. 1990. vol. 87. no. 4. pp. 1738–1752.
  19. Sklar B. Digital Communications: Fundamentals and Applications: 2nd edition // Prentice-Hall. 1988. 776 p.
  20. Young S. et al. The HTK Book (for HTK Version 3.2). Cambridge University Engineering Department. 2006. 355 p. URL: http://speech.ee.ntu.edu.tw/homework/DSP_HW2-1/htkbook.pdf (accessed: 17.04.2018).
  21. Hermansky H., Morgan N. RASTA processing of speech. IEEE transactions on speech and audio processing. 1994. vol. 2. no. 4. pp. 578–589. URL: https://labrosa.ee.columbia.edu/matlab/rastamat/ (дата обращения: 17.04.2018).
  22. Galić J. et al. Speaker dependent recognition of whispered speech based on MLLR adaptation // Proc. of 11th Conference Digital Speech and Image Processing DOGS. 2017. pp. 29–32.
  23. Marković B. G et al. Recognition of Normal and Whispered Speech Based on RASTA Filtering and DTW Algorithm // Proceedings of the Int. Conf. IcETRAN-2017. 2017. pp. AK1.8.2-4.
  24. Marković B., Jovičić S., Galić J., Grozdić Đ. Recognition of the Multimodal Speech Based on the GFCC features // Proceedings of the Int. Conf. IcETRAN-2015. 2015. pp. AK1 1.3 1-5.
  25. Galić J., Jovičić S., Grozdić Đ., Marković B. HTK-Based Recognition of Whispered Speech // International Conference on Speech and Computer (SPECOM-2014). 2014. pp. 251–258.
  26. Jakovljević N. An application of sparse representation in Gaussian mixture models used in speech recognition task // Ph.D. thesis. University of Novi Sad. 2013.
  27. Fan X., Hansen J.H.L. Speaker identification within whispered speech audio stream // IEEE Transactions on Audio, Speech and Language Processing. 2011. vol. 19. no. 5. pp. 1408–1421.
  28. Zhang E., Zhang Y. F-Measure // Encyclopedia of Database Systems. 2009. pp. 1147.


Йован Недьо Галич - аспирант электротехнического факультета, Белградский университет, ассистент электротехнического факультета, Университет Баня-Лука.
Область научных интересов: обработка речи, шумоочистка речи, робастное автоматическое распознавание речи, сжатие аудоисигнала.
Число научных публикаций: 30.

Адрес (E-mail): jovan.galic@etf.unibl.org
Почтовый адрес: Патре, 5, 78000, Баня-Лука, Республика Сербская, Босния и Герцеговина
URL: http://www.etf.unibl.org
Телефон: +387-51-221-876


Слободан Тома Йовичич - д-р техн. наук, профессор кафедры телекоммуникаций электротехнического факультета, Белградский университет, заведующий лабораторией судебной акустики и фонетики, Центр улучшения жизни (Белград), научный консультант по обработке речевого сигнала и идентификации судебных носителей, Центр улучшения жизни (Белград).
Область научных интересов: речевые коммуникации, человеко-машинные коммуникации, обработка естественного языка, познание и психология речи, улучшение речи, речевые технологии.
Число научных публикаций: 300.

Адрес (E-mail): jovicic@etf.rs
Почтовый адрес: Король Александар Бульвар, 73, 11120, Белград, Сербия
Телефон: +381-11-3218-361


Владо Драгомир Делич - д-р техн. наук, профессор, заведующий кафедрой телекоммуникаций и обработки сигналов департамента энергетики, электроники и телекоммуникационного инжиниринга факультета технических наук, Нови-Садский университет, приглашенный профессор электротехнического факультета, Университет Баня-Лука.
Область научных интересов: речевые технологии, обработка звуковой сигнал.
Число научных публикаций: 300.

Адрес (E-mail): vdelic@uns.ac.rs
Почтовый адрес: Трг Доситейа Обрадовича, 6, 21000, Нови Сад, Сербия
Телефон: +381-21-485-2533


Бранко Раде Маркович - аспирант электротехнического факультета, Белградский университет, преподаватель, Высшая техническая школа Чачак.
Область научных интересов: распознавание речи, мультимодальная речь, распознавание образов, массив микрофонов, Интернет-технологии и сети.
Число научных публикаций: 50.

Адрес (E-mail): branko333@mts.rs
Почтовый адрес: Светог Саве, 65, 32000, Чачак, Сербия
URL: http://www.etf.bg.ac.rs
Телефон: +381-32-322-321


Драгана Станиша Шумарац Павлович - д-р техн. наук, профессор кафедры телекоммуникаций электротехнического факультета, Белградский университет.
Область научных интересов: обработка аудио и речевых сигналов, проектирование акустики помещений и моделирование распространения звука, построение систем управления акустикой и шумом.
Число научных публикаций: 150.

Адрес (E-mail): dsumarac@etf.rs
Почтовый адрес: Король Александар Бульвар, 73, 11120, Белград, Сербия
URL: http://www.etf.bg.ac.rs
Телефон: +381-11-3218-361


Георгий Tомислав Гроздич - д-р техн. наук, разработчик программного обеспечения - специалист по обработке и анализу данных, Fincore Ltd..
Область научных интересов: обработка речевого сигнала, автоматическое распознавание речи, идентификация диктора.
Число научных публикаций: 50.

Адрес (E-mail): djordje.grozdic@fincore.com
Почтовый адрес: Мутапова, 7, 11000, Белград Белград, Сербия
Телефон: +381-62-8081-921




DOI: http://dx.doi.org/10.15622/sp.58.2