УДК 004

УСОВЕРШЕНСТВОВАНИЕ РАСПОЗНАВАНИЯ СЕРБСКОЙ РЕЧИ С ПОМОЩЬЮ ОБУЧЕННЫХ НА ПОСЛЕДОВАТЕЛЬНОСТЯХ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ

Э. Пакоци, Б. Попович, Д.Й. Пекар

Аннотация


Представлены последние усовершенствования в распознавании сербской речи, достигнутые с использованием современных глубоких нейронных сетей, основанных на применении дискриминативного обучения на последовательностях для акустического моделирования. Описываются несколько вариантов новой системы распознавания слитной речи с большим словарем (LVCSR), которая основанна на обучении по критерию максимальной взаимной информации (LF-MMI) без использования решетки. Параметры системы варьировались таким образом, чтобы достичь наименьших значений ошибки распознавания слов (WER) и ошибки распознавания символов (CER) при использовании самой большой существующей речевой базы данных сербского языка и наилучшей n-граммной языковой модели общего назначения. В дополнение к настройке самой нейронной сети (числа слоев, сложности, объединения элементов слоя и т.д.) для получения наилучших результатов были исследованы и другие ориентированные на конкретный язык способы оптимизации, такие как использование акценто-зависимых моделей гласных фонем и их сочетание с тональными признаками. Также была исследована настройка речевой базы данных, которая включает в себя искусственное расширение базы данных путем изменения скорости речевых высказываний и масштабирование уровня громкости для учета вариативности речи.
Результаты экспериментов показали, что 8-слойная глубокая нейронная сеть с 625 нейронами в каждом слое работает в данных условиях работает лучше других сетей без необходимости увеличения речевой базы данных или регулировки громкости. Кроме того, тональные признаки в сочетании с использованием акценто-зависимых моделей гласных обеспечивают наилучшие показатели точности во всех экспериментах. Ключевые слова: глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI, акценты, основной тон, сербский.

Ключевые слова


глубокая нейронная сеть; автоматическое распознавание речи; обучение на последовательностях; LF-MMI акценты; основной тон; сербский

Полный текст:

PDF (English)

Литература


  1. Popović B., Pakoci E., Ostrogonac S., Pekar D. Large vocabulary continuous speech recognition for Serbian using the Kaldi toolkit // Proceedings of 10th Conference on Digital Speech and Image Processing (DOGS’2014). 2014. pp. 31–34.
  2. Popović B. et al. Deep neural network based continuous speech recognition for Serbian using the Kaldi toolkit // Proceedings of 17th International Conference on Speech and Computing (SPECOM’2015). 2015. LNCS 9319. pp. 186–192.
  3. Pakoci E., Popović B., Pekar D. Language model optimization for a deep neural network based speech recognition system for Serbian // Proceedings of 19th International Conference on Speech and Computing (SPECOM’2017). 2017. LNAI 10458. pp. 483–492.
  4. Povey D., Kuo H-K.J., Soltau H. Fast speaker adaptive training for speech recognition // Proceedings of 9th Annual Conference of the International Speech Communication Association (INTERSPEECH’2008). 2008. pp. 1245–1248.
  5. Povey D., Zhang X., Khudanpur S. Parallel training of DNNs with natural gradient and parameter averaging // Proceedings of 3rd International Conference on Learning Representations Workshop (ICLR’2015). 2015. arXiv:1410.7455. 28 p.
  6. Graves A., Fernández S., Gomez F., Schmidhuber J. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks // Proceedings of 23rd International Conference on Machine Learning (ACM’2006). 2006. pp. 369–376.
  7. Povey D. et al. Purely sequence-trained neural networks for ASR based on lattice-free MMI // Proceedings of 17th Annual Conference of the International Speech Communication Association (INTERSPEECH’2016). 2016. pp. 2751–2755.
  8. Sak H., Senior A., Rao K., Beaufays F. Fast and accurate recurrent neural network acoustic models for speech recognition // Proceedings of 16th Annual Conference of the International Speech Communication Association (INTERSPEECH’2015). 2015. pp. 1468–1472.
  9. Povey D. Discriminative Training for Large Vocabulary Speech Recognition // Ph.D. thesis. Engineering Department. Cambridge University. 2003. 170 p.
  10. Sak H. et al. Learning acoustic frame labeling for speech recognition with recurrent neural networks // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’2015). 2015. pp. 4280–4284.
  11. Povey D. et al. The Kaldi speech recognition toolkit. Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU’2011). 2011. pp. 1–4.
  12. Senior A. et al. Acoustic modelling with CD-CTC-SMBR LSTM RNNs // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2015). 2015. pp. 604–609.
  13. Povey D. et al. Boosted MMI for model and feature-space discriminative training // Proceedings of 33rd International Conference on Acoustics, Speech and Signal Processing (ICASSP’2008). 2008. pp. 4057–4060.
  14. Su H., Li G, Yu D., Seide F. Error back propagation for sequence training of context-dependent deep networks for conversational speech transcription // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’2013). 2013. pp. 6664–6668.
  15. Suzić S., Ostrogonac S., Pakoci E., Bojanić M. Building a Speech Repository for a Serbian LVCSR System // Telfor Journal. 2014. vol. 6. no. 2. pp. 109–114.
  16. Kneser R., Ney H. Improved backing-off for M-gram language modeling // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’1995). 1995. pp. 181–184.
  17. Stolcke A., Zheng J., Wang W., Abrash V. SRILM at sixteen: Update and outlook // Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU’2011). 2011. vol. 5. 5 p.
  18. Bhanuprasad K., Svenson D. Errgrams - a way to improving ASR for highly inflected Dravidian languages // Proceedings of 3rd International Joint Conference on Natural Language Processing (IJCNLP’2008). 2008. pp. 805–810.
  19. Miao Y., Gowayyed M., Metze F. EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2015). 2015. pp. 167–174.
  20. Popović B., Pakoci E., Pekar D. End-to-end large vocabulary speech recognition for the Serbian language // Proceedings of 19th International Conference on Speech and Computing (SPECOM’2017). 2017. LNAI 10458. pp. 343–352.
  21. Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Proceedings of 16th Annual Conference of the International Speech Communication Association (INTERSPEECH’2015). 2015. pp. 2–6.
  22. Sak H., Senior A.W., Beaufays F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling // Proceedings of 16th Annual Conference of the International Speech Communication Association (INTERSPEECH’2015). 2015. pp. 338−342.


Эдвин Пакоци - младший научный сотрудник департамента энергетики, электроники и телекоммуникационного инжиниринга факультета технических наук, Нови-Садский университет.
Область научных интересов: человеко-машинное взаимодействие, распознавание и синтез речи, идентификация диктора, цифровое моделирование, статистический анализ, искусственный интеллект.
Число научных публикаций: 32.

Адрес (E-mail): edvin.pakoci@uns.ac.rs
Почтовый адрес: ул. Трг Доситейа Обрадовича, 6, 21000, Нови Сад, Сербия
Телефон: +381214852521


Бранислав Попович - д-р техн. наук, научный сотрудник департамента энергетики, электроники и телекоммуникационного инжиниринга факультета технических наук, Нови-Садский университет, сотрудник центра виброакустических систем и обработки сигналов (CEVAS) факультета технических наук, Нови-Садский университет, доцент Академии искусств в Белграде, Альфа БК университет, основатель и владелец , Computer Programming Agency Code85.
Область научных интересов: человеко-машинное взаимодействие, распознавание и синтез речи, идентификация диктора, распознавание эмоций, обработка изображений, распознавание образа, алгоритмы кластеризации, цифровое моделирование, статистический анализ, прикладная математика, искусственный интеллект.
Число научных публикаций: 60.

Адрес (E-mail): branislav.popovic.gm@gmail.com
Почтовый адрес: ул. Трг Доситейа Обрадовича, 6, 21000, Нови Сад, Сербия
URL: http://www.branislavpopovic.com
Телефон: +381214852521


Дарко Йован Пекар - младший научный сотрудник департамента энергетики, электроники и телекоммуникационного инжиниринга факультета технических наук, Нови-Садский университет, главный исполнительный директор, AlfaNum Speech Technologies.
Область научных интересов: человеко-машинное взаимодействие, распознавание и синтез речи, идентификация диктора, морфинг речи, статистический анализ, искусственный интеллект.
Число научных публикаций: 100.

Адрес (E-mail): darko.pekar@alfanum.co.rs
Почтовый адрес: ул. Войводе Степе, 40, 21000, Нови Сад, Сербия
Телефон: +381-21-485-2521




DOI: http://dx.doi.org/10.15622/sp.58.3