УДК 004.5

ОБУЧЕНИЕ ПРОСОДИЧЕСКОЙ МОДЕЛИ ПО ДАННЫМ В НЕЙРОСЕТЕВОМ СИНТЕЗЕ РЕЧИ

М. Сечуйски, С. Острогонац, С. Сузич, Д. Пекар

Аннотация


Естественность — один из важнейших аспектов синтезированной речи. Современ-ные параметрические синтезаторы речи требуют обучения на большом количестве аннотированных речевых данных, чтобы иметь возможность передавать просоди-ческие элементы, такие как тоническое ударение и фразовый граничный тон. Наиболее часто используемый инструментарий для просодической аннотации речи в американском английском языке — Индексы Тонов и Просодических швов — ToBI, которые также были адаптированы для использования на других языках. В настоящей статье представлены некоторые недостатки ToBI в синтезе речи на аме-риканском английском языке, которые связаны с отсутствием тегов, специально предназначенных для обозначения различий в уровне просодии (акцента), связан-ной с конкретной частью предложения. В данном исследовании предлагается вве-дение набора тегов, предназначенных для точного моделирования степени просо-дии, а именно определенная составляющая предложения может быть особо под-черкнута, если она является намеченным фокусом высказывания или ее роль пре-уменьшена, как это обычно бывает с фразами, сообщающими о прямой речи или комментариями.
С помощью нескольких аудирований было продемонстрировано, что изучение просодической модели на основе данных имеет определенные преимущества пе-ред подходами, пытающимися использовать существующие теги ToBI для переда-чи степени акцента в синтезированной речи: речь, синтезированная нейронной сетью, обученной на данных с тегами уровня просодии, представляется более естественной, и слушатели могут с большим успехом отыскать просодическую составляющую предложения.

Ключевые слова


американский английский; просодическая модель; синтез речи; ToBI

Полный текст:

PDF (English)

Литература


  1. Dall R., Yamagishi J., King S. Rating Naturalness in Speech Synthesis: The Effect of Style and Expectation // Proceedings of Speech Prosody. 2014. 5 p.
  2. King S., Karaiskos V. The Blizzard Challenge 2016 // Blizzard Challenge Workshop. 2016. 17 p.
  3. King S., Wihlborg L., Guo W. The Blizzard Challenge 2017 // Blizzard Challenge Workshop. 2017. 17 p.
  4. Tatham M., Morton K. Developments in Speech Synthesis // John Wiley & Sons. 2005. 280 p.
  5. Sluijter A. et al. Evaluation of speech synthesis systems for Dutch in telecommunication applications // Proceedings of the 3rd ESCA/COCOSDA Workshop (ETRW) on Speech Synthesis. 1998. 6 p.
  6. Berg M. Modelling of Natural Dialogues in the Context of Speech-based Information and Control Systems // PhD Thesis. University of Kiel. 2014. 250 p.
  7. Trouvain J. Laughing, Breathing, Clicking - The Prosody of Nonverbal Vocalisations // Proceedings of Speech Prosody. 2014. pp. 598–602.
  8. Dall R. et al. Investigating Automatic & Human Filled Pause Insertion for Speech Synthesis // Proceedings of the Annual Conference of the ISCA. 2014. 5 p.
  9. Székely É., Mendelson J., Gustafson J. Synthesising Uncertainty: The Interplay of Vocal Effort and Hesitation Disfluencies // 18th Annual Conference of the International Speech Communication Association (INTERSPEECH 2017). 2017. vol. 2017. pp. 804–808.
  10. Beckman M.E. Stress and Non-Stress Accent // Foris Publications. 1986. 241 p.
  11. Silverman K. et al. ToBI: A standard for labeling English prosody // Proceedings of the 2nd International Conference on Spoken Language Processing. 1992. 4 p.
  12. Beckman M.E., Hirschberg J., Shattuck-Hufnagel S. The original ToBI system and the evolution of the ToBI framework // Prosodic typology: The phonology of intonation and phrasing. 2006. 37 p.
  13. Black A.W., Hunt A.J. Generating F0 contours from ToBI labels using linear regression // Proceedings of ICSLP. 1996. 4 p.
  14. Wightman C.W. ToBI or not ToBI // Proceedings of the International Conference on Speech Prosody 2002. 2002. 5 p.
  15. Syrdal A., Hirschberg J., McGory J., Beckman M. Automatic ToBI Prediction and Alignment to Speed Manual Labeling of Prosody // Speech communication. 2001. vol. 33. no. 1-2. pp. 135–151.
  16. Syrdal A., McGorg J. Inter-Transcriber Reliability of ToBI Prosodic Labeling // Proceedings of the International Conference on Spoken Language Processing (ICSLP). 2000. 4 p.
  17. Niemann H. et al. Prosodic processing and its use in Verbmobil // 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP-97). 1997. vol. 1. pp. 75–78.
  18. Pierrehumbert J., Hirschberg J.B. The meaning of intonational contours in the interpretation of discourse // Intentions in communication. 1990. pp. 271–311.
  19. Hamza W. et al. The IBM Expressive Speech Synthesis System // Proceedings of the Eighth International Conference on Spoken Language Processing (ISCLP). 2004. 4 p.
  20. Ze H., Senior A., Schuster M. Statistical parametric speech synthesis using deep neural networks // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. pp. 7962–7966.
  21. Delić T., Sečujski M., Suzić S. A review of Serbian parametric speech synthesis based on deep neural networks // Telfor Journal. 2017. vol. 9. no. 1. pp. 32–37.
  22. Wu Z., Watts O., King S. Merlin: An Open Source Neural Network Speech Synthe¬sis System // Proceedings of the 9th ISCA Speech Synthesis Workshop. 2016. 6 p.
  23. Seide F., Agarwal A. Cntk: Microsoft's open-source deep-learning toolkit // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. pp. 2135–2135.
  24. Morise M., Yokomori F., Ozawa K. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications // IEICE Transactions on Information and Systems. 2016. vol. 99. no. 7. pp. 1877–1884.
  25. Tokuda K. et al. Speech parameter generation algorithms for HMM-based speech synthesis // Proceedings of the 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'00). 2000. vol. 3. pp. 1315–1318.
  26. Gođevac S. Transcribing Serbo-Croatian Intonation // Prosodic Typology: The Phono¬logy of Intonation and Phrasing. 2005. 26 p.


Милан Сечуйски - к-т техн. наук, доцент, заведующий лабораторией акустики и речи факультета технических наук, Нови-Садский университет.
Область научных интересов: обработка цифровых сигналов, синтез речи, обработка естественного языка, диалоговая система, моделирование интонаций, разработка речевых и языковых ресурсов, машинное обучение, нейронные сети.
Число научных публикаций: 160.

Адрес (E-mail): secujski@uns.ac.rs
Почтовый адрес: Трг Доситейа Обрадовича, 6, 21000, Нови Сад, Сербия
Телефон: +381-21-485-2533


Стеван Острогонац - старший научный сотрудник, AlfaNum – Speech Technologies Ltd, разработчик программного обеспечения, AlfaNum – Speech Technologies Ltd.
Область научных интересов: синтез речи, автоматическое распознавание речи, обработка естественного языка, диалоговая система, разработка речевых и языковых ресурсов, машинное обучение, нейронные сети.
Число научных публикаций: 18.

Адрес (E-mail): ostrogonac.stevan@alfanum.co.rs
Почтовый адрес: бул. Войводе Степе, 40, 21000, Нови Сад, Сербия
Телефон: +381-64-845-5302


Синиша Сузич - научный сотрудник лаборатории акустики и речи факультета технических наук, Нови-Садский университет.
Область научных интересов: синтез выразительной речи, обработка цифровых сигналов, диалоговая система, машинное обучение, глубокие нейронные сети.
Число научных публикаций: 19.

Адрес (E-mail): sinisa.suzic@uns.ac.rs
Почтовый адрес: Трг Доситейа Обрадовича, 6, 21000, Нови Сад, Сербия
Телефон: +381-21-485-2521


Дарко Пекар - младший научный сотрудник департамента энергетики, электроники и телекоммуникационного инжиниринга факультета технических наук, Нови-Садский университет, главный исполнительный директор, AlfaNum Speech Technologies.
Область научных интересов: человеко-машинное взаимодействие, распознавание и синтез речи, идентификация диктора, морфинг речи, статистический анализ, искусственный интеллект.
Число научных публикаций: 100.

Адрес (E-mail): darko.pekar@alfanum.co.rs
Почтовый адрес: бул. Войводе Степе, 40, 21000, Нови Сад, Сербия
Телефон: +381-21-485-2521




DOI: http://dx.doi.org/10.15622/sp.59.8