Система автоматического распознавания карельской речи

Ирина Сергеевна Кипяткова; Ильдар Амирович Кагиров

doi:10.31799/684-8853-2023-3-16-25

Кипяткова Ирина Сергеевна Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН)
Кагиров Ильдар Амирович Санкт-Петербургский Федеральный исследовательский центр Российской академии наук

DOI:

https://doi.org/10.31799/684-8853-2023-3-16-25

Ключевые слова:

малоресурсные языки, автоматическое распознавание речи, карельский язык, искусственные нейронные сети с временной задержкой

Аннотация

Введение: в последнее время растет число исследований, посвященных автоматической обработке малоресурсных языков. Отсутствие или малый объем обучающих данных является существенным препятствием в развитии речевых технологий для подобных языков. Цель: разработать систему автоматического распознавания речи на карельском языке. Результаты: представлена система автоматического распознавания карельской речи. Обучены акустические модели на основе искусственных нейронных сетей с временными задержками и скрытых марковских моделей. Обучение осуществлялось на речевом корпусе, составленном из записей радиопередач и аудиоданных, полученных путем аугментации. Модель карельского языка обучалась как на письменных текстах, так и на расшифровках обучающей части речевого корпуса. Во время обучения исследовались различные коэффициенты для интерполяции языковой модели, обученной на расшифровках, с моделью языка, обученной на письменных текстах. В ходе экспериментов по распознаванию карельской речи лучший результат по показателю количество неправильно распознанных слов составил 25,81 %, что сопоставимо с общим уровнем распознавания речи для других малоресурсных языков. Собран обучающий набор данных, который включает звукозаписи на карельском языке с расшифровками, а также текстовый корпус. Практическая значимость: полученные решения могут играть роль в создании автоматических систем распознавания не только карельского, но и других малоресурсных языков. Разработанная система поможет исследователям карельского языка, предоставляя эффективный инструмент для записи и обработки карельского языкового материала.

Обработка информации и управление

Система автоматического распознавания карельской речи

DOI:

Ключевые слова:

Аннотация

Опубликован

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Мы в сети