Разработка и исследование статистической модели русского языка
Ключевые слова:
статистическая обработка текста, модель языкаАннотация
В статье описан процесс создания статистической модели русского языка для систем распознавания слитной речи. Дана характеристика собранного текстового корпуса, который сформирован из новостных лент ряда Интернет-сайтов электронных газет, проводится статистический анализ данного корпуса. На основе собранного текстового корпуса созданы униграммная, биграммная и триграммная модели русского языка. Для определения качества этих моделей использованы показатели энтропии и коэффициента неопределенности для этих моделей. Также в статье приведен обзор существующих подходов к созданию статистических моделей языка.Литература
Баглей С.Г., Антонов А.В., Мешков В.С., Суханов А.В. Статистические распределе- ния слов в русскоязычной текстовой коллекции // Материалы междунар. конф. «Диалог 2009». Москва. 2009. С. 13–18.
Горностай Т., Васильев А., Скадиньш Р., Скадиня И. Опыт латышско↔русского машинного перевода // Материалы междунар. конф. «Диалог 2007». Москва. 2007. С. 137–146.
Кипяткова И.С., Карпов А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. 2010. № 4(47). С. 2–8.
Кипяткова И.С., Карпов А.А. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект. 2008. № 4. С. 747–757.
Протасов С.В. Вывод и оценка параметров дальнодействующей триграммной модели языка // Материалы междунар. конф. «Диалог 2008». Москва. 2008. C. 443–449.
Холоденко А.Б. О построении статистических языковых моделей для систем рас- познавания русской речи // Интеллектуальные системы. 2002. Т. 6, вып. 1–4. С. 381–394.
Clarkson P., Rosenfeld R. Statistical language modeling using the CMU-Cambridge toolkit // Proc. of EUROSPEECH. Rhodes. Greece. 1997. P. 2707–2710.
Gelbukh A., Sidorov G. Zipf and Heaps Laws’ Coefficients Depend on Language // Proc. CICLing-2001, Conf. on Intelligent Text Processing and Computational Linguistics. Mexico City. Lecture Notes in Computer Science № 2004. 2001. Springer-Verlag. P. 332–335.
Kurimo M., Hirsimäki T., Turunen V.T., Virpioja S. et al. Unsupervised decomposition of words for speech recognition and retrieval // Proc. of 13th Intern. Conf. SPECOM'2009. St. Petersburg. 2009. P. 23–28.
Merkel A., Klakow D. Improved Methods for Language Model Based Question Classification // Proc. of 8th Interspeech Conf. Antwerpen. 2007. P. 322–325.
Moore G.L. Adaptive Statistical Class-based Language Modelling. PhD thesis. Cambridge University. 2001. 193 p.
Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Prentice Hall, 1995. 507 p.
Vaičiūnas A. Statistical Language Models of Lithuanian and Their Application to Very Large Vocabulary Speech Recognition. Summary of Doctoral Dissertation. Kaunas: Vytautas Magnus University, 2006. 35 p.
Whittaker E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English. PhD thesis. Cambridge University. 2000. 140 p.
Опубликован
Статистика
Просмотры | 187 |
Скачивания | 116 |