Русскоязычный корпус текстов SCTM-ru для построения тематических моделей
Ключевые слова:
корпус текстов, обработка текста на естественном языке, тематическое моделирование, русский языкАннотация
В статье рассматривается задача создания русскоязычного специального корпуса текстов для тестирования алгоритмов вероятностного тематического моделирования. В качестве наполнения корпуса предлагается использовать статьи международного новостного сайта «Русские Викиновости», распространяемого по свободной лицензии CC BY 2.5. Описан этап предварительной обработки и разметки корпуса текстов. Предложена разметка корпуса текстов, содержащая только необходимую в алгоритмах тематического моделирования информацию.
Литература
Papadimitriou C.H., Raghavan P., Tamaki H., Vempala S. Latent semantic indexing: A probabilistic analysis. 1998.
Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003.
Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // In Proceedings of Frontiers of Computer Science in China. 2010. pp. 280–301.
Сайт Национального корпуса русского языка НКРЯ. URL: www.ruscorpora.ru. (дата обращения: 12.01.2015).
Захаров В.П. Международные стандарты в области корпусной лингвистики // // Структурная и прикладная лингвистика. 2012. № 9. С. 201–221.
Крижановский А.А., Смирнов А.В. Подход к автоматизированному построению общецелевой лексической онтологии на основе данных викисловаря // Известия РАН. Теория и системы управления. 2013. № 2. С. 53–63.
Смирнов А.В., Круглов В.М., Крижановский А.А., Луговая Н.Б., Карпов А.А., Кипяткова И.С. Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. 2012. Вып. 23. С. 231–253.
Грановский Д.В., Бочаров В.В., Бичинева С.В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург. 2010 г. СПб. 2010. 94 с.
Сайт Открытого корпуса. URL: opencorpora.org (дата обращения: 10.01.2015).
Small corpus of Associated Press. URL: www.cs.princeton.edu/~blei/lda-c/ (дата обращения: 06.01.2015).
The New York Times Annotated Corpus. URL: catalog.ldc.upenn.edu/LDC2008T19 (дата обращения: 14.01.2015).
The 20 Newsgroups data set. URL: qwone.com/~jason/20Newsgroups/ (дата обращения: 24.01.2015).
Reuters Corpora. URL: trec.nist.gov/data/reuters/reuters.html (дата обращения: 24.01.2015).
Reuters-21578 Text Categorization Collection Data Set. URL: archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection (дата обращения: 24.01.2015).
Виноградова В.Б., Кукушкина О.В., Поликарпов А.А., Савчук С.О.. Компьютерный корпус текстов русских газет конца 20-го века: создание, категоризация, автоматизированный анализ языковых особенностей // "Русский язык: исторические судьбы и современность" Международный конгресс русистов-исследователей. Труды и материалы. М.: Изд-во Моск. ун-та. 2001. С. 114–115.
Компьютерный корпус текстов русских газет конца XX-ого века. URL: www.philol.msu.ru/~lex/corpus/corp_descr.html (дата обращения: 24.01.2015)
Венцов А.В., Грудева Е.В. О корпусе русского литературного языка (narusco.ru) // Русская Лингвистика. 2009. Том 33. № 2. С. 195–209.
Корпус русского литературного языка. URL: www.narusco.ru (дата обращения: 24.01.2015).
Хельсинкский аннотированный корпус русских текстов ХАНКО. URL: www.helsinki.fi/venaja/russian/e-material/hanco/index.htm (дата обращения: 24.01.2015).
Официальный сайт программы морфологического анализа текстов на русском языке MyStem. URL: api.yandex.ru/mystem/ (дата обращения: 12.12.2014).
Xu S., Shi Q., Qiao X., et al. Author-Topic over Time (AToT): a dynamic users’ interest model, in Mobile, Ubiquitous, and Intelligent Computing // Springer. Berlin. 2014. pp. 239–245.
Ramage D., Hall D., Nallapati R., Manning C.D. Labeled LDA. A supervised topic model for credit attribution in multi-labeled corpora // In Empirical Methods in Natural Language Processing. 2009. pp. 248–256.
Wang X., McCallum A. Topics over Time: A Non-Markov Continuous Time Model of Topical Trends // In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Philadelphia. USA. 2006.
Gruber A., Rosen-Zvi M., Weiss Y. Hidden Topic Markov Models. In: Proceedings of Artificial Intelligence and Statistics (AISTATS) // San Juan. Puerto Rico. USA. 2007.
Захаров В.П., Азарова И.В.. Параметризация специальных корпусов текстов // Структурная и прикладная лингвистика: Межвузовский сборник. СПб: СПбГУ. 2012. Вып. 9. С. 176–184.