УДК 004.912

РУССКОЯЗЫЧНЫЙ КОРПУС ТЕКСТОВ SCTM-RU ДЛЯ ПОСТРОЕНИЯ ТЕМАТИЧЕСКИХ МОДЕЛЕЙ

С.Н. Карпович

Аннотация


В статье рассматривается задача создания русскоязычного специального корпуса текстов для тестирования алгоритмов вероятностного тематического моделирования. В качестве наполнения корпуса предлагается использовать статьи международного новостного сайта «Русские Викиновости», распространяемого по свободной лицензии CC BY 2.5. Описан этап предварительной обработки и разметки корпуса текстов. Предложена разметка корпуса текстов, содержащая только необходимую в алгоритмах тематического моделирования информацию.

 


Ключевые слова


корпус текстов; обработка текста на естественном языке; тематическое моделирование; русский язык

Полный текст:

PDF

Литература


  1. Papadimitriou C.H., Raghavan P., Tamaki H., Vempala S. Latent semantic indexing: A probabilistic analysis. 1998.
  2. Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
  3. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003.
  4. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // In Proceedings of Frontiers of Computer Science in China. 2010. pp. 280–301.
  5. Сайт Национального корпуса русского языка НКРЯ. URL: www.ruscorpora.ru. (дата обращения: 12.01.2015).
  6. Захаров В.П. Международные стандарты в области корпусной лингвистики // // Структурная и прикладная лингвистика. 2012. № 9. С. 201–221.
  7. Крижановский А.А., Смирнов А.В. Подход к автоматизированному построению общецелевой лексической онтологии на основе данных викисловаря // Известия РАН. Теория и системы управления. 2013. № 2. С. 53–63.
  8. Смирнов А.В., Круглов В.М., Крижановский А.А., Луговая Н.Б., Карпов А.А., Кипяткова И.С. Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. 2012. Вып. 23. С. 231–253.
  9. Грановский Д.В., Бочаров В.В., Бичинева С.В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург. 2010 г. СПб. 2010. 94 с.
  10. Сайт Открытого корпуса. URL: opencorpora.org (дата обращения: 10.01.2015).
  11. Small corpus of Associated Press. URL: www.cs.princeton.edu/~blei/lda-c/ (дата обращения: 06.01.2015).
  12. The New York Times Annotated Corpus. URL: catalog.ldc.upenn.edu/LDC2008T19 (дата обращения: 14.01.2015).
  13. The 20 Newsgroups data set. URL: qwone.com/~jason/20Newsgroups/ (дата обращения: 24.01.2015).
  14. Reuters Corpora. URL: trec.nist.gov/data/reuters/reuters.html (дата обращения: 24.01.2015).
  15. Reuters-21578 Text Categorization Collection Data Set. URL: archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection (дата обращения: 24.01.2015).
  16. Виноградова В.Б., Кукушкина О.В., Поликарпов А.А., Савчук С.О.. Компьютерный корпус текстов русских газет конца 20-го века: создание, категоризация, автоматизированный анализ языковых особенностей // "Русский язык: исторические судьбы и современность" Международный конгресс русистов-исследователей. Труды и материалы. М.: Изд-во Моск. ун-та. 2001. С. 114–115.
  17. Компьютерный корпус текстов русских газет конца XX-ого века. URL: www.philol.msu.ru/~lex/corpus/corp_descr.html (дата обращения: 24.01.2015)
  18. Венцов А.В., Грудева Е.В. О корпусе русского литературного языка (narusco.ru) // Русская Лингвистика. 2009. Том 33. № 2. С. 195–209.
  19. Корпус русского литературного языка. URL: www.narusco.ru (дата обращения: 24.01.2015).
  20. Хельсинкский аннотированный корпус русских текстов ХАНКО. URL: www.helsinki.fi/venaja/russian/e-material/hanco/index.htm (дата обращения: 24.01.2015).
  21. Официальный сайт программы морфологического анализа текстов на русском языке MyStem. URL: api.yandex.ru/mystem/ (дата обращения: 12.12.2014).
  22. Xu S., Shi Q., Qiao X., et al. Author-Topic over Time (AToT): a dynamic users’ interest model, in Mobile, Ubiquitous, and Intelligent Computing // Springer. Berlin. 2014. pp. 239–245.
  23. Ramage D., Hall D., Nallapati R., Manning C.D. Labeled LDA. A supervised topic model for credit attribution in multi-labeled corpora // In Empirical Methods in Natural Language Processing. 2009. pp. 248–256.
  24. Wang X., McCallum A. Topics over Time: A Non-Markov Continuous Time Model of Topical Trends // In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Philadelphia. USA. 2006.
  25. Gruber A., Rosen-Zvi M., Weiss Y. Hidden Topic Markov Models. In: Proceedings of Artificial Intelligence and Statistics (AISTATS) // San Juan. Puerto Rico. USA. 2007.
  26. Захаров В.П., Азарова И.В.. Параметризация специальных корпусов текстов // Структурная и прикладная лингвистика: Межвузовский сборник. СПб: СПбГУ. 2012. Вып. 9. С. 176–184.


Сергей Николаевич Карпович - аспирант, руководитель отдела поисковой оптимизации, ООО "Рамблер Интернет Холдинг".
Область научных интересов: тематическое моделирование, обработка текстов на естественном языке, кластеризация, классификация, обработка данных, машинное обучение.
Число научных публикаций: 1.

Адрес (E-mail): cims@yandex.ru
Почтовый адрес: 117105, Москва, Варшавское ш., 9, стр. 1, БЦ «Даниловская мануфактура», корпус «Ряды Солдатенкова»
URL: http://www.cims.ru/
Телефон: +7 495 785 17 00




DOI: http://dx.doi.org/10.15622/sp.39.8

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 License.