УДК 004.912

ПОДХОД К ПРОВЕДЕНИЮ КЛАССИФИКАЦИИ ТЕКСТОВ НА ОСНОВАНИИ ВОЗРАСТНЫХ ГРУПП ИХ АДРЕСАТОВ

А.В. Глазкова

Аннотация


В статье рассматривается новый подход к выполнению классификации текстов, учитывающий наличие различных типов классификационных признаков (бинарных, номинальных, порядковых и интервальных).
Особенность представленного подхода состоит в поэтапном проведении классификации, которое дает возможность не приводить разнотипные признаки, характеризующие текст, к единому диапазону. Также в статье предлагается набор классификационных признаков для проведения классификации русскоязычных текстов на основании их предполагаемой возрастной аудитории.
В работе описывается вычислительный эксперимент с использованием текстов, включенных в Национальный корпус русского языка. Выборка включает в себя заведомо качественные и максимально разнообразные тексты, написанные на русском языке. Документы, входящие в состав рассматриваемой выборки, разделены в соответствии с мнениями экспертов-лингвистов на две категории — взрослые и детские. Таким образом, для обучения и тестирования использовались тексты, размеченные экспертами.
В статье приведены значения точности классификации текстов, полученные в результате проведения серии экспериментов по автоматическому определению возрастных категорий адресатов текста (для кого написан текст — для детей или для взрослых).

Ключевые слова


извлечение информации; классификация текстов; обработка естественного языка; признаки текста

Полный текст:

PDF

Литература


  1. Усталов Д.А., Гольдштейн М.Л. Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка // Вестник ЮФУ. Математическое моделирование и программирование. 2012. №27. С. 119-127.
  2. Рубцова Ю.В. Разработка и исследование предметно независимого классификатора текстов по тональности // Труды СПИИРАН. 2014. №5. С. 59-77.
  3. Тутубалина Е.В. Совместная вероятностная тематическая модель для идентификации проблемных высказываний, связанных нарушением функциональности продуктов // Труды ИСП РАН. 2015. №4. С. 111-128.
  4. Астраханцев Н.А., Федоренко Д.Г., Турдаков Д.Ю. Методы автоматического извлечения терминов из коллекции текстов предметной области // Программирование. 2015. №6. С. 33-52.
  5. Карпович С.Н. Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI // Труды СПИИРАН. 2016. №4. С. 92-104.
  6. Шумская А.О. Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам // Труды СПИИРАН. 2016. №6. С. 104-121.
  7. Shriberg E., Stolcke A., Ravuri S.V. Addressee detection for dialog systems using temporal and spectral dimensions of speaking style // Proceedings of Interspeech. 2013. pp. 2559-2563.
  8. Ravuri S.V., Stolcke A. Neural Network Models for Lexical Addressee Detection // Proceedings of Interspeech. 2014. pp. 298-302.
  9. Jovanovic N., op den Akker H. Towards automatic addressee identification in multi-party dialogues // Proceedings of the 5th SIGdial Workshop on Discourse and Dialogue. 2004. pp. 89-92.
  10. Lee H., Stolcke A., Shriberg E. Using out-of-domain data for lexical addressee detection in human-human-computer dialog // Proceedings of North American ACL Human Language Technology Conference. 2013. pp. 215-219.
  11. Santosh K., Shekhar M., Varma V. Author Profiling: Predicting Age and Gender from Blogs // CLEF 2013 evaluation labs and workshop. 2013. pp. 23-26.
  12. Pentel A. Effect of different feature types on age based classification of short texts // 6th International Conference on Information, Intelligence, Systems and Applications (IISA). 2015. pp. 1-7.
  13. Pentel A. Automatic Age Detection Using Text Readability Features // CEUR Workshop Proceedings. 2015. pp. 40-45.
  14. Lorge I. Predicting readability // Teachers college record. 1944. №45. pp. 404-419.
  15. Федеральный закон Российской Федерации от 29 декабря 2010 г. № 436-ФЗ «О защите детей от информации, причиняющей вред их здоровью и развитию». URL: http://www.consultant.ru/document/cons_doc_LAW_108808 (дата обращения: 11.02.2016).
  16. «База данных метатекстовой разметки Национального корпуса русского языка» (коллекция детской литературы)». 2014.
  17. Национальный корпус русского языка. URL: http:// ruscorpora.ru (дата обращения 26.01.2016).
  18. Ахапкина Я.Э. и др. Проблемы функциональной грамматики. Принцип естественной классификации // М.: Языки славянской культуры. 2013. 507 с.
  19. Jurafsky D., Martin J.H. Speech and Language Processing (2nd Edition) // Upper Saddle River, New Jersey: Prentice Hall. 2009. 975 p.
  20. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности // М.: Финансы и статистика. 1989. 607 c.
  21. Шокин Ю.И., Федотов А.М., Барахнин В.Б. Проблемы поиска информации // Новосибирск: Наука. 2010. 220 с.
  22. Кафтанников И.Л., Парасич А.В. Проблемы формирования обучающей выборки в задачах машинного обучения // Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника. 2016. Т. 16. №3. С. 15-24.
  23. Canavet O., Fleuret F. Efficient sample mining for object detection // Proceedings of the Asian Conference on Machine Learning (ACML). 2014. pp. 48-63.
  24. Введенская Л.А., Кашаева Е.Ю., Павлова Л.Г. Русский язык и культура речи. Учебное пособие для вузов для бакалавров и магистрантов / Под ред. С.А. Осташова // М.: Феникс. 2016. 539 с.
  25. Глазкова А.В. Интеллектуальная система автоматического определения категории потенциальных адресатов текста // Программные продукты и системы. 2016. №3. С. 85–89.
  26. Глазкова А.В. Расчёт оценки степени близости категорий текстов при решении задач классификации электронных документов. А.с. 6164622015, 2015.


Анна Валерьевна Глазкова - к-т техн. наук, ассистент кафедры программного обеспечения института математики и компьютерных наук, Тюменский государственный университет (ТюмГУ).
Область научных интересов: обработка естественного языка, машинное обучение, нейронные сети, классификация текстов, прикладная лингвистика.
Число научных публикаций: 18.

Адрес (E-mail): anna_glazkova@yahoo.com
Почтовый адрес: ул. Перекопская, 15а, каб. 210, Тюмень, 625003
Телефон: +79091826371
Факс: +7(345)2640135




DOI: http://dx.doi.org/10.15622/sp.52.3