УДК 004.912

ОЦЕНКА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ДОКУМЕНТОВ НА ОСНОВЕ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА С АВТОМАТИЧЕСКИМ ВЫБОРОМ РАНГОВЫХ ЗНАЧЕНИЙ

С.А. Краснов, А.С. Илатовский, А.Д. Хомоненко, В.Н. Арсеньев

Аннотация


Предлагается метод оценки семантической близости документов на основе латентно-семантического анализа, учета динамики изменения сингулярных значений матрицы терм-документ и автоматического определения диапазона ранговых значений. Оценка семантической близости документов рассматривается применительно к решению задач выявления дублирования и противоречий в базах данных.
Приводится краткий обзор подходов, используемых при оценке семантической близости документов, выявлении дублирования и противоречий в базах данных и хранилищах данных. Приводятся результаты численных примеров оценки семантических зависимостей между термами документов в интересах выявления дублирования и противоречий в базах данных. При этом в качестве результирующей характеристики рассчитывается степень соответствия λ сравниваемых документов.
Приведены сравнительные оценки расчета степени соответствия λ документов с помощью основных методов (косинусной меры близости, векторной модели, коэффициента ранговой корреляции Спирмена, статической меры tf-idf — частота термина — обратная документная частота).
Показано, что использование предложенного метода анализа динамики изменения сингулярных чисел матрицы «терм-документ» с автоматическим выбором диапазона используемых ранговых значений позволяет устранить зависимость метода латентно-семантического анализа от выбора оптимального ранга.

Ключевые слова


оценка семантической близости документов; выявление дублирования и противоречий; базы данных; латентно-семантический анализ; статистический анализ; косинусная мера близости; векторная модель

Полный текст:

PDF

Литература


  1. Witten I.H., Frank E., Hall M.A. Data Mining: Practical Machine Learning Tools and Techniques: 3rd edition // Morgan Kaufmann. 2011. 664 p.
  2. Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям (+ СD) // СПб.: Изд. Питер. 2009. 624 с.
  3. Weissman S., Ayhan S., Bradley J., Lin J. Identifying Duplicate and Contradictory Information in Wikipedia // Proceedings of the 15th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL '15). 2015. pp. 57–60.
  4. Йоцов В.С., Сгурев В.С., Юсупов Р.М., Хомоненко А.Д. Онтологии для разрешения семантических конфликтов // Труды СПИИРАН. 2008. Вып. 7. С. 26–40.
  5. Ram S., Park J. Semantic Conflict Resolution Ontology (SCROL): An Ontology for Detecting and Resolving Data- and Schema-Level Semantic Conflicts // IEEE Transactions on Knowledge and Data engineering. 2004. vol. 16. no. 2. pp. 189–202.
  6. Хомоненко А.Д., Войцеховский С.В., Логашев С.В., Дашонок В.Л. Устранение семантических противоречий в elibrary.ru на основе нечеткого вывода // Проблемы информационной безопасности. Компьютерные системы. 2015. № 1. С. 24–33.
  7. Хомоненко А.Д., Логашев С.В., Краснов С.А. Автоматическая рубрикация документов с помощью латентно-семантического анализа и алгоритма нечеткого вывода Мамдани // Труды СПИИРАН. 2016. № 1(44) С. 5–19.
  8. Lawrence R. Automatic Conflict Resolution to Integrate Relational Schema // Ph.D. Thesis. 2001. 165 p.
  9. Galitsky B., Ilvovsky D., Kuznetsov S.O. Style and Genre Classification by Means of Deep Textual Parsing // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2016". 2016. pp. 171–181.
  10. Peng Z., Kambayashi Y. Resolving Conflicts and Handling Replication during Integration of Multiple Databases by Object Deputy Model // Proceedings of the 20th International Conference on Conceptual Modeling: Conceptual Modeling. 2001. LNCS 2224. pp. 285–298.
  11. De Marneffe M.-C., Rafferty A. N., Manning C.D. Finding Contradictions in Text // Proceedings of ACL-08: HLT. 2008. pp. 1039–1047.
  12. Воронцов К., Фрей А., Ромов П. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. 2015 С. 28–36.
  13. Бондарчук Д.В., Тимофеева Г.А. Математические основы метода категориальных векторов в интеллектуальном анализе данных // Вестник Уральского государственного университета путей сообщения. 2015. № 4(28). С. 4–8.
  14. Gupta M., Bendersky M. Information Retrieval with Verbose Queries // Foundations and Trends in Information Retrieval. 2015. vol. 9. no. 3–4. pp. 209–354.
  15. Landauer T., Foltz P., Laham D. An introduction to Latent Semantic Analysis // Discourse processes. 1998. vol. 25. no. 2–3. pp. 259–284.
  16. Foltz P.W. Using latent semantic indexing for information filtering // ACM Conference on Office Information Systems (COIS). 1990. pp. 40–47.
  17. Бубнов В.П. и др. Модели информационных систем: учеб. пособие // М.: ФГБОУ «Учебно-методический центр по образованию на железнодорожном транспорте». 2015. 188 с.
  18. Dumais S. Latent semantic indexing: TREC-3 report // Proc. of the Third Text REtrieval Conference. 1995. pp. 219–230.
  19. Соловьев А.Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа: диссертация на соискание степени к.ф-м.н. // С.-Петерб. гос. ун-т. Санкт-Петербург. 2008.
  20. Хомоненко А.Д., Дашонок В.Л., Краснов С.А. Выявление противоречий в семантически близкой информации на основе латентно-семантического анализа // Проблемы информационной безопасности. Компьютерные системы. 2014. № 2. С. 73–84.
  21. Gomaa W.H., Fahmy A.A. A Survey of Text Similarity Approaches. International. Journal of Computer Applications 2013. vol. 68. no. 13. pp. 13–18.
  22. Бермудес С.Х.Г., Керимова С.У. О методе определения текстовой близости, основанном на семантических классах // Инженерный вестник Дона. 2016. № 4(43). URL: ivdon.ru/ru/magazine/archive/n4y2016/3832 (дата обращения: 01.08.2017).
  23. Kuznetsov S., Poelmans J. Knowledge representation and processing with formal concept analysis // Wiley interdisciplinary views: Data mining and knowledge discovery. 2013. vol. 3. pp. 200–215.
  24. Jones K.S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. 2004. vol. 60. no. 5. pp. 493–502.
  25. Manning C.D., Raghavan P., Schütze H. An Introduction to Information Retrieval Draft // Online edition. Cambridge University Press. 2009. 544 p.
  26. Бондарчук Д.В. Использование латентно-семантического анализа в задачах классификации текстов по эмоциональной окраске // Бюллетень результатов научных исследований. 2012. № 2(3). С. 146–152.
  27. Краснов С.А., Хомоненко А.Д., Яковлев Я.В. Оценка эффективности применения алгоритма вычисления коэффициента ранговой корреляции Спирмена в методе латентно-семантического анализа при автоматической рубрикации документов // Бюллетень результатов научных исследований. 2012. № 2(3). С. 153–162.


Сергей Александрович Краснов - к-т техн. наук, старший преподаватель, Военно-космическая академия имени А.Ф. Можайского (ВКА им. А.Ф. Можайского).
Область научных интересов: информационные технологии, защита информации, системы искусственного интеллекта.
Число научных публикаций: 30.

Адрес (E-mail): kras25@rambler.ru
Почтовый адрес: ул. Ждановская 13, Санкт-Петербург, 197198
Телефон: +7(911)7346550


Анатолий Сергеевич Илатовский - курсант, Военно-космическая академия имени А.Ф. Можайского (ВКА им. А.Ф. Можайского).
Область научных интересов: информационные технологии, защита информации, системы искусственного интеллекта.
Число научных публикаций: 2.

Адрес (E-mail): letsbrainup@gmail.com
Почтовый адрес: ул. Ждановская 13, Санкт-Петербург, 197198
Телефон: +7(967)968-20-63


Анатолий Дмитриевич Хомоненко - д-р техн. наук, профессор, заведующий кафедрой информационных и вычислительных систем, ФГБОУ ВО Петербургский государственный университет путей сообщения Императора Александра I.
Область научных интересов: численная теория массового обслуживания, программирование, операционные и информационные системы.
Число научных публикаций: 150.

Адрес (E-mail): khomon@mail.ru
Почтовый адрес: Московский пр., 9, Санкт-Петербург, 190031
URL: http://www.pgups.ru
Телефон: 8(812)457-80-23
Факс: 8(812)310-75-25


Владимир Николаевич Арсеньев - д-р техн. наук, профессор, профессор кафедры бортовых информационных и измерительных комплексов, Военно-космическая академия имени А.Ф. Можайского (ВКА им. А.Ф. Можайского).
Область научных интересов: методы анализа и синтеза сложных систем.
Число научных публикаций: 100.

Адрес (E-mail): vladar56@mail.ru
Почтовый адрес: ул. Ждановская 13, Санкт-Петербург, 197198
Телефон: +79112620222




DOI: http://dx.doi.org/10.15622/sp.54.8