УДК 004.5

АНАЛИЗ ПЕРСПЕКТИВ ПРИМЕНЕНИЯ ВЫСОКОСКОРОСТНЫХ КАМЕР ДЛЯ РАСПОЗНАВАНИЯ ДИНАМИЧЕСКОЙ ВИДЕОИНФОРМАЦИИ

Д.В. Иванько, А.А. Карпов

Аннотация


Рассматриваются актуальные и перспективные направления по использованию высокоскоростных видеокамер. Обсуждается возможность применения высокоскоростных камер в области человеко-машинного взаимодействия для автоматического распознавания динамической видеоинформации (в том числе визуальной речи диктора). Выделяются основные задачи взаимодействия, решаемые с помощью высокоскоростных камер, такие как: автоматическое чтение речи по губам диктора, обнаружение моргания, распознавание микровыражений. Обозначаются возможные проблемы, связанные с внедрением высокоскоростных видеокамер. Анализируется состояние области исследований на настоящий момент и доказывается, что имеется высокая актуальность развития данного научно-технического направления. Предлагаются многообещающие области применения и задачи организации человеко-машинного взаимодействия с применением высокоскоростной видеосъемки. Основными направлениями являются аудиовизуальное распознавание слитной речи и чтение речи по губам диктора. В ходе дальнейших исследований планируется реализация подобной многомодальной системы аудиовизуального распознавания речи для русского языка с использованием микрофона и высокоскоростной видеокамеры JAI Pulnix.

Ключевые слова


высокоскоростная видеокамера; компьютерное зрение; аудиовизуальное распознавание речи; аудиовизуальная база данных; чтение по губам; динамическая видеоинформация

Полный текст:

PDF

Литература


  1. Kwon K., Shipley R.J., Edirisinghe M., Ezra D.G., Rose G., Best S.M., Cameron R.E. High-speed camera characterization of voluntary eye blinking kinematics // Journal of the Royal Society Interface. 2013. vol. 10. no. 85.pp. 86–91.
  2. Ohzeki K. Video analysis for detecting eye blinking using a high-speed camera // Proc. 40th Asilomar Conference on Signals, Systems and Computers (ACSSC). USA. 2006. Part. 1. pp. 1081–1085.
  3. Bettadapura V. Face expression recognition and analysis: the state of the art // Tech. Report. College of Computing. USA, Georgia Institute of Technology. 2012. pp. 1‒27.
  4. Polykovsky S., Kameda Y., Ohta Y. Facial micro-expressions recognition using high speed camera and 3D-gradient descriptor // Proc. 3rd International Conference on Crime Detection and Prevention (ICDP). Japan. 2009. pp. 1‒6.
  5. McGurk H., MacDonald J. Hearing lips and seeing voices // Nature. 1976. vol. 264. no. 5588. pp. 746–748.
  6. Chitu A.G., Rothkrantz L.J.M. The Influence of Video Sampling Rate on Lipreading Performance // Proc. International Conference on Speech and Computer SPECOM 2007. Russia. 2007. pp. 678–684.
  7. Chitu A.G., Driel K., Rothkrantz L.J.M. Automatic lip reading in the Dutch language using active appearance models on high speed recordings // Text, Speech and Dialogue. Springer. 2010. LNCS 6231. pp. 259–266.
  8. Chitu A.G., Rothkrantz L.J.M. On dual view lipreading using high speed camera // Proc. 14th Annual Scientific Conference Euromedia. Belgium. 2008. pp. 43–51.
  9. Biswas A., Sahu P.K., Bhowmick A., Chandra M. AAM based features for multiple camera visual speech recognition in car environment // Proc. 3rd International Conference on Recent Trends in Computing. 2015.vol. 57. pp. 614‒621.
  10. Chitu A.G., Rothkrantz L.J.M. Dutch multimodal corpus for speech recognition // Proc. LREC 2008 Workshop on Multimodal Corpora. Morocco. 2008. pp. 56–59.
  11. Potamianos G., Graf H.P., Cosatto E. An image transform approach for HMM based automatic lipreding // Proc. IEEE International Conference on Image Processing. USA. 1998. vol. 3. pp. 173‒177.
  12. Karpov A., Ronzhin A., Kipyatkova I. Designing a Multimodal Corpus of Audio-Visual Speech using a High-Speed Camera // Proc. 11th IEEE International Conference on Signal Processing. China. 2012. pp. 519–522.
  13. Karpov A., Kipyatkova I., Zelezny M. A framework for recording audio-visual speech corpora with a microphone and a high-speed camera // Proc. International Conference on Speech and Computer SPECOM 2014. Serbia. 2014. vol. 8773. pp. 50–57.
  14. Карпов А.А. Реализация автоматической системы многомодального распознавания речи по аудио- и видеоинформации // АвтоматикаиТелемеханика. 2014. Т. 75. № 12. С. 125‒138.
  15. Басов О.О., Карпов А.А. Анализ стратегий и методов объединения многомодальной информации // Информационно-управляющие системы. СПб.: ГУАП.№ 2. 2015. С. 18‒30.
  16. Karpov A., Ronzhin A. A Universal Assistive Technology with Multimodal Input and Multimedia Output Interfaces // Universal Access in Human-Computer Interaction. Heidelberg: Springer. 2014. vol. 8513. pp. 369‒378.


Денис Викторович Иванько - аспирант, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО).
Область научных интересов: автоматическое распознавание речи, многомодальные интерфейсы, аудиовизуальное распознавание речи.
Число научных публикаций: 3.

Адрес (E-mail): denis.ivanko11@gmail.com
Почтовый адрес: Кронверкский проспект, 49, Санкт-Петербург, 197101,
Телефон: +7(812)328-0421


Алексей Анатольевич Карпов - д-р техн. наук, доцент, заведующий лабораторией речевых и многомодальных интерфейсов, Федеральное государственное бюджетное учреждение науки Санкт-Петербургский институт информатики и автоматизации Российской академии наук (СПИИРАН).
Область научных интересов: речевые технологии, многомодальные интерфейсы, автоматическое распознавание речи, аудиовизуальная обработка речи.
Число научных публикаций: 220.

Адрес (E-mail): karpov@iias.spb.su
Почтовый адрес: 14-я линия В.О., 39, Санкт-Петербург, 199178
Телефон: +7(812)328-0421
Факс: +7(812)328-7081




DOI: http://dx.doi.org/10.15622/sp.44.7