В статье представлен аналитический обзор исследований в области аффективных вычислений. Это направление является составляющей искусственного интеллекта, и изучает методы, алгоритмы и системы для анализа аффективных состояний человека при его взаимодействии с другими людьми, компьютерными системами или роботами. В области интеллектуального анализа данных под аффектом подразумевается проявление психологических реакций на возбуждаемое событие, которое может протекать как в краткосрочном, так и в долгосрочном периоде, а также иметь различную интенсивность переживаний. Аффекты в рассматриваемой области разделены на 4 вида: аффективные эмоции, базовые эмоции, настроение и аффективные расстройства. Проявление аффективных состояний отражается в вербальных данных и невербальных характеристиках поведения: акустических и лингвистических характеристиках речи, мимике, жестах и позах человека. В обзоре приводится сравнительный анализ существующего информационного обеспечения для автоматического распознавания аффективных состояний человека на примере эмоций, сентимента, агрессии и депрессии. Немногочисленные русскоязычные аффективные базы данных пока существенно уступают по объему и качеству электронным ресурсам на других мировых языках, что обуславливает необходимость рассмотрения широкого спектра дополнительных подходов, методов и алгоритмов, применяемых в условиях ограниченного объема обучающих и тестовых данных, и ставит задачу разработки новых подходов к аугментации данных, переносу обучения моделей и адаптации иноязычных ресурсов. В статье приводится описание методов анализа одномодальной визуальной, акустической и лингвистической информации, а также многомодальных подходов к распознаванию аффективных состояний. Многомодальный подход к автоматическому анализу аффективных состояний позволяет повысить точность распознавания рассматриваемых явлений относительно одномодальных решений. В обзоре отмечена тенденция современных исследований, заключающаяся в том, что нейросетевые методы постепенно вытесняют классические детерминированные методы благодаря лучшему качеству распознавания состояний и оперативной обработке большого объема данных. В статье рассматриваются методы анализа аффективных состояний. Преимуществом использования многозадачных иерархических подходов является возможность извлекать новые типы знаний, в том числе о влиянии, корреляции и взаимодействии нескольких аффективных состояний друг на друга, что потенциально влечет к улучшению качества распознавания. Приводятся потенциальные требования к разрабатываемым системам анализа аффективных состояний и основные направления дальнейших исследований.
В этой статье представлена всеобъемлющая архитектура эмоционального и аффективного процесса, происходящего в виртуальном агенте. Соединяя визуальные, аудио- и текстовые эмоции пользователей как аффективные источники в системе, виртуальный агент может оценивать настроение клиентов. С целью имитации воздействия гормонов человека в виртуальном агенте в предлагаемой системе используется искусственная эндокринная система (ИЭС) для выявления настроения и биологических потребностей посредством контроля уровня концентрации воздействующих гормонов. Аффективный процессор агента задействует модули ИЭС, параметров личности и настроения для управления внутренним состоянием. Интеллектуальный виртуальный агент взаимодействует с клиентами в соответствии со своими аффективными состояниями.
Предлагаемая система представляет собой полную платформу для захвата каналов эмоций в сети с целью анализа и обработки их в аффективном движке для определения эмоциональной окраски ответа.
Современные модели искусственного интеллекта развиваются в парадигме чёрного ящика, когда значима только информация на входе и выходе системы, тогда как внутренние представления интерпретации не имеют. Такие модели не обладают качествами объяснимости и прозрачности, необходимыми во многих задачах. Статья направлена на решение данной проблемы путём нахождения семантических факторов Ч. Осгуда в базовой модели машинного обученния word2vec, представляющей слова естественного языка в виде 300-мерных неинтерпретируемых векторов. Искомые факторы определяются на основе восьми семантических прототипов, составленных из отдельных слов. Ось оценки в пространстве word2vec находится как разность между положительным и отрицательным прототипами. Оси силы и активности находятся на основе шести процессно-семантических прототипов (восприятие, анализ, планирование, действие, прогресс, оценка), представляющих фазы обобщённого кругового процесса в данной плоскости. Направления всех трёх осей в пространстве word2vec найдены в простой аналитической форме, не требующей дополнительного обучения. Как и ожидается для независимых семантических факторов, полученные направления близки к попарной ортогональности. Значения семантических факторов для любого объекта word2vec находятся с помощью простой проективной операции на найденные направления. В соответствии с требованиями к объяснимому ИИ, представленный результат открывает возможность для интерпретации содержимого алгоритмов типа ``чёрный ящик'' в естественных эмоционально-смысловых категориях. В обратную сторону, разработанный подход позволяет использовать модели машинного обучения в качестве источника данных для когнитивно-поведенческого моделирования.
Распознавание эмоций в речи стало одним из важных направлений в области аффективных вычислений. Это комплексная задача, трудности которой во многом определяются необходимостью выбора признаков и их оптимального представления. Оптимальное представление признаков должно отражать глобальные характеристики, а также локальную структуру сигнала, поскольку эмоции естественным образом длятся во времени. Подобное представление возможно моделировать с помощью рекуррентных нейронных сетей (РНС – RNN), которые активно используются для различных задач распознавания, предполагающих работу с последовательностями. Предлагается смешанный подход к представлению признаков, который объединяет традиционные статистические признаки с последовательностью значений, полученных на выходе РНС с длинной кратковременной памятью (ДКП – LSTM) и хорошо моделирующих временную структуру сигнала. Таким образом, удается получить одновременное представление как кратковременных, так и долгосрочных характеристик, позволяющих использовать преимущества обоих подходов к моделированию признаков речевого сигнала. Для экспериментальной проверки предложенного метода была произведена оценка его эффективности на трех различных базах данных эмоционально окрашенной речи, находящихся в свободном доступе: RUSLANA (русская речь), BUEMODB (турецкая речь) и EMODB (немецкая речь). В сравнении с традиционным подходом результаты наших экспериментов показывают абсолютный прирост в точности распознавания эмоций в 2.3% и 2.8% для двух из вышеупомянутых корпусов, в то время как для третьего корпуса предложенный метод не уступает базовой системе. Следовательно, данный подход можно признать эффективным для моделирования эмоциональной окраски речевых высказываний при условии достаточного количества обучающих данных.
1 - 4 из 4 результатов