Обработка естественного языка (NLP) — это разновидность искусственного интеллекта, демонстрирующая, как алгоритмы могут взаимодействовать с людьми на их уникальных языках. Кроме того, анализ настроений в NLP лучше проводится во многих программах, включая оценку настроений на телугу. Для обнаружения текста на телугу используются несколько неконтролируемых алгоритмов машинного обучения, таких как кластеризация k-средних с поиском с кукушкой. Однако эти методы с трудом справляются с кластеризацией данных с переменными размерами и плотностью кластеров, низкой скоростью поиска и плохой точностью сходимости. В ходе этого исследования была разработана уникальная система анализа настроений на основе машинного обучения для текста на телугу, позволяющая устранить указанные недостатки. Первоначально, на этапе предварительной обработки, предлагаемый алгоритм линейного преследования (LPA) удаляет слова в пробелах, знаках препинания и остановках. Затем для маркировки POS в этом исследовании было предложено условное случайное поле с лексическим взвешиванием; После этого предлагается надуманный пассивно-агрессивный классификатор с нечетким взвешиванием (CPSC-FWC) для классификации настроений в тексте на телугу. Следовательно, предлагаемый нами метод дает эффективные результаты с точки зрения точности, воспроизводимости и показателя f1.
Целью исследования является получение более легковесной языковой модели, которая сравнима по показателям EM и F-меры с лучшими современными языковыми моделям в задаче нахождения ответа на вопрос в тексте на русском языке. Результаты работы могут найти применение в различных вопросно-ответных системах, для которых важно время отклика. Поскольку более легковесная модель имеет меньшее количество параметров чем оригинальная, она может быть использована на менее мощных вычислительных устройствах, в том числе и на мобильных устройствах. В настоящей работе используются методы обработки естественного языка, машинного обучения, теории искусственных нейронных сетей. Нейронная сеть настроена и обучена с использованием библиотек машинного обучения Torch и Hugging face. В работе было проведено обучение модели DistilBERT на наборе данных SberQUAD с применением дистилляции и без. Произведено сравнение работы полученных моделей.Обученная в ходе дистилляции модель DistilBERT (EM 58,57 и F-мера 78,42) смогла опередить результаты более крупной генеративной сети ruGPT-3-medium (EM 57,60 и F-мера 77,73) притом, что ruGPT-3-medium имеет в 6,5 раз больше параметров. Также модель продемонстрировала лучшие показатели EM и F-мера, чем та же модель, но к которой применялось только обычное дообучение без дистилляции (EM 55,65, F-мера 76,51). К сожалению, полученная модель сильнее отстаёт от более крупной дискриминационной модели ruBERT (EM 66,83, F-мера 84,95), которая имеет в 3,2 раза больше параметров. Предложены направления для дальнейшего исследования.
Рассматривается задача обнаружения аномальных документов в текстовых коллекциях. Существующие методы выявления аномалий не универсальны и не показывают стабильный результат на разных наборах данных. Точность результатов зависит от выбора параметров на каждом из шагов алгоритма, и для разных коллекций оптимальны различные наборы параметров. Не все из существующих алгоритмов обнаружения аномалий эффективно работают с текстовыми данными, векторное представление которых характеризуется большой размерностью при сильной разреженности. Задача поиска аномалий рассматривается в следующей постановке: требуется проверить новый документ, загружаемый в прикладную интеллектуальную информационную систему (ПИИС), на соответствие хранящейся в ней однородной коллекции документов. В ПИИС, обрабатывающих юридически значимые документы, на методы обнаружения аномалий накладываются следующие ограничения: высокая точность, вычислительная эффективность, воспроизводимость результатов, а также объяснимость решения. Исследуются методы, удовлетворяющие этим условиям. В работе изучается возможность оценки текстовых документов по шкале аномальности путем внедрения в коллекцию заведомо инородного документа. Предложена стратегия обнаружения в документе новизны по отношению к коллекции, предполагающая обоснованный подбор методов и параметров. Показано, как на точность решения влияет выбор вариантов векторизации, принципов токенизации, методов снижения размерности и параметров алгоритмов поиска аномалий. Эксперимент проведен на двух однородных коллекциях нормативно-технических документов: стандартов в отношении информационных технологий и в сфере железных дорог. Использовались подходы: вычисление индекса аномальности как расстояния Хеллингера между распределениями близости документов к центру коллекции и к инородному документу; оптимизация алгоритмов поиска аномалий в зависимости от методов векторизации и снижения размерности. Векторное пространство строилось с помощью преобразования TF-IDF и тематического моделирования ARTM. Тестировались алгоритмы Isolation Forest (изолирующий лес), Local Outlier Factor (локальный фактор выброса), OneClass SVM (вариант метода опорных векторов). Эксперимент подтвердил эффективность предложенной оптимизационной стратегии для определения подходящего метода обнаружения аномалий для заданной текстовой коллекции. При поиске аномалии в рамках тематической кластеризации юридически значимых документов эффективен метод изолирующего леса. При векторизации документов по TF-IDF целесообразно подобрать оптимальные параметры словаря и использовать метод опорных векторов с соответствующей функцией преобразования признакового пространства.
Современные информационные технологии с высокой эффективностью обеспечивают процессы манипулирования текстами. В первую очередь это хранение, редактирование и форматирование текстов и их составляющих. Добившись значительных успехов в разработке средств бессодержательной компьютерной обработки текстов, исследователи столкнулись с проблемами их содержательной обработки. Поэтому дальнейшие шаги в этом направлении связаны с созданием, в том числе, методов автоматизированного целенаправленного манипулирования текстами с учетом заложенного в них содержания. Проведен анализ работ, посвященных исследованию проблем формального представления текстов и их последующего использования. Несмотря на ряд успешных проектов, задачи по разрешению проблемы соотношений между содержанием текста и его смыслом остаются актуальными. По-видимому, формализация текста общего назначения при сохранении его семантики на данном этапе развития науки не осуществима. Вместе с тем существуют типы текстов, для которых формализация с сохранением существенной части их семантики представляется возможной. Одним из них является регулятивный тип текста, который по существу представляет собой словесно выраженный алгоритм последовательности целенаправленных действий. Его отличают логичность и точность (отсутствие иносказаний), связность и цельность, ясность, понятность (за счет отсутствия эмоциональной окраски и образных средств), доступность (за счет использования специфической терминологии). Иначе говоря, при разработке регулятивных текстов обычно стараются как можно понятнее отображать механизмы описываемых действий. Цель: разработка метода формализации регулятивного текста с сохранением его семантики. Методы: структурная лингвистика, представление объектов в виде онтологии, конструктивные алгоритмы. Использование данного метода демонстрируется на примере описания решения системы алгебраических уравнений. Результаты: метод построения математической модели регулятивного текста. Практическая значимость: применение разработанного метода обеспечивает возможность разработки программных комплексов для построения библиотек отдельных предметных областей, разработки средств оценки регулятивных текстов на предмет их определенности, полноты, связности и других характеристик, а также тренажеров и средств самообучения.
В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.
Разрабатывается контекстно-управляемый подход к интеллектуальной поддержке принятия решений на основе цифровых следов пользователей. Рассматриваются вопросы использования концепции жизни человека в цифровой среде при интеллектуальной поддержке принятия решений. Исследуются цели обращения к цифровым следам человека в различных проблемных областях и выявляются подходы к моделированию жизни человека в цифровой среде. Предлагается подход к интеллектуальной поддержке принятия решений, в котором цифровые следы служат источником информации для выявления предпочтений пользователей и их поведения при принятии решений. Развиваются взгляды на поддержку принятия решений на основе учета следов пользователей в цифровой среде. Результатами исследования являются спецификация требований к интеллектуальной поддержке принятия решений на основе цифровых следов пользователя, принципы, концептуальная и информационная модели такой поддержки.
Предлагается разделенный на несколько модулей алгоритм для создания изображений полнотекстовых документов. Эти изображения можно использовать для обучения, тестирования и оценки моделей оптического распознавания символов (ОПР). Алгоритм является модульным, отдельные части могут быть изменены и настроены для создания желаемых изображений. Описывается метод получения фоновых изображений бумаги из уже оцифрованных документов. Для этого используется новый, основанный на вариационном автоэнкодере подход к обучению генеративной модели. Эти фоны позволяют сразу же сгенерировать такие же фоновые изображения, как те, на которых производилось обучение. Для получения правдоподобного эффекта старения в модуле печати текста используются большие текстовые блоки, типы шрифтов и вариативность изменения яркости символов. Поддерживаются несколько типов макетов страницы. Система генерирует подробную структурированную аннотацию искусственного изображения. Для сравнения реальных изображений с искусственно созданными используется программа Тессеракт ОПР. Точность распознавания приблизительно схожа, что указывает на правильность сгенерированных искусственных изображений. Более того, допущенные системой ОПР ошибки в обоих случаях очень похожи. На основе сгенерированных изображений была обучена архитектура сверточная кодер-декодер нейронная сеть полностью для семантической сегментации отдельных символов. Благодаря этой архитектуре достигнута точность распознавания 99,28% в тестовом наборе синтетических документов.
Оценка защищенности сетей цифровой радиосвязи при деструктивных воздействиях злоумышленника является важной задачей. Однако для случайного множественного доступа к среде типа ALOHA в сетях цифровой радиосвязи такая оценка не проводилась. В работе представлена аналитическая модель случайного множественного доступа к среде типа ALOHA в условиях деструктивных воздействий. В этой модели в качестве результирующего показателя оценки эффективности случайного доступа выступает обобщенный показатель, включающий вероятность успешного голосового соединения, передачи служебной команды, тестового сообщения или мультимедийного файла, степень наполнения и степень переполнения пакетами данных сети цифровой радиосвязи. Новый комплексный показатель — вероятность успешного голосового соединения, передачи служебной команды, тестового сообщения или мультимедийного файла — учитывает известные вероятности успешной доставки пакета данных, создания коллизии и свободного канала, а также новые средние времена передачи последовательности пакетов данных и коллизии, образованной при такой передаче. Новые показатели – степень наполнения и степень переполнения пакетами данных в сети цифровой радиосвязи определяют, насколько близко (далеко) от максимума находится значение комплексного показателя. Модель учитывает потенциально возможные деструктивные воздействия со стороны злоумышленника путем уточнения аналитических выражений для известных вероятностных и новых временных характеристик. Установлено, во-первых, количественная взаимосвязь между вероятностью успешного голосового соединения, передачи служебной команды, тестового сообщения или мультимедийного файла и средней длительностью коллизии в канале передачи данных, а, во-вторых, для гарантированного вывода из строя сети цифровой радиосвязи со случайным множественным доступом к среде типа ALOHA злоумышленник должен постоянно осуществлять деструктивное воздействие. Результаты работы применимы в области проектирования сетей цифровой радиосвязи, функционирующих в условиях деструктивных воздействий, а также при разработке автоматических систем оптимизации работы сетей цифровой радиосвязи и их защиты от таких воздействий.
Персональные мобильные устройства (гироскопы, двухколесные самобалансирующиеся транспортные средства, велосипеды и мотороллеры) становятся все более популярными в последние годы. Они помогают людям решать проблемы первой и последней мили в больших городах. Для того, чтобы обеспечить оператору возможность навигации в городе, а также повысить его безопасность, предлагается использовать интеллектуальную систему помощи оператору с использованием персонального смартфона, использующегося для формирования контекста и предоставления оператору рекомендаций. Под контекстом в статье понимается любая информация, характеризующая текущую ситуацию. Предполагается, что оператор устанавливает персональный смартфон таким образом, чтобы фронтальная камера была направлена на его лицо. Таким образом информация с фронтальной камеры и датчиков смартфона (GPS / ГЛОНАСС, акселерометр, гироскоп, магнитометр, микрофон) формирует контекст оператора. Представленная в статье система поддержки оператора ориентирована на обнаружение опасных ситуаций оператора персонального мобильного устройства: сонливость и невнимательность. Используя методы компьютерного зрения предлагается определение параметров лица оператора (глаз, носа, рта, угла наклона и угла поворота головы) и на основании анализа этих параметров выявление опасных ситуаций. В статье представлен анализ современных исследований по тематике интеллектуальных систем помощи водителям транспортных средств, предложен подход к обнаружению опасных ситуаций и генерации рекомендаций, а также проведены эксперименты с использованием предложенной системы и двухколесного самобалансирующегося транспортного средства.
Современные системы преобразования текста в речь обычно обеспечивают хорошую разборчивость. Одним из главных недостатков этих систем является отсутствие выразительности по сравнению с естественной человеческой речью. Очень неприятно, когда автоматическая система передает утвердительные и отрицательные предложения совершенно одинаково. Введение параметрических методов в синтезе речи дало возможность легко изменять характеристики говорящего и стили речи. В этой статье представлен простой способ включения стилей в синтезированную речь, используя стилевые коды.
Предлагаемый метод требует всего лишь пару минут заданного стиля, чтобы смоделировать нейтральную речь. Он успешно применяется как в скрытых марковских моделях, так и в синтезе на основе глубоких нейронных сетей, предоставляя стилевой код как дополнительный вклад в модель. Аудирование подтвердило, что наибольшая выразительность достигается за счет синтеза глубоких нейронных сетей по сравнению с синтезом скрытых марковских моделей. Также доказано, что качество речи, синтезированное глубокими нейронными сетями в определенном стиле, сопоставимо с речью, синтезированной в нейтральном стиле, хотя база данных нейтральной речи примерно в 10 раз больше. Глубокие нейронные сети на основе синтеза речи по тексту со стилевыми кодами изучаются путем сравнения качества речи, создаваемой системами одностилевого моделирования и многостилевого моделирования. Объективные и субъективные измерения подтвердили, что между этими двумя подходами нет существенной разницы.
В настоящей статье представлен подход к извлечению робастного водяного знака из изображений, содержащих текст. Извлечение данных основано на разработаном подходе к внедрению робастного водяного знака в текстовые данные, отличающегося устойчивостью к преобразованию текстовых данных в формат изображения. Проведен сравнительный анализ существующих подходов к стеганографическому внедрению информации в текстовые данные, определены их достоинства и недостатки. Обоснован выбор группы методов стеганографического внедрения информации, основанных на форматировании текста. В качестве алгоритма встраивания выбран подход на основе изменения величины межстрочных интервалов. Приведены блок-схема и описание разработанного алгоритма встраивания информации в текстовые данные. Осуществлена экспериментальная оценка емкости встраивания и границ перцептивной невидимости встроенных данных. На основе существующих ограничений разработан подход к извлечению встроенной информации из изображений, содержащих робастный водяной знак. Базовым в процедуре извлечения встроенной информации выбрано преобразование Радона, позволяющее извлекать значения величин межстрочных интервалов. Для выделения значений битов встроенной информации был выбран подход на основе разделения смеси нормальных распределений, поскольку полученное распределение является бимодальным. Экспериментально установлены границы применимости, а также дана оценка робастности разработанного подхода встраивания к осуществлению различных преобразований. Определены следующие параметры робастности разработанного подхода к осуществлению преобразований: поворот изображения, содержащего встроенные данные на любой угол, масштабирование изображения с множителем масштабирования не превыщающим 1,5; преобразование в любой формат растрового изображения; применение медианного фильтра к изображению с пределом ядра свертки не более 9, гауссовского фильтра размытия -- с пределом показателя размытия не более 8 и усредненного фильтра с пределом ядра свертки не более 5.
В настоящее время в условиях нестабильной экономики организациям крайне важно эффективно управлять кадровыми ресурсами и знаниями, которыми обладают сотрудники. Для управления знаниями кадровых ресурсов в последние годы широко применяются соответствующие информационные системы (системы управления компетенциями). Такие системы активно используются для автоматизации процесса поиска экспертов при совместном решении задач. Целью данной статьи является анализ существующих систем управления компетенциями: выявление основных сценариев использования таких систем и требований к ним, а также разработка концептуальной модели системы контекстно-ориентированного управления компетенциями в экспертных сетях. В результате анализа существующих систем был сформулирован список основных требований к системам управления компетенциями, разработана концептуальная модель системы контекстно-ориентированного управления компетенциями в экспертных сетях, а также произведена классификация видов контекста, используемого для формализации текущей ситуации в экспертной сети. В статье была предложена модель контекста в рамках которой различается: контекст участника, контекст актива и контекст проекта. Для оценки эффективности предложенной концептуальной модели системы контекстно-ориентированного управления компетенциями в экспертных сетях в статье была рассмотрена задача поиска группы экспертов с необходимым набором компетенций. Анализ показал, что при небольшом количестве экспертов в системе управления компетенциями эффективна будет классическая система, но с ростом количества экспертов предложенная система показывает лучшие результаты. Представ-ленная в статье концептуальная модель системы контекстно-ориентированного управления компетенциями является многообещающей для использования для современных организаций как в России, так и за рубежом.
В данной статье предлагается метод автоматического предсказания интонационно выделенных слов, то есть наиболее важной информации в высказывании. Метод опирается на использование лексических, грамматических и синтаксических маркеров интонационного выделения, что делает возможным его применение в системах синтеза речи по тексту, где реализация интонационного выделения может повысить естественность звучания синтезированной речи.
В качестве методов классификации независимо друг от друга использовалось несколько различных моделей: наивная байесовская модель, модель максимальной энтропии и условные случайные поля. Сопоставление результатов, полученных в ходе нескольких экспериментов, показало, что использовавшиеся дискриминативные модели демонстрируют сбалансированные и примерно равные значения метрик качества, в то время как генеративная модель потенциально более пригодна для поиска интонационно выделенных слов в речевом сигнале.
Результаты, представленные в статье, сравнимы и в некоторых случаях превосходят аналогичные системы, разработанные для других языков.
В настоящее время в России отсутствуют системные исследования в области регулирования робототехники как совокупности общественных отношений, предметом которых являются производство, распределение и использование автоматизированных технических систем. В связи с этим необходима разработка дорожной карты, подразумевающей, в том числе и разработку нового предметного законодательства. Регулирование робототехники должно строиться на междисциплинарных началах и включать гражданско-правовую, информационно-правовую и административно-правовую составляющие. При этом законодательство о робототехнике должно развиваться в несколько этапов. Прежде всего, с учетом анализа приоритетов и технологических возможностей, необходима подготовка и принятие государственной концепции развития отечественной робототехники с блоком вопросов, посвященных праву и законодательству. Затем — разработка и принятие основ законодательства в данной сфере, включающих классификацию роботов и сфер их применения, определение прав и обязанностей различных субъектов правоотношений, основания и порядок учета или регистрации моделей роботов и критерии отнесения роботов к источникам повышенной опасности. После разработки закона о робототехнике потребуются «пакетные» изменения в конкретных отраслях, где роботы уже внедряются или их внедрение ожидается. Последним этапом должна стать ведомственная корректировка подзаконных актов. Кроме того, в статье предлагается к рассмотрению текст первого законопроекта, призванного инициировать дискуссию в области правового регулирования робототехники.
В статье рассматривается новый подход к выполнению классификации текстов, учитывающий наличие различных типов классификационных признаков (бинарных, номинальных, порядковых и интервальных).
Особенность представленного подхода состоит в поэтапном проведении классификации, которое дает возможность не приводить разнотипные признаки, характеризующие текст, к единому диапазону. Также в статье предлагается набор классификационных признаков для проведения классификации русскоязычных текстов на основании их предполагаемой возрастной аудитории.
В работе описывается вычислительный эксперимент с использованием текстов, включенных в Национальный корпус русского языка. Выборка включает в себя заведомо качественные и максимально разнообразные тексты, написанные на русском языке. Документы, входящие в состав рассматриваемой выборки, разделены в соответствии с мнениями экспертов-лингвистов на две категории — взрослые и детские. Таким образом, для обучения и тестирования использовались тексты, размеченные экспертами.
В статье приведены значения точности классификации текстов, полученные в результате проведения серии экспериментов по автоматическому определению возрастных категорий адресатов текста (для кого написан текст — для детей или для взрослых).
Антропогенные изменения климата обуславливают необходимость разработки методов противодействия глобальному потеплению. Манипулирование притоком солнечной радиации к климатической системе за счет создания искусственных аэрозольных облаков в стратосфере является одним из возможных геоинженерных способов стабилизации климата. Оценка эффективности подобных мероприятий выполняется обычно на основе численного моделирования вне рамок теории оптимального управления без строгой формулировки целевого функционала. В статье рассмотрена энергобалансовая климатическая модель нулевой размерности и проанализированы ее основные свойства, важные с точки зрения построения оптимальных систем управления климатом и погодой. На основе данной модели оценено влияние целенаправленных манипуляций притоком солнечной радиации на среднеглобальную приземную температуру. Поскольку полученные оценки согласуются с результатами ранее выполненных исследований, представленная модель может служить основой для разработки физически обоснованных способов управления климатом и погодой, используя методы геофизической кибернетики.
В статье рассмотрены особенности применения методов частотного упорядочивания и аппроксимации для решения задачи идентификации знаков текста. Определены условия реализации метода Якобсена для получения наименьшей погрешности идентификации. Предложен метод аппроксимации одномерных и двумерных распределений частот знаковых биграмм текста и буквенных биграмм эталона языка текста. Приведены экспериментальные данные о погрешностях метода Якобсена и предложенного метода аппроксимации для русскоязычных текстов.
Погрешность предложенного метода меньше, чем у метода Якобсена. Метод может быть использован для идентификации знаков текста любого языка, для которого существует эталонное распределение частот буквенных биграмм.
Работа посвящена вопросу идентификации текстов, сгенерированных автоматически (искусственно) с помощью программных алгоритмов. Данная задача является актуальной в связи с ростом распространения таких текстов, распространяемых в Интернете. Создаваемые «копии» веб-страниц используются для привлечения читателей к интернет-ресурсам, а также для распространения большого количества уникальных экземпляров страниц с контентом определенной направленности.
В статье описаны особенности определения происхождения текста на примере работы с текстами, порожденными методом синонимизации, как наиболее распространенного метода генерации искусственных текстов, представляющих собой веб-контент. Предложен инвариант искусственно созданных текстов, представляющий собой набор значений текстовых характеристик, который позволяет классифицировать тексты по способу их создания. Предложен метод определения искусственно созданных текстов на основе расчета меры принадлежности входного текста к инвариантам, позволяющий принять решение о происхождении текста. В статье также приведены значения, полученные в ходе проведения серии экспериментов по определению искусственно созданных текстов.
В статье предложены контекстно-ориентированные онтологические методы описания социальных объектов. В основе методов лежит графовая модель онтологии. Модель основывается на множестве двухуровневых деревьев, называемых ветвлениями, вершины которых состоят из пар понятий. Первое понятие пары – термин, второе – контекст, относительно которого рассматривается термин. Предложено правило контекстного обобщения понятий, стоящих в позициях контекста. Разработаны алгоритмы построения графа иерархии контекстов и терминологического графа. Получен критерий логической связности онтологии, основанный на структуре терминологического графа. Особенности описываемой модели и работа пользователя при ее применении продемонстрированы на примере.
В работе рассмотрен подход к многозначной классификации текстовых документов на основе вероятностного тематического моделирования. На базе корпуса SCTM-ru построена тематическая модель методом обучения с учителем, приведен алгоритм многозначной классификации. Описан состав программного прототипа, реализующего предложенный подход.
В статье рассмотрена задача идентификации символов текстов на естественном языке по числовым характеристикам этих текстов. На основе правил языка и частот биграмм предложено решение данной задачи для русских текстов. Решение представляет собой систему идентифицирующих функций для каждого символа алфавита и детерминированную последовательность их применения. Указаны ограничения для полученного решения, область его эффективного применения и возможности расширения.
Рассмотрены методы бесконтактного определения величин угловых и линейных геометрических параметров в структурах текстильных материалов. Разработаны алгоритм моделирования изображений дифракционных картин с использованием быстрого преобразования Фурье, алгоритм измерения угла кручения нити по цифровой фотографии её структуры, алгоритм измерения перекоса нитей в ткани и алгоритм измерения расстояния между соседними элементами структуры с использованием метода двойного преобразования Фурье.
Предлагается подход к онтологическому описанию произвольной предметной области, основанный на применении концептов трёх типов: “Объекты”, “Свойства” и “Действия”. При этом различные аспекты представлений, используемые для описания знаний, предлагается частично упорядочивать свойством аппроксимации в функциональные слои, сегменты и области. Это должно позволить моделировать семантические особенности контекстно-зависимых знаний предметных областей, учитывать их изменения и уточнения при порождении решений. Это откроет возможности прогнозирования намерений и предотвращения реализации киберугроз критической информационной инфраструктуре.
В статье рассматривается задача создания русскоязычного специального корпуса текстов для тестирования алгоритмов вероятностного тематического моделирования. В качестве наполнения корпуса предлагается использовать статьи международного новостного сайта «Русские Викиновости», распространяемого по свободной лицензии CC BY 2.5. Описан этап предварительной обработки и разметки корпуса текстов. Предложена разметка корпуса текстов, содержащая только необходимую в алгоритмах тематического моделирования информацию.
В статье предлагается метод оценки качества технических текстов, основанный на применении подхода аналитического самореферирования. Предлагается эвристический критерий качества текстов, основанный на оценке скорости уменьшения объема реферата текста.
В данной статье описаны результаты исследования «Перцептивная шкала длительностей фонетических единиц языка». В ходе исследования были проведены два психоакустических эксперимента, в результате которых был установлен порог восприятия длительности ударных гласных. В среднем он составляет 2–4 периода основного тона, что приблизительно соответствует 20–40 мс. Показано, что величина порога не зависит от количества слогов в слове и места ударения. В разделах статьи представлены: краткий обзор литературных данных по проблеме, а также описание психоакустических экспериментов, целью которых было установить слуховые дифференциальные пороги длительности для русских гласных с учетом фонетического контекста, статистический анализ результатов эксперимента, а также выводы по полученным данным.
В статье представляется метод построения классификатора для классификации текстов по тональности на два и на три класса (положительные и негативные; положительные, нейтральные и негативные тексты). Представляются результаты экспериментов, показывающие высокую точность работы метода не зависимо от предметной области к которой принадлежит текст. Эффективность представленного метода подтверждается экспериментами на текстовой коллекции блогов с разметкой по оценочной тональности семинара РОМИП-2012. Для оценки используются метрики: precision, recall, accuracy и F-меры. Значение F-меры для предлагаемого метода при классификации на 2 класса составляет 93%. Помимо блоговой коллекции РОМИП-2012, используются коллекция новостей и коллекция текстов социальных сетей.
Создание модели языка является одним из этапов обучения системы распознавания слитной речи. В статье описаны алгоритм и разработанные программные средства для создания синтаксическо-статистической модели русского языка по текстовому корпусу. Основными этапами в работе алгоритма являются предварительная обработка текстового материала, создание статистической n-граммной модели языка, дополнение статистической модели n-граммами, полученными в результате синтаксического анализа. Синтаксический анализ позволяет увеличить количество создаваемых в результате обработки текста различных биграмм и тем самым повысить качество модели языка за счет выявления грамматически связанных пар слов. Приводятся результаты тестирования созданных с помощью программного модуля моделей языка по показателям информационной энтропии, коэффициента неопределенности, относительного количества внесловарных слов и совпадений n-грамм.
В статье описывается онтологический подход к контекстно-ориентированному управлению знаниями в интеллектуальной среде. В рамках подхода была разработана концептуальная модель системы управления знаниями в интеллектуальной среде. Для апробации предложенного подхода была разработана система управления знаниями для платформы автоматизированного проведения конференций в интеллектуальной среде, которая успешно применяется на конференциях проводимых ассоциацией FRUCT.
Результаты массового оптического распознавания архивных документов необходимо подвергать корректировке с целью сокращения количества ошибок. В работе описывается алгоритм корректировки, учитывающий особенности русского языка и позволяющий обрабатывать корпуса текстов больших объемов в полностью автоматическом режиме. Процесс корректировки разделяется на этапы анализа всего корпуса текстов, подготовки структур данных, отбора слов-кандидатов и их финального ранжирование. Использование рейтинго-ранговой модели текста для генерации корректировок позволяет обрабатывать тексты, содержащие узкоспециализированную терминологию, различных предметных областей.
В статье представлена схема построения мультиголосового синтезатора речи, основанная на использовании синергетического эффекта от интеграции системы синтеза речи по тексту и конверсии голоса. Такая организация даёт возможность одновременно выполнять действия синтеза и модификации речевого сигнала на основе комплексного подхода, позволяя снизить количество ошибок и артефактов, которые влияют на качество речевого сигнала. Применение данного подхода обеспечивает реализацию функции настройки синтезатора речи на голос целевого диктора без существенных затрат трудоёмкости на обучение речевой базы данных, для добавления новых голосов.
По мнению многих исследователей, одним из наиболее действенных способов повышения качества рекомендующих систем является использование этими системами информации о текущем контексте. В статье произведен обзор основных методов использования информации о контексте в системах коллаборативной фильтрации. Особое внимание уделено разновидностям метода предварительной контекстной фильтрации и метода разложения матрицы предпочтений в связи с их перспективностью и широким распространением.
В статье рассматриваются вопросы, посвященные созданию автоматической системы синтеза по ключевым словам коротких текстовых сообщений с заданной семантической и эмоциональной направленностью в сети Интернет. Предложена эскизная структура прототипа такой системы, определен состав ее основных компонентов.
При разработке интерактивных динамических веб-приложений необходимо учитывать не только используемые типы данных и способы их ввода/вывода, но и обеспечить способность приложения анализировать текущие условия, в которых будет проходить взаимодействие с пользователем, и соответствующим образом адаптировать мультимедийный контент с целью повышения удобства и естественности человеко-машинного диалога. В статье проведен анализ современных работ, связанных с автоматической генераций веб-интерфейсов, проектированием многомодальных пользовательских веб-приложений, а также рассмотрены подходы к описанию, извлечению и обработке контекстной информации, необходимой для настройки веб-интерфейса к текущим условиям эксплуатации в процессе взаимодействия с пользователем.
На сегодняшний день различные информационные технологии все больше и больше становятся неотъемлемой частью повседневной жизни человека. Офисы, квартиры, транспорт, дороги общего пользования и т.п., оснащаются всевозможными сенсорами, датчиками, камерами и др. приборами для наблюдения за изменяющейся окружщей средой вокруг них. Целью внедрения таких технических средств является обеспечение для человека более удобного и прозрачного использования техники и различных устройств в рамках его окружения. Такие окружения принято называть интеллектуальными пространствами. Действия человека фиксируются в контексте интеллектуального пространства, в котором он находится, и обрабатываются различными системами, использующими этот контекст, для того чтобы более адекватно реагировать на взаимодействие человека с техническими устройствами. В данной работе представлен анализ современных контекстно-ориентированных систем, в ходе которого были рассмотрены их архитектуры, проанализированы достоинства и недостатки рассмотренных архитектур, и выведены общие принципы их построения.
С точки зрения анализа защищенности от социоинженерных атак, в статье предложено рассматривать комплекс «информационная система – персонал» как сложную реляционную систему, состоящую из критичных документов, хостов, пользователей, злоумышленника, причем каждый элемент системы может быть снабжен набором атрибутов, характеризующих его свойства и связи с другими элементами. В рамках предложенной реляционной модели особую роль играет профиль уязвимостей пользователя; в этом контексте были проанализированы связи между проявлениями психологической защиты пользователя и его склонностью к совершению в условиях социоинженерной атаки небезопасных действий.
В статье обосновывается актуальность проблемы быстрой настройки синтаксического определения реализуемого языка на основе применения метода регуляризации трансляционных контекстно-свободных грамматик с помощью эквивалентных преобразований их синтаксических граф-схем, позволяющего оптимизировать построенный синтаксический анализатор. Определяется понятие «регуляризации» для грамматического аспекта. Рассматривается одно из эквивалентных преобразований грамматики в процессе её регуляризации алгоритм исключения лево- (право)рекурсивных нетерминальных символов из контекстно-свободной грамматики в регулярной форме (КСР-грамматики), который реализован в программном средстве SynGT (Syntax Graph Transformations).
Алгебраические байесовские сети представляют собой логико-вероятностную графическую модель систем знаний с неопределенностью и позволяют работать в том числе с интервальными оценками вероятности. Существенной для их работы является вторичная структура, представляемая в виде графа смежности. Данная статья исследует ребра клик минимальных графов смежности для спецификации различных типов клик. В частности, было доказано, что у определенного класса клик, которые являются основными с точки зрения построения множества минимальных графов смежности, множество вершин совпадает с множеством концов особых ребер, вес которых совпадает с весом клики.
При построении сценариев тестирования программ может возникнуть потребность анализа их свойств. Для формального задания сценариев можно применить левоконтекстные терминальные грамматики. В работе доказывается эквивалентность порождающей мощности левоконтекстных терминальных грамматик и контекстно-свободных грамматик и рассматриваются алгоритмы анализа левоконтекстных грамматик, которые могут быть использованы для анализа свойств сценариев тестирования.
Анализируются известные подходы к описанию и формированию контекста в различных информационных средах. Предлагается двухуровневая модель управления контекстом для организации интеллектуальной поддержки принятия решений в динамических структурированных областях. Приводится модель описания ресурсов открытой информационной среды для моделирования текущей ситуации. Определена технологическая модель контекстно-управляемой системы интеллектуальной поддержки принятия решений.
В статье обсуждается структурный подход к представлению информации, в котором понятия сигнала и информации формально разделяются между собой, представление информации трактуется как устойчивая компонента сигнала, и отсчеты представления информации, образуемые носителями ее единиц, задают иерархию разбиений сигнала на вложенные сигналы. Устанавливается преемственность обсуждаемого подхо да в отношении к известным подходам. Обсуждение опирается на аналогию с текстом, анализируемым независимо от языка документа. С учетом особенностей представления информации предлагается алгоритмический способ моделирования распознавания сигналов некоторой вычислительной системой или человеком.
В статье показана актуальность проблемы, представлена классификация социоинженерных атак, предложен возможный подход к оцениванию индекса защищенности информационной системы с точки зрения человеческого фактора, представляющий собой адаптацию методов, применяемых при анализе защищенности программно-аппаратного обеспечения компьютерных сетей.
Рассмотрены программные средства для преобразования информации между гипертекстовыми форматами на основе метаподхода применительно ко всем фазам жиз- ненного цикла документов в указанных форматах.
Рассмотрены вопросы преобразования информации между важнейшими форма тами, показана необходимость использования универсальных открытых форматов, пред ложен мета-подход к выполнению таких преобразований.
Описывается подход к интеллектуальной поддержке учащихся в системах дис танционного обучения, основанный на использовании контекста для оценки уровня знания учащихся и применении методов извлечения знаний из данных к накопленным контекстам учащихся для обеспечения персонифицированной поддержки по улучшению уровня знаний. Результаты работы были проверены при помощи многоагентного моделирования: агента учащегося, агента управления интерфейсом, аккумулирующего агента и агента извлечения знаний из данных.
Приводится и обосновывается алгоритм распознавания цепных и циклических правил для контекстно-свободной грамматики.
Приводится и обосновывается алгоритм распознавания бесконечных правил для контекстно-свободной грамматики.
Рассматриваются описание и преобразования документов как многоуровневых расширяемых гипертекстовых систем. Такой подход позволяет повысить уровень представления и эффективность обработки данных и ведения проектов прежде всего в научных исследованиях и разработке программного обеспечения.
Разработаны, методология и исследовательский прототип многоагентной технологии управления контекстом в открытой информационной среде в рамках интеллектуальной поддержки принятия решений. Показано использование формализма объектно-ориентированных сетей ограничений для представления знаний. Определен набор технологических и проблемно-ориентированных агентов для решения задач управления контекстомв открытой информационной среде, разработаны модели и сценарии их взаимодействия. Исследовательский прототип протестирован на примере комплексной задачи конфигурирования мобильного госпиталя в ситуации техногенной катастрофы.
Предлагается краткий обзор существующих методов понимания речи и текста на основе анализа публикаций в научных журналах и трудах ведущих конференций по речевой тематике. Выделяются два различных подхода к проблеме понимания языка: 1) на основе исчисления высказываний и 2) на основе распознавания смысла (речевого намерения). Приводятся доводы в пользу интегральной парадигмы обработки речи, разрабатываемой СПИИРАН по сравнению с широко известными подходами.
В работе выполнен анализ современного состояния проблемы извлечения знаний из клинических рекомендаций, представленных в виде слабоструктурированных корпусов текстовых документов на естественном языке с учетом их периодического обновления. Рассматриваемые методы интеллектуального анализа накопленных массивов медицинских данных позволяют автоматизировать ряд задач, направленных на повышение качества медицинской помощи за счет значимой поддержки принятия решений в процессе диагностики и лечения. Выполнен обзор известных публикаций, освещающий подходы к автоматизации построения нейросетевых языковых моделей, онтологий и графов знаний в задачах семантического моделирования проблемно-ориентированного корпуса текстов. Представлена структурно-функциональная организация системы извлечения знаний и автоматического построения онтологии и графа знаний проблемно-ориентированного корпуса для конкретной предметной области. Рассмотрены основные этапы извлечения знаний и динамического обновления графа знаний: извлечение именованных сущностей, семантическое аннотирование, извлечение терминов, ключевых слов, тематическое моделирование, идентификация тем и извлечение отношений. Формализованное представление текстов получено с помощью предобученной модели-трансформера BERT. Использовано автоматическое выделение триплетов «объект»-«действие»-«субъект» на основе частеречной разметки корпуса текстов для построения фрагментов графа знаний. Проведен эксперимент на корпусе медицинских текстов заданной тематики (162 документа обезличенных историй болезни пациентов педиатрического центра) без предварительной разметки с целью проверки предложенного решения по извлечению триплетов и конструирования на их основе графа знаний. Анализ экспериментальных результатов подтверждает необходимость более глубокой разметки корпуса текстовых документов для учета специфики медицинских текстовых документов. Показано, что модели общего назначения не позволяют приблизиться по качеству выделения именованных сущностей к специализированным моделям, однако, позволяют предварительно разметить корпус для дальнейшей верификации и уточнения разметки (оценка F1-меры для модели общего назначения – 20,4% по сравнению с вариантом использования словаря – 16,7%). Для неразмеченного корпуса текстов предложенное решение демонстрирует удовлетворительную работоспособность ввиду выделения атомарных фрагментов, включаемых в автоматически формируемую онтологию.
В работе представлено применение алгоритма статистического анализа данных разновременной мультиспектральной аэрофотосъемки с целью выявления участков исторического антропогенного воздействия на природную среду. Исследуемый участок расположен на окраине поселка городского типа Знаменка (Знаменский район Тамбовской области) в лесостепной зоне с типичными черноземными почвами, где во второй половине XIX – начале XX вв. были расположены пашни. Признаком для выявления следов исторического антропогенного воздействия может быть растительность, возникшая в результате вторичной сукцессии на заброшенных участках. Отличительной особенностью такой растительности от окружающей природной среды является ее тип, возраст и плотность произрастания. Таким образом, задача обнаружения границ антропогенного воздействия по мультиспектральным изображениям сводится к задаче классификации растительности. Исходными данными являлись результаты разновременной мультиспектральной съемки в зеленом (Green), красном (Red), краевом красном (RedEdge) и ближнем инфракрасном (NIR) спектральных диапазонах. На первом этапе алгоритма предполагается вычисление текстурных признаков Харалика по данным мультиспектральной съемки, на втором этапе – уменьшение количества признаков методом главных компонент, на третьем – сегментация изображений на основе полученных признаков методом k-means. Эффективность предложенного алгоритма показана при сопоставлении результатов сегментации с эталонными данными исторических картографических материалов. Полученный результат сегментации отражает не только конфигурацию участков анотропогенно-преобразованной природной среды, но и особенности зарастания заброшенной пашни, поскольку исследование разновременных мультиспектральных снимков позволяет более полно охарактеризовать и учесть динамику наращивания фитомассы в разные периоды вегетации.
В этой статье используется всеохватывающая концепция сообществ для выражения социальных контекстов, в которых осуществляется человеческое творчество и происходит обучение. С появлением цифровых технологий эти социальные контексты, сообщества, в которых мы задействованы, радикально меняются. Новый ландшафт, созданный цифровыми технологиями, характеризуется новыми качествами, новыми возможностями для действий сообществ. Термин onlife заимствован из Манифеста Onlife и используется для обозначения сообществ нового типа, созданных современными цифровыми технологиями - сообществ onlife. Представлены принципы проектирования, направленные на развитие таких сообществ и поддержку их членов. Эти принципы составляют основу, которая подчеркивает концепцию перформативности, то есть то, что знания основаны на деятельности человека и действиях, выполняемых в определенных социальных контекстах, а не на развитии концептуальных представлений. Чтобы продемонстрировать использование структуры и соответствующих принципов, в статье представлено, как их можно использовать для анализа, оценки и переформулирования конкретной системы, относя ее к творчеству и обучению в области культурного наследия (преподавание и изучение истории). Одним из наиболее значительных результатов является принятие принципов, которые облегчают вовлечение студентов в учебный процесс, переходя от роли конечного пользователя к роли эксперта-пользователя при поддержке так называемых maieuta-дизайнеров. Результатом этого процесса является использование изученного программного обеспечения не только для потребления готового контента, но и для создания нового, сгенерированного студентами контента, предлагающего студентам новые возможности для обучения. Как показывает оценка, эти новые возможности обучения позволяют студентам развивать более глубокое понимание изучаемых тем.
Эта статья фокусируется на том, чтобы уловить смысл значения текстовых функций понимания естественного языка (NLU) для обнаружения дубликатов неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами для доказательства подходящей методики классификации. Подход трансфертного обучения используется для обучения извлечению признаков в задаче семантического текстового сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для описания семантики текста и применения их к IR. Основным вкладом данной работы является сравнительное исследование измерений семантического сходства. Экспериментальные результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency (TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что двунаправленная долговременная кратковременная память (BiLSTM) может изучать структуру предложения для улучшения классификации.
Разработан подход для сравнительного анализа коллекций научных журналов на основе анализа графа соавторств и модели текста. Использование временных рядов метрик графа соавторства позволило провести анализ тенденций в развитии коллабораций авторов журнала. Модель текста была построена с помощью методов машинного обучения. При помощи модели текста была произведена классификация контента журналов для выявления степени аутентичности различных журналов и различных выпусков одного журнала. Разработана метрика Коэффициент контентной аутентичности, позволяющая количественно оценивать аутентичность коллекций журналов в сравнении. Сравнительный тематический анализ коллекций журналов выполнен с использованием тематической модели с аддитивной регуляризацией. На основании созданной тематической модели авторами построены тематические профили архивов журналов в едином тематическом базисе. Разработанный подход был применен к архивам двух журналов по тематике Ревматология за период 2000 – 2018 гг. В качестве эталона для сравнения метрик соавторств были взяты публичные наборы данных научной лаборатории SNAP Стендфордского университета. Проведено сравнение коллабораций соавторов журналов по тематике Ревматология с эталонными коллаборациями авторов. Произведено количественное сопоставление больших объемов текстов и метаданных научных статей. В результате проведенного авторами эксперимента с использованием разработанных методик показано, что контентная аутентичность выбранных журналов составляет 89%, соавторства в одном из журналов имеют ярко выраженную центральность, что является отличительной чертой редакционной политики. Наглядность и непротиворечивость полученных результатов подтверждает эффективность предложенного подхода. Разработанный в ходе эксперимента код на языке программирования Python может быть применен для сравнительного анализа других коллекций журналов на русском языке.
В результате анализа выявлено, что социальные сети (Вконтакте, Facebook), тематические сообщества в сетях микроблогинга (Twitter), ресурсы для путешественников (TripAdvisor), транспортные порталы (Autostrada) являются источником актуальной и оперативной информации о дорожно-транспортной обстановке, качестве предоставляемых транспортных услуг и степени удовлетворенности пассажиров уровнем транспортного обслуживания. Однако существующие системы транспортного мониторинга не содержат программных инструментов, способных осуществлять сбор и анализ дорожно-транспортной информации в среде Интернет. В настоящей работе рассматривается задача построения системы автоматического извлечения и классификации дорожно-транспортной информации с транспортных интернет-порталов и апробация разработанной системы для анализа транспортных сетей Крыма и города Севастополя. Для решения этой задачи проанализированы библиотеки с открытым исходным кодом для тематического сбора и исследования данных. Разработан алгоритм для извлечения и анализа текстов. Осуществлена разработка краулера с использованием пакета Scrapy на языке Python3 и собраны отзывы пользователей с портала http://autostrada.info/ru о состоянии транспортной системы Крыма и города Севастополя. Для лемматизации текстов и векторного преобразования текстов были рассмотрены методы tf, idf, tf-idf и их реализация в библиотеке Scikit-Learn: CountVectorizer и TF-IDF Vectorizer. Для обработки текстов были рассмотрены методы Bag-of-Words и n-gram. В ходе разработки модели классификатора рассмотрены наивный байесовский алгоритм (MultinomialNB) и модель линейного классификатора с оптимизацией стохастического градиентного спуска (SGDClassifier). В качестве обучающей выборки использовался корпус объемом 225 тысяч размеченных текстов с ресурса Twitter. Проведено обучение классификатора, в ходе которого использовалась стратегия кросс-валидации и метод ShuffleSplit. Проведено тестирование и сравнение результатов тоновой классификации. По результатам валидации лучшей оказалась линейная модель со схемой n-грамм [1, 3] и векторизатором TF-IDF. В ходе апробации разработанной системы был проведен сбор и анализ отзывов, относящихся к качеству транспортных сетей республики Крым и города Севастополя. Сделаны выводы и определены перспективы дальнейшего функционального развития разрабатываемого инструментария.
Одной из наиболее актуальных задач, связанных с защитой облачных вычислений, является анализ криптостойкости гомоморфных шифров. Данная статья посвящена изучению вопроса о защищенности двух недавно предложенных гомоморфных криптосистем, которые, в связи с их высокой вычислительной эффективностью, могут быть использованы для шифрования данных на облачных серверах. Обе криптосистемы основаны на системах остаточных классов, что позволяет рассмотреть их с единых позиций. Именно использование систем остаточных классов делает применение этих криптосистем в реальных приложениях заманчивым с точки зрения эффективности по сравнению с другими гомоморфными шифрами, так как появляется возможность легко распараллелить вычисления. Однако их криптостойкость не была в достаточной мере изучена в литературе и нуждается в анализе.
Отметим, что ранее предшественниками была рассмотрена криптосистема похожая на один из шифров, криптостойкость которого исследуется. Была предложена идея адаптивной атаки по выбранным открытым текстам на эту конструкцию и дана оценка необходимого для раскрытия ключа количества пар <<открытый текст, шифртекст>>. Здесь проводится анализ этой атаки и показываем, что иногда она может работать некорректно. Также описывается более общий алгоритм атаки с известными открытыми текстами. Приводятся теоретические оценки вероятности успешного раскрытия секретного ключа с его помощью и практические оценки этой вероятности, полученные в ходе вычислительного эксперимента.
Защищенность второй криптосистемы не была исследована ранее в литературе. Изучена её стойкость к атаке с известными открытыми текстами. Проанализирована зависимость необходимого для взлома количества пар <<открытый текст, шифртекст>> от параметров криптосистемы и даны рекомендации, которые могут помочь улучшить криптостойкость.
Итог проведенного анализа заключается в том, что обе криптосистемы являются уязвимыми к атаке с известными открытыми текстами. Поэтому использовать их для шифрования конфиденциальных данных может быть небезопасно.
Основным алгоритмом, используемым в предложенных атаках на криптосистемы, является алгоритм поиска наибольшего общего делителя. Как следствие, время, необходимое для реализации атак, является полиномиальным от размера входных данных.
Распознавание эмоций в речи стало одним из важных направлений в области аффективных вычислений. Это комплексная задача, трудности которой во многом определяются необходимостью выбора признаков и их оптимального представления. Оптимальное представление признаков должно отражать глобальные характеристики, а также локальную структуру сигнала, поскольку эмоции естественным образом длятся во времени. Подобное представление возможно моделировать с помощью рекуррентных нейронных сетей (РНС – RNN), которые активно используются для различных задач распознавания, предполагающих работу с последовательностями. Предлагается смешанный подход к представлению признаков, который объединяет традиционные статистические признаки с последовательностью значений, полученных на выходе РНС с длинной кратковременной памятью (ДКП – LSTM) и хорошо моделирующих временную структуру сигнала. Таким образом, удается получить одновременное представление как кратковременных, так и долгосрочных характеристик, позволяющих использовать преимущества обоих подходов к моделированию признаков речевого сигнала. Для экспериментальной проверки предложенного метода была произведена оценка его эффективности на трех различных базах данных эмоционально окрашенной речи, находящихся в свободном доступе: RUSLANA (русская речь), BUEMODB (турецкая речь) и EMODB (немецкая речь). В сравнении с традиционным подходом результаты наших экспериментов показывают абсолютный прирост в точности распознавания эмоций в 2.3% и 2.8% для двух из вышеупомянутых корпусов, в то время как для третьего корпуса предложенный метод не уступает базовой системе. Следовательно, данный подход можно признать эффективным для моделирования эмоциональной окраски речевых высказываний при условии достаточного количества обучающих данных.
Анализируется текущее состояние в области защиты от ложной информации в компьютерных сетях и формулируются актуальные проблемы, связанные с этой защитой. Предлагается подход к оценке мероприятий защиты от такой информации на основе использования марковской модели дезинформирования. Раскрывается архитектура перспективной системы анализа информации в компьютерных сетях по требованиям достоверности. В рамках этой архитектуры рассматриваются усовершенствованные методы анализа достоверности текстов. Предлагается комплексный подход к использованию известных и предложенных методов для оперативного выявления ложной информации в компьютерных сетях. Кроме того, метод может применяться в области борьбы с киберпреступностью и терроризмом для поиска сетевых ресурсов и коммуникационных площадок, которые могут быть использованы для организации противоправной деятельности.
Предложен алгоритм формирования системы эффективных классификационных характеристик, основанный на концепции усеченного перебора и использовании информации об индивидуальных показателях классификации при выборе гранул. Его вычислительная эффективность обеспечивается применением операций простого сравнения результатов классификации отдельных классов при выборе наиболее информативной гранулы на очередной итерации и использованием технологии параллельных вычислений на графических процессорах.
Рассмотрены известные методы усеченного перебора для формирования систем эффективных классификационных характеристик. Обсуждаются результаты поиска информативных признаков на примере решения задачи классификации облачности на основе применения вероятностной нейронной сети и информации о текстуре спутниковых снимков MODIS. Представлено описание используемого классификатора и статистического подхода к описанию текстуры изображений.
Определены наиболее эффективные классификационные характеристики облачности путем сравнения комбинаций текстурных признаков, полученных с помощью методов усеченного перебора. Показаны результаты исследования динамики изменения оценки правильно проклассифицированных облаков при выполнении различных алгоритмов поиска информативных признаков. Установлено, что разработанный в данной работе метод позволяет уменьшить разброс значений вероятности правильной классификации отдельных классов.
В рамках инфологического подхода, в целях автоматизации процесса записи больных в медицинских учреждениях, предложена методика обработки обращений пациентов на основе применения инфологической системы, позволяющая организовать электронную запись больных к специалистам медицинского учреждения путем выявления семантического содержания жалоб на состояние здоровья.
В статье рассматриваются проблемы поддержки принятия решений при конфигурировании гибких сетевых организаций. Показано, что одним из наиболее перспективных форм поддержки принятия решений в данной области являются групповые рекомендующие системы. Такие системы предлагают некоторые решения (связанные с изделиями, услугами, технологиями, инструментами, материалами и бизнес-моделями) на основе требований групп пользователей, их предпочтений, и желании идти на компромисс и предлагать свои идеи. Рассмотрены особенности групповых рекомендующих систем и основные проблемы, которые необходимо решить для повышения эффективности работы таких систем. Предложены подходы для решения вышеуказанных проблем.
В статье описан процесс создания статистической модели русского языка для систем распознавания слитной речи. Дана характеристика собранного текстового корпуса, который сформирован из новостных лент ряда Интернет-сайтов электронных газет, проводится статистический анализ данного корпуса. На основе собранного текстового корпуса созданы униграммная, биграммная и триграммная модели русского языка. Для определения качества этих моделей использованы показатели энтропии и коэффициента неопределенности для этих моделей. Также в статье приведен обзор существующих подходов к созданию статистических моделей языка.
Сформулированы и решены практические вопросы извлечения данных из викисловаря, представляющего собой тезаурус и многофункциональный многоязычный словарь (только в русском викисловаре представлено более 300 языков). Для хранения лексикографической информации, извлеченной из русского викисловаря, разработаны структура базы данных машинно-читаемого словаря, а также интерфейс к этой базе данных который позволяет выводить на экран карточки словарных статей. В работе рассказывается о создании машинно-читаемого словаря на основе данных русского викисловаря.
1 - 25 из 65 результатов