В интернете «фейковые новости» - это распространенное явление, которое часто беспокоит общество, поскольку содержит заведомо ложную информацию. Проблема активно исследовалась с использованием обучения с учителем для автоматического обнаружения фейковых новостей. Хотя точность растет, она по-прежнему ограничивается идентификацией ложной информации через каналы на социальных платформах. Это исследование направлено на повышение надежности обнаружения фейковых новостей на платформах социальных сетей путем изучения новостей с неизвестных доменов. Особенно трудно обнаружить и предотвратить распространение информации в социальных сетях во Вьетнаме, потому что все имеют равные права на использование интернета для разных целей. Эти люди имеют доступ к нескольким платформам социальных сетей. Любой пользователь может публиковать или распространять новости через онлайн-платформы. Эти платформы не пытаются проверять пользователей, их местоположение или содержимое их новостей. В результате некоторые пользователи пытаются распространять через эти платформы фейковые новости для пропаганды против отдельного лица, общества, организации или политической партии. Мы предложили проанализировать и разработать модель распознавания фейковых новостей с использованием глубокого обучения (называемого AAFNDL). Метод выполнения работы: 1) во-первых, анализируем существующие методы, такие как представление двунаправленного кодировщика от преобразователя (BERT); 2) приступаем к построению модели для оценки; 3) подходим к применению некоторых современных методов к модели, таких как метод глубокого обучения, метод классификатора и т.д., для классификации ложной информации. Эксперименты показывают, что наш метод может улучшить результаты на 8,72% по сравнению с другими методами.
Современные модели искусственного интеллекта развиваются в парадигме чёрного ящика, когда значима только информация на входе и выходе системы, тогда как внутренние представления интерпретации не имеют. Такие модели не обладают качествами объяснимости и прозрачности, необходимыми во многих задачах. Статья направлена на решение данной проблемы путём нахождения семантических факторов Ч. Осгуда в базовой модели машинного обученния word2vec, представляющей слова естественного языка в виде 300-мерных неинтерпретируемых векторов. Искомые факторы определяются на основе восьми семантических прототипов, составленных из отдельных слов. Ось оценки в пространстве word2vec находится как разность между положительным и отрицательным прототипами. Оси силы и активности находятся на основе шести процессно-семантических прототипов (восприятие, анализ, планирование, действие, прогресс, оценка), представляющих фазы обобщённого кругового процесса в данной плоскости. Направления всех трёх осей в пространстве word2vec найдены в простой аналитической форме, не требующей дополнительного обучения. Как и ожидается для независимых семантических факторов, полученные направления близки к попарной ортогональности. Значения семантических факторов для любого объекта word2vec находятся с помощью простой проективной операции на найденные направления. В соответствии с требованиями к объяснимому ИИ, представленный результат открывает возможность для интерпретации содержимого алгоритмов типа ``чёрный ящик'' в естественных эмоционально-смысловых категориях. В обратную сторону, разработанный подход позволяет использовать модели машинного обучения в качестве источника данных для когнитивно-поведенческого моделирования.
В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.
Целью исследования является получение более легковесной языковой модели, которая сравнима по показателям EM и F-меры с лучшими современными языковыми моделям в задаче нахождения ответа на вопрос в тексте на русском языке. Результаты работы могут найти применение в различных вопросно-ответных системах, для которых важно время отклика. Поскольку более легковесная модель имеет меньшее количество параметров чем оригинальная, она может быть использована на менее мощных вычислительных устройствах, в том числе и на мобильных устройствах. В настоящей работе используются методы обработки естественного языка, машинного обучения, теории искусственных нейронных сетей. Нейронная сеть настроена и обучена с использованием библиотек машинного обучения Torch и Hugging face. В работе было проведено обучение модели DistilBERT на наборе данных SberQUAD с применением дистилляции и без. Произведено сравнение работы полученных моделей.Обученная в ходе дистилляции модель DistilBERT (EM 58,57 и F-мера 78,42) смогла опередить результаты более крупной генеративной сети ruGPT-3-medium (EM 57,60 и F-мера 77,73) притом, что ruGPT-3-medium имеет в 6,5 раз больше параметров. Также модель продемонстрировала лучшие показатели EM и F-мера, чем та же модель, но к которой применялось только обычное дообучение без дистилляции (EM 55,65, F-мера 76,51). К сожалению, полученная модель сильнее отстаёт от более крупной дискриминационной модели ruBERT (EM 66,83, F-мера 84,95), которая имеет в 3,2 раза больше параметров. Предложены направления для дальнейшего исследования.
Эта статья фокусируется на том, чтобы уловить смысл значения текстовых функций понимания естественного языка (NLU) для обнаружения дубликатов неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами для доказательства подходящей методики классификации. Подход трансфертного обучения используется для обучения извлечению признаков в задаче семантического текстового сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для описания семантики текста и применения их к IR. Основным вкладом данной работы является сравнительное исследование измерений семантического сходства. Экспериментальные результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency (TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что двунаправленная долговременная кратковременная память (BiLSTM) может изучать структуру предложения для улучшения классификации.
Событийно-управляемые программные системы в научной литературе относят к классу систем со сложным поведением, называемых реагирующими системами (reactive systems), то есть систем, которые на одно и то же входное воздействие реагируют по-разному в зависимости от своего состояния и предыстории. Такие системы удобно описывать с помощью автоматных моделей с использованием специальных языковых средств – как графических, так и текстовых. Представлена методика автоматизированного построения систем со сложным поведением с использованием разработанного авторами языка CIAO (Cooperative Interaction of Automata Objects), который позволяет на основе неформального описания реагирующей системы формально специфицировать требуемое поведение. Описание реагирующей системы может быть задано словесно на естественном языке или иным способом, принятым в конкретной предметной области. Далее по этой спецификации на языке CIAO специальным преобразователем генерируется программная система взаимодействующих автоматов на языке программирования С++. Сгенерированная программа реализует поведение, гарантированно соответствующее заданной спецификации и исходному неформальному описанию. Для языка CIAO предусмотрена как графическая, так и текстовая нотация. Графическая нотация основана на расширенной нотации диаграмм автомата и диаграмм компонентов унифицированного языка моделирования UML, которые хорошо зарекомендовали себя в описании поведения управляемых событиями систем. Текстовый синтаксис языка CIAO описан контекстно-свободной грамматикой в регулярной форме. Автоматически генерируемый код на языке С++ допускает использование как библиотечных, так и любых внешних функций, написанных вручную. При этом доказательное соответствие формальной спецификации и сгенерированного кода сохраняется при условии соответствия внешних функций своим спецификациям. В качестве примера предложено оригинальное решение задачи Д. Кнута о реагирующей системе управления лифтом. Продемонстрирована действенность предлагаемой методики, поскольку сам автомат-преобразователь, генерирующий код на С++, представлен как реагирующая система, специфицирован на языке CIAO и реализован методом раскрутки. Проведено сравнение предлагаемой методики с другими известными формальными методами описания систем со сложным поведением.
В статье проведен обзор существующих систем компьютерного сурдоперевода, выявлены их преимущества и недостатки. Рассматривается общий случай перевода (в обе стороны): со звучащего русского на русский язык жестов и наоборот. Предложен новый способ построения семантического блока системы компьютерного сурдоперевода. Для установления соответствия «слово-жест» определены лексические значения слов. Среди множества альтернатив на основе алгоритма семантического анализа за каждым словом закрепляется единственное лексическое значение. Для простых предложений разработаны и реализованы алгоритмы семантического анализа. Предложен способ перевода русского текста на русский жестовый язык на основе сопоставления синтаксических конструкций. Разработана соответствующая библиотека для определения синтаксических конструкций. Для создания архитектуры будущей системы распознавания жестов были рассмотрены существующие аппаратно-программные средства.
В данной статье описаны результаты исследования «Перцептивная шкала длительностей фонетических единиц языка». В ходе исследования были проведены два психоакустических эксперимента, в результате которых был установлен порог восприятия длительности ударных гласных. В среднем он составляет 2–4 периода основного тона, что приблизительно соответствует 20–40 мс. Показано, что величина порога не зависит от количества слогов в слове и места ударения. В разделах статьи представлены: краткий обзор литературных данных по проблеме, а также описание психоакустических экспериментов, целью которых было установить слуховые дифференциальные пороги длительности для русских гласных с учетом фонетического контекста, статистический анализ результатов эксперимента, а также выводы по полученным данным.
Создание модели языка является одним из этапов обучения системы распознавания слитной речи. В статье описаны алгоритм и разработанные программные средства для создания синтаксическо-статистической модели русского языка по текстовому корпусу. Основными этапами в работе алгоритма являются предварительная обработка текстового материала, создание статистической n-граммной модели языка, дополнение статистической модели n-граммами, полученными в результате синтаксического анализа. Синтаксический анализ позволяет увеличить количество создаваемых в результате обработки текста различных биграмм и тем самым повысить качество модели языка за счет выявления грамматически связанных пар слов. Приводятся результаты тестирования созданных с помощью программного модуля моделей языка по показателям информационной энтропии, коэффициента неопределенности, относительного количества внесловарных слов и совпадений n-грамм.
Рассматривается задача построения многоуровневого описания классов, объекты которых характеризуются свойствами своих элементов и отношениями между ними. Задачи распознавания и анализа таких объектов являются NP-трудными, но при наличии достаточно коротких и часто встречающихся подформул в описаниях классов можно построить многоуровневое описание классов, существенно понижающее значение показателя степени в оценках числа шагов алгоритмов, решающих эти задачи. До сих пор выделение таких подформул оставлялось на усмотрение разработчика системы распознавания. В работе предлагается подход к их автоматическому выделению.
Настоящая работа посвящена исследованию темпоральных характеристик гласных в словах, расположенных на концах крупных смысловых единиц — синтагм и фраз. Исследование выполняется на материале корпуса CORPRES, содержащего записи чтения текстов профессиональными дикторами; общее время звучания проанализированного материала составляет около 12 часов. Результаты анализа значений нормализованной длительности гласных показали, что в словах, расположенных на конце синтагмы или фразы, удлиняется ударный гласный, а также заударный, если он находится в абсолютном конце слова; это верно даже в тех случаях, когда фразовое ударение реализуется не на последнем слове синтагмы. На степень удлинения влияет наличие последующей паузы, «глубина» границы, наличие фразового ударения на последнем слове синтагмы и тип интонационного контура. Кроме того, описаны особенности темпорального оформления незавершенности по типу ИК-3 и логического ударения по типу ИК-2 в позиции перед границей синтагмы.
Статья посвящена исследованию возможностей языков семейства Prolog для их использования при решении задач распознавания изображений на экране дисплея. Отмечены трудности, возникшие при реализации подхода на языках семейства Prolog. Показано, как использование оценок числа шагов работы алгоритма поиска вывода для рассматриваемой задачи позволило преодолеть возникшие трудности. Приведены примеры применения написанных программ к выделению эталонного изображения на сложном изображении. Проанализированы особенности использования различных форматов изображения, предъявленного к распознаванию.
Предлагается формализм для описания помеченных систем переходов, который унифицируют формат состояний системы переходов, формат инструкций компьютерных языков, представляемых метками системы переходов, и формат и семантику правил перехода и, тем самым, делает процесс разработки операционной семантики компьютерных языков более технологичным.
В статье представлена обзорная характеристика систем машинного перевода, предназначенных для жестовых языков и базирующихся на использовании семантического языка-посредника (интерлингвы). Рассматриваются принципы построения интерлингвы в двух разработках: ZARDOZ (многоязыковая система, ориентированная на ряд жестовых языков, в частности, американский, ирландский, японский) и Multi-path (система с многоходовой архитектурой, предназначенная для перевода с английского языка на американский жестовый язык). Обсуждение архитектуры этих систем и требований, обусловленных спецификой жестовых языков, проводится на содержательном уровне, без углубления в математические и технические детали. Цель статьи: способствовать пониманию проблем и стратегий формализации семантики жестовых языков в рамках систем автоматического перевода.
В работе выполнен количественный анализ лексики английского языка по данным трѐх электронных словарей: Английского Викисловаря, WordNet и Русского Викисловаря. Сравнивается объѐм словарей и распределение слов английского языка по частям речи. Приводится соотношение многозначных слов и слов с одним значением, а также распределение английских слов по числу значений. Эксперименты показывают, что лингвистические ресурсы, созданные как экспертами, так и энтузиастами, подчиняются общим законам.
В статье дан аналитический обзор особенностей русского жестового языка и калькирующей жестовой речи, в том числе жестовых лексиконов и грамматических конструкций данного языка, а также возможных методов формализованного представления элементов словаря жестов. В ходе междисциплинарных исследований была адаптирована для задачи синтеза русского жестового языка виртуальная трехмерная модель аватара человека и предложена модель универсального многомодального аудиовизуального синтезатора русской звучащей речи и калькирующей жестовой речи по тексту.
Ряд задач искусственного интеллекта, включающих в себя такие задачи как распознавание образов, медицинская диагностика, анализ рынка, сведены к доказательству выполнимости формул исчисления предикатов, имеющих простую структуру. Рассмотрены некоторые алгоритмы решения этих задач и доказаны верхние оценки числа шагов этих алгоритмов.
В статье описан процесс создания статистической модели русского языка для систем распознавания слитной речи. Дана характеристика собранного текстового корпуса, который сформирован из новостных лент ряда Интернет-сайтов электронных газет, проводится статистический анализ данного корпуса. На основе собранного текстового корпуса созданы униграммная, биграммная и триграммная модели русского языка. Для определения качества этих моделей использованы показатели энтропии и коэффициента неопределенности для этих моделей. Также в статье приведен обзор существующих подходов к созданию статистических моделей языка.
Изложен подход к использованию средств языка XML для спецификации межзадачных и внешних интерфейсов в программных приложениях реального времени. Спецификации позволяют представлять множество задач, составляющих программное приложение; последовательность сегментов кода в каждой из задач; множество интерфейсных элементов, обеспечивающих межзадачные связи; множество датчиков и эффекторов, реализующих связь программного приложения с внешним оборудованием. Элементы спецификации снабжаются динамическими характеристиками исполнения моделируемых объектов. Обработка спецификаций позволяет проверять гарантии своевременности выполнения функций системы реального времени.
Работа посвящена проблеме оценки ситуаций и прогнозирования ее развития в приложениях, в которых требуется иметь средства для гибкого изменения сценариев поведения в зависимости от достигнутых состояний системы и текущего состояния внешней среды в реальном времени. Дается обзор и анализируются достоинства и недостатки существующих языков описания процессов и показывается, что традиционные языки спецификации систем, способные представлять, главным образом, реактивное поведение, не обладают необходимыми выразительными возможностями и потом не в состоянии справиться с поставленной задачей. Особенности рассматриваемой задачи спецификации, оценки и прогнозирования ситуаций демонстрируются на задачи управления фрагментом системы заправки стартового ракетного комплекса. В работе предлагается новый язык, который предназначен для описания знаний о сценариях, позволяющий оценивать текущее состояние исполнения сценария, прогноз его развития и выбора варианта продолжения в зависимости от достигнутых состояний и состояния внешней среды. Дается описание основных элементов языка, их графической нотации и описывается его операционная семантика. Возможности разработанного языка демонстрируются на примере описания модели диагностики нештатных ситуаций в процессе функционирования фрагмента системы заправки. Для этого приложения представлены примеры спецификации процесса в терминах разработанного языка сценариев.
Заявленная в заглавии данной статьи тема подразумевает описание концепции и способов реализации программного модуля синтаксического анализа для современного ли тературного русского языка. Описание организовано следующим образом: сначала излага ются теоретические принципы автоматического синтаксического анализа, а затем пред ставляется способ программной реализации модуля.
Рассмотрены возможности создания веб-сервиса исключительно на языке Пролог без использования других языков программирования: описаны как основные возможности разбора и генерации веб-документов с помощью языка SWI-Prolog, так и различные модели HTTP серверов и клиентов, поддерживаемых языком SWI-Prolog.
Предлагается расширение возможностей аппарата алгоритмических сетей путем сравнения его с классическими языками программирования.
Логико-лингвистическое моделирование целеполагания в промышленных организационных системах предполагает лингвистическую формализацию цели. Для лингвистической формализации цели предложены настраиваемая на предметную область и решаемую проблему специфическая деятельностная модель цели и разработанный на ее основе адаптивный язык представления целей.
Предложена методика реализации механизма откатов (бэктрекинга, backtracking) для языка Форт, отличающаяся использованием только одного стека (стека возвратов) и совместимостью с механизмом локальных переменных. Обсуждается возможность применения аналогичных методов для расширения бэктрекингом языка Си. Бэктрекинг позволяет ввести в язык еще один вид модульности — модули, отвечающие за пере- бор.
Обработка естественного языка (NLP) — это разновидность искусственного интеллекта, демонстрирующая, как алгоритмы могут взаимодействовать с людьми на их уникальных языках. Кроме того, анализ настроений в NLP лучше проводится во многих программах, включая оценку настроений на телугу. Для обнаружения текста на телугу используются несколько неконтролируемых алгоритмов машинного обучения, таких как кластеризация k-средних с поиском с кукушкой. Однако эти методы с трудом справляются с кластеризацией данных с переменными размерами и плотностью кластеров, низкой скоростью поиска и плохой точностью сходимости. В ходе этого исследования была разработана уникальная система анализа настроений на основе машинного обучения для текста на телугу, позволяющая устранить указанные недостатки. Первоначально, на этапе предварительной обработки, предлагаемый алгоритм линейного преследования (LPA) удаляет слова в пробелах, знаках препинания и остановках. Затем для маркировки POS в этом исследовании было предложено условное случайное поле с лексическим взвешиванием; После этого предлагается надуманный пассивно-агрессивный классификатор с нечетким взвешиванием (CPSC-FWC) для классификации настроений в тексте на телугу. Следовательно, предлагаемый нами метод дает эффективные результаты с точки зрения точности, воспроизводимости и показателя f1.
В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.
Автоматический синтаксический анализ предложения — одна из важных задач компьютерной лингвистики. В настоящее время для русского языка отсутствуют общедоступные и пригодные для практического применения анализаторы синтаксической структуры. Создание таких анализаторов «с нуля» требует составления корпуса деревьев, размеченного в соответствии с заданной формальной грамматикой, что представляет собой крайне трудоёмкую задачу. Однако, поскольку для русского языка существует несколько анализаторов синтаксических связей, представляется полезным использовать результаты их работы для анализа синтаксической структуры предложений. В настоящей работе предлагается алгоритм, позволяющий построить дерево синтаксических единиц русскоязычного предложения по данному дереву синтаксических связей. Алгоритм использует грамматику, сформулированную в соответствии с классическим справочником Д.Э. Розенталя. Приведены результаты экспериментов по оценке качества работы предложенного алгоритма на корпусе из 300 предложений на русском языке. 200 предложений были выбраны из вышеупомянутого справочника и 100 из открытого корпуса публицистических текстов OpenCorpora. В ходе экспериментов предложения подавались на вход анализаторов из состава библиотек Stanza, SpaCy и Natasha, после чего полученные деревья синтаксических связей обрабатывались предложенным алгоритмом. Полученные в результате обработки деревья синтаксических единиц сравнивались с размеченными вручную экспертами-филологами. Наилучшее качество было получено при использовании анализатора синтаксических связей из библиотеки Stanza: F1-мера построения синтаксических единиц составила 0.85, а точность определения членов предложения — 0.93, чего должно быть достаточно для решения многих практических задач в таких областях, как извлечение событий, информационный поиск, анализ тональности.
В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.
В настоящее время системы, разрабатываемые для интеграции реальных физических процессов и виртуальных вычислительных процессов — киберфизических систем (КФС), используются во многих областях промышленности и национальной инфраструктуры, таких как производство, медицина, управление транспортом и безопасность, автомобилестроение, управление промышленными процессами, энергосбережение, экологический менеджмент, промышленные роботы, управление технической инфраструктурой, распределенные роботизированные системы, целевые системы защиты, технологии нанотехнологий и биологических систем. При широком использовании подобных систем уровень ИТ-рисков и киберрисков резко возрастает, в результате чего атаки против КФС могут привести к неуправляемым и непредсказуемым последствиям. Таким образом, существует необходимость в хорошо продуманной системе оценки рисков КФС, что обеспечит общее представление о состоянии безопасности КФС, а также эффективное распределение защищаемых ресурсов. Характер КФС отличается от ИТ-систем главным образом потребностью в операциях реального времени, поэтому традиционный метод оценки рисков для ИТ-систем может быть адаптирован для условий работы КФС. Разработка языка моделирования доменов (“domain specific language”, DSL), основанного на унифицированном языке моделирования UML и описанного в данной статье, обеспечивает синергизм широко используемой в ИТ-индустрии методики с используемыми в конкретных областях подходами к управлению рисками. В отличие от традиционного использования UML для целей имитационного моделирования, описанный в статье язык моделирования DSL обогащен набором стохастических атрибутов моделируемых процессов. Подобные стохастические атрибуты можно использовать для дальнейшей реализации дискретно-событийных симуляторов.
Представлены последние усовершенствования в распознавании сербской речи, достигнутые с использованием современных глубоких нейронных сетей, основанных на применении дискриминативного обучения на последовательностях для акустического моделирования. Описываются несколько вариантов новой системы распознавания слитной речи с большим словарем (LVCSR), которая основанна на обучении по критерию максимальной взаимной информации (LF-MMI) без использования решетки. Параметры системы варьировались таким образом, чтобы достичь наименьших значений ошибки распознавания слов (WER) и ошибки распознавания символов (CER) при использовании самой большой существующей речевой базы данных сербского языка и наилучшей n-граммной языковой модели общего назначения. В дополнение к настройке самой нейронной сети (числа слоев, сложности, объединения элементов слоя и т.д.) для получения наилучших результатов были исследованы и другие ориентированные на конкретный язык способы оптимизации, такие как использование акценто-зависимых моделей гласных фонем и их сочетание с тональными признаками. Также была исследована настройка речевой базы данных, которая включает в себя искусственное расширение базы данных путем изменения скорости речевых высказываний и масштабирование уровня громкости для учета вариативности речи.
Результаты экспериментов показали, что 8-слойная глубокая нейронная сеть с 625 нейронами в каждом слое работает в данных условиях работает лучше других сетей без необходимости увеличения речевой базы данных или регулировки громкости. Кроме того, тональные признаки в сочетании с использованием акценто-зависимых моделей гласных обеспечивают наилучшие показатели точности во всех экспериментах. Ключевые слова: глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI, акценты, основной тон, сербский.
В данной статье предлагается метод автоматического предсказания интонационно выделенных слов, то есть наиболее важной информации в высказывании. Метод опирается на использование лексических, грамматических и синтаксических маркеров интонационного выделения, что делает возможным его применение в системах синтеза речи по тексту, где реализация интонационного выделения может повысить естественность звучания синтезированной речи.
В качестве методов классификации независимо друг от друга использовалось несколько различных моделей: наивная байесовская модель, модель максимальной энтропии и условные случайные поля. Сопоставление результатов, полученных в ходе нескольких экспериментов, показало, что использовавшиеся дискриминативные модели демонстрируют сбалансированные и примерно равные значения метрик качества, в то время как генеративная модель потенциально более пригодна для поиска интонационно выделенных слов в речевом сигнале.
Результаты, представленные в статье, сравнимы и в некоторых случаях превосходят аналогичные системы, разработанные для других языков.
В статье рассматривается новый подход к выполнению классификации текстов, учитывающий наличие различных типов классификационных признаков (бинарных, номинальных, порядковых и интервальных).
Особенность представленного подхода состоит в поэтапном проведении классификации, которое дает возможность не приводить разнотипные признаки, характеризующие текст, к единому диапазону. Также в статье предлагается набор классификационных признаков для проведения классификации русскоязычных текстов на основании их предполагаемой возрастной аудитории.
В работе описывается вычислительный эксперимент с использованием текстов, включенных в Национальный корпус русского языка. Выборка включает в себя заведомо качественные и максимально разнообразные тексты, написанные на русском языке. Документы, входящие в состав рассматриваемой выборки, разделены в соответствии с мнениями экспертов-лингвистов на две категории — взрослые и детские. Таким образом, для обучения и тестирования использовались тексты, размеченные экспертами.
В статье приведены значения точности классификации текстов, полученные в результате проведения серии экспериментов по автоматическому определению возрастных категорий адресатов текста (для кого написан текст — для детей или для взрослых).
В статье представлен аналитический обзор основных разновидностей акустических и языковых моделей на основе искусственных нейронных сетей для систем автоматического распознавания речи. Рассмотрены гибридный и тандемный под-ходы объединения скрытых марковских моделей и искусственных нейронных сетей для акустического моделирования, описано построение языковых моделей с применением сетей прямого распространения и рекуррентных нейросетей. Обзор исследований в данной области показывает, что применение искусственных нейронных сетей как на этапе акустического, так и на этапе языкового моделирования позволяет снизить ошибку распознавания слов.
В работе рассмотрен подход к многозначной классификации текстовых документов на основе вероятностного тематического моделирования. На базе корпуса SCTM-ru построена тематическая модель методом обучения с учителем, приведен алгоритм многозначной классификации. Описан состав программного прототипа, реализующего предложенный подход.
В статье рассмотрена задача идентификации символов текстов на естественном языке по числовым характеристикам этих текстов. На основе правил языка и частот биграмм предложено решение данной задачи для русских текстов. Решение представляет собой систему идентифицирующих функций для каждого символа алфавита и детерминированную последовательность их применения. Указаны ограничения для полученного решения, область его эффективного применения и возможности расширения.
В статье рассматривается задача создания русскоязычного специального корпуса текстов для тестирования алгоритмов вероятностного тематического моделирования. В качестве наполнения корпуса предлагается использовать статьи международного новостного сайта «Русские Викиновости», распространяемого по свободной лицензии CC BY 2.5. Описан этап предварительной обработки и разметки корпуса текстов. Предложена разметка корпуса текстов, содержащая только необходимую в алгоритмах тематического моделирования информацию.
Разработана методология извлечения словарных помет из интернет-словарей. В соответствие с этой методологией экспертами построено отображение (соответствие один к одному) системы словарных помет Русского Викисловаря (385 помет) и системы словарных помет Английского Викисловаря (1001 помета). Таким образом, построена интегральная система словарных помет (1096 помет), включающая пометы обоих словарей. Разработан синтаксический анализатор (парсер), который распознаёт и извлекает известные и новые словарные пометы, сокращения и пояснения, указанные в начале текста значений слов в словарных статьях Викисловаря. Следует отметить наличие в парсере большого количества словарных помет известных заранее (385 словарных помет для Русского Викисловаря). С помощью парсера на основе данных Русского Викисловаря была построена база данных машиночитаемого Викисловаря, включающая информацию о словарных пометах. В работе приводятся численные параметры словарных помет в Русском Викисловаре, а именно: с помощью разработанной программы было подсчитано, что в базе данных машиночитаемого Викисловаря к 133 тыс. значений слов приписаны пометы и пояснения; для полутора тысяч значений слов был указан регион употребления слова, подсчитано число словарных помет для разных предметных областей. Вкладом данной работы в компьютерную лексикографию является оценка численных параметров словарных помет в больших словарях (пятьсот тысяч словарных статей).
В статье проводится анализ явления лингвистической и социальной колонизации в аспекте инфокоммуникационного процесса. Предложено описание математических, физических и биологических объектов в виде процесса когнитивного программирования, который определяется понятием не информации, а инфологии (процесса информационных преобразований).
В работе описываются разработанные авторами инструментальные средства и комплексный подход на их основе, при котором методы и средства анализа и верификации обеспечены для представителей всех четырех основных классов языков, на которых обычно описываются телекоммуникационные приложения: языки выполняемых спецификаций общего назначения (SDL), языки для описания и анализа укрупненных образцов поведения и выявления зависимостей между ними в сложных системах (UCM), специализированные языки, ориентированные на верификацию спецификаций телекоммуникационных систем (язык интерпретированных MSC диаграмм, язык взаимодействующих конечных автоматов, язык Dynamic-REAL) и индустриальные императивные языки (C/С++). Верификация спецификаций дополняется автоматизированным построением тестовых наборов, обеспечивающих заданную степень покрытия исходных поведенческих требований, причем эти тестовые наборы оптимизированы по заданным критериям производительности. Исполнение тестов происходит в среде автоматизированного тестирования на моделях систем, либо непосредственно на их реализациях, погруженных в соответствующие программные оболочки, обеспечивающие взаимодействие тестируемой системы с тестовым окружением. Тестовая оболочка позволяет одновременно с прогоном тестов проводить автоматизированный анализ результатов тестирования.
В статье исследуются универсальные структуры и их функции в ментальном лексиконе взрослого, изучающего иностранный язык в учебных условиях. Модель ментального лексикона билингва в виде ассоциативно-вербальной сети строится на основе материалов свободных ассоциативных экспериментов, полученных от русскоязычных испытуемых на разных этапах обучения английскому языку (начальный и продвинутый этапы). За универсальные структуры ментального лексикона принимаются локальные группировки разнокодовых узлов, объединенные общим, интегральным значением, которое распределяется по двум межузловым связям. Исследование показывает, что универсальные структуры стабильно функционируют в ментальном лексиконе на разных этапах обучения; формируются в направлении от поверхностного языкового уровня к глубинному; выполняют связующую, интегрирующую и медиативную функции; обеспечивают процессы межъязыкового взаимодействия систем Я1 и Я2.
В работе выполнен количественный анализ лексики русского языка по данным тезауруса Русский WordNet и двух электронных словарей (Русский Викисловарь и Английский Викисловарь). Сравнивается объём словарей и распределение слов русского языка по частям речи. Приводится соотношение многозначных слов и слов с одним значением, а также распределение русских слов по числу значений. Анализ распределения числа значений выявил проблему Английского Викисловаря – отсутствие или недостаточная проработка многозначных русских слов с числом значений больше четырёх (по сравнению со словами Русского Викисловаря). Эксперименты показывают, что лингвистические ресурсы, созданные энтузиастами, демонстрируют те же закономерности, что и традиционные словари.
В работе предлагается метод сглаживания n-граммной модели языка, в основе которого лежит моделирование функции математического ожидания вероятности встречаемости n-грамм. Вместо дисконтирования максимальной вероятности n-грамм предлагается увеличение мощности обучающего множества на ожидаемое число n-грамм, отсутствующих в обучающей базе текстов. Для моделирования этого числа функция математического ожидания вероятности встречаемости экстраполируется к нулевой частоте. На основе статистического анализа текстов построена модель функции математического ожидания встречаемости.
Для распознавания слитной речи со сверхбольшим словарем распознавателю необходима модель языка, описывающая допустимые фразы. В статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим (более 100 тыс. слов) словарем с применением n-граммных моделей языка. Проведено количественное сравнение точности распознавания слов, символов и фонем в зависимости от используемой n-граммной модели при изменении n от 0 до 3.
Метаподход позволяет рассматривать информационные системы, в т.ч. языки и системы программирования, а также данные в различных форматах как многоуровневые развиваемые системы и строить для них соответствующие преобразователи. В статье рассматриваются традиционные и специальные языки программирования и представления данных с точки зрения метаподхода, языки делятся на классы с внутренней либо с внешней метафункциональностью, показываются примеры записи и преобразований между языками, указываются некоторые сложности, возникающие при этом, и пути их преодоления, даются оценки эффективности применения различных языков, делаются выводы о полезности использования рассмотренных языков и подхода в целом для решения типовых задач и представления информации.
1 - 25 из 46 результатов