Найти | Информатика и автоматизация

Поиск статей:

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Нгуен Вьет Хунг, Тханг Куанг Лои, Нгуен Ти Хыонг, Тран Тхи Туй Ханг, Труонг Ту Хыонг

2023-07-06

AAFNDL — точная модель распознавания поддельной информации с использованием глубокого обучения вьетнамского языка

795-825

В интернете «фейковые новости» - это распространенное явление, которое часто беспокоит общество, поскольку содержит заведомо ложную информацию. Проблема активно исследовалась с использованием обучения с учителем для автоматического обнаружения фейковых новостей. Хотя точность растет, она по-прежнему ограничивается идентификацией ложной информации через каналы на социальных платформах. Это исследование направлено на повышение надежности обнаружения фейковых новостей на платформах социальных сетей путем изучения новостей с неизвестных доменов. Особенно трудно обнаружить и предотвратить распространение информации в социальных сетях во Вьетнаме, потому что все имеют равные права на использование интернета для разных целей. Эти люди имеют доступ к нескольким платформам социальных сетей. Любой пользователь может публиковать или распространять новости через онлайн-платформы. Эти платформы не пытаются проверять пользователей, их местоположение или содержимое их новостей. В результате некоторые пользователи пытаются распространять через эти платформы фейковые новости для пропаганды против отдельного лица, общества, организации или политической партии. Мы предложили проанализировать и разработать модель распознавания фейковых новостей с использованием глубокого обучения (называемого AAFNDL). Метод выполнения работы: 1) во-первых, анализируем существующие методы, такие как представление двунаправленного кодировщика от преобразователя (BERT); 2) приступаем к построению модели для оценки; 3) подходим к применению некоторых современных методов к модели, таких как метод глубокого обучения, метод классификатора и т.д., для классификации ложной информации. Эксперименты показывают, что наш метод может улучшить результаты на 8,72% по сравнению с другими методами.

Илья Алексеевич Суров

2022-09-28

Открытие чёрного ящика: Извлечение семантических факторов Осгуда из языковой модели word2vec

916-936

Современные модели искусственного интеллекта развиваются в парадигме чёрного ящика, когда значима только информация на входе и выходе системы, тогда как внутренние представления интерпретации не имеют. Такие модели не обладают качествами объяснимости и прозрачности, необходимыми во многих задачах. Статья направлена на решение данной проблемы путём нахождения семантических факторов Ч. Осгуда в базовой модели машинного обученния word2vec, представляющей слова естественного языка в виде 300-мерных неинтерпретируемых векторов. Искомые факторы определяются на основе восьми семантических прототипов, составленных из отдельных слов. Ось оценки в пространстве word2vec находится как разность между положительным и отрицательным прототипами. Оси силы и активности находятся на основе шести процессно-семантических прототипов (восприятие, анализ, планирование, действие, прогресс, оценка), представляющих фазы обобщённого кругового процесса в данной плоскости. Направления всех трёх осей в пространстве word2vec найдены в простой аналитической форме, не требующей дополнительного обучения. Как и ожидается для независимых семантических факторов, полученные направления близки к попарной ортогональности. Значения семантических факторов для любого объекта word2vec находятся с помощью простой проективной операции на найденные направления. В соответствии с требованиями к объяснимому ИИ, представленный результат открывает возможность для интерпретации содержимого алгоритмов типа ``чёрный ящик'' в естественных эмоционально-смысловых категориях. В обратную сторону, разработанный подход позволяет использовать модели машинного обучения в качестве источника данных для когнитивно-поведенческого моделирования.

Ирина Сергеевна Кипяткова, Ильдар Амирович Кагиров

2022-07-14

Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков

678-709

В статье рассматриваются основные методы решения проблемы малых наборов обучающих данных для создания автоматических систем распознавания речи для так называемых малоресурсных языков. Рассматривается понятие малоресурсных языков и формулируется рабочая дефиниция на основании ряда работ по этой тематике. Определены основные трудности, связанные с применением классических схем автоматического распознавания речи к материалу малоресурсных языков, и очерчен круг основных методов, использующихся для решения обозначенных проблем. В статье подробно рассматриваются методы аугментации данных, переноса знаний и сбора речевого материала. В зависимости от конкретной задачи, выделяются методы аугментации аудиоматериала и текстовых данных, переноса знаний и мультизадачного обучения. Отдельный раздел статьи посвящен существующему информационному обеспечению, базам данных и основным принципам их организации с точки зрения работы с малоресурсными языками. Делаются выводы об оправданности методов аугментации данных и переноса знаний для языков с минимальным информационным обеспечением. В случае полного отсутствия данных для конкретного языка и родительских моделей структурно схожих языков предпочтительным вариантом является сбор новой базы данных, в том числе, при помощи краудсорсинга. Многозадачные модели переноса знаний оказываются эффективными в том случае, если исследователь располагает набольшими наборами данных. Если доступны данные по языку с достаточными ресурсами, предпочтительной является работа с языковой парой. Сделанные в результате данного обзора выводы в дальнейшем предполагается применить при работе с малоресурсным карельским языком, для которого авторы статьи создают систему автоматического распознавания речи.

Денис Талгатович Галеев, Владимир Славиевич Панищев

2022-05-30

Экспериментальное исследование языковых моделей "трансформер" в задаче нахождения ответа на вопрос в русскоязычном тексте

521-542

Целью исследования является получение более легковесной языковой модели, которая сравнима по показателям EM и F-меры с лучшими современными языковыми моделям в задаче нахождения ответа на вопрос в тексте на русском языке. Результаты работы могут найти применение в различных вопросно-ответных системах, для которых важно время отклика. Поскольку более легковесная модель имеет меньшее количество параметров чем оригинальная, она может быть использована на менее мощных вычислительных устройствах, в том числе и на мобильных устройствах. В настоящей работе используются методы обработки естественного языка, машинного обучения, теории искусственных нейронных сетей. Нейронная сеть настроена и обучена с использованием библиотек машинного обучения Torch и Hugging face. В работе было проведено обучение модели DistilBERT на наборе данных SberQUAD с применением дистилляции и без. Произведено сравнение работы полученных моделей.Обученная в ходе дистилляции модель DistilBERT (EM 58,57 и F-мера 78,42) смогла опередить результаты более крупной генеративной сети ruGPT-3-medium (EM 57,60 и F-мера 77,73) притом, что ruGPT-3-medium имеет в 6,5 раз больше параметров. Также модель продемонстрировала лучшие показатели EM и F-мера, чем та же модель, но к которой применялось только обычное дообучение без дистилляции (EM 55,65, F-мера 76,51). К сожалению, полученная модель сильнее отстаёт от более крупной дискриминационной модели ruBERT (EM 66,83, F-мера 84,95), которая имеет в 3,2 раза больше параметров. Предложены направления для дальнейшего исследования.

Сауд Алтаф, Sofia Iqbal, Muhammad Waseem Soomro

2021-06-11

Эффективный алгоритм классификации естественного языка обнаружения повторяющихся контролируемых признаков

623-653

Эта статья фокусируется на том, чтобы уловить смысл значения текстовых функций понимания естественного языка (NLU) для обнаружения дубликатов неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами для доказательства подходящей методики классификации. Подход трансфертного обучения используется для обучения извлечению признаков в задаче семантического текстового сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для описания семантики текста и применения их к IR. Основным вкладом данной работы является сравнительное исследование измерений семантического сходства. Экспериментальные результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency (TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что двунаправленная долговременная кратковременная память (BiLSTM) может изучать структуру предложения для улучшения классификации.

Ирина Викторовна Афанасьева, Фёдор Александрович Новиков, Людмила Николаевна Федорченко

2020-06-01

Методика построения событийно-управляемых программных систем с использованием языка спецификации CIAO

481-514

Событийно-управляемые программные системы в научной литературе относят к классу систем со сложным поведением, называемых реагирующими системами (reactive systems), то есть систем, которые на одно и то же входное воздействие реагируют по-разному в зависимости от своего состояния и предыстории. Такие системы удобно описывать с помощью автоматных моделей с использованием специальных языковых средств – как графических, так и текстовых. Представлена методика автоматизированного построения систем со сложным поведением с использованием разработанного авторами языка CIAO (Cooperative Interaction of Automata Objects), который позволяет на основе неформального описания реагирующей системы формально специфицировать требуемое поведение. Описание реагирующей системы может быть задано словесно на естественном языке или иным способом, принятым в конкретной предметной области. Далее по этой спецификации на языке CIAO специальным преобразователем генерируется программная система взаимодействующих автоматов на языке программирования С++. Сгенерированная программа реализует поведение, гарантированно соответствующее заданной спецификации и исходному неформальному описанию. Для языка CIAO предусмотрена как графическая, так и текстовая нотация. Графическая нотация основана на расширенной нотации диаграмм автомата и диаграмм компонентов унифицированного языка моделирования UML, которые хорошо зарекомендовали себя в описании поведения управляемых событиями систем. Текстовый синтаксис языка CIAO описан контекстно-свободной грамматикой в регулярной форме. Автоматически генерируемый код на языке С++ допускает использование как библиотечных, так и любых внешних функций, написанных вручную. При этом доказательное соответствие формальной спецификации и сгенерированного кода сохраняется при условии соответствия внешних функций своим спецификациям. В качестве примера предложено оригинальное решение задачи Д. Кнута о реагирующей системе управления лифтом. Продемонстрирована действенность предлагаемой методики, поскольку сам автомат-преобразователь, генерирующий код на С++, представлен как реагирующая система, специфицирован на языке CIAO и реализован методом раскрутки. Проведено сравнение предлагаемой методики с другими известными формальными методами описания систем со сложным поведением.

Юлия Сергеевна Мануева, Михаил Геннадьевич Гриф, Андрей Николаевич Козлов

2014-12-26

Построение системы компьютерного сурдоперевода русского языка

170-187

В статье проведен обзор существующих систем компьютерного сурдоперевода, выявлены их преимущества и недостатки. Рассматривается общий случай перевода (в обе стороны): со звучащего русского на русский язык жестов и наоборот. Предложен новый способ построения семантического блока системы компьютерного сурдоперевода. Для установления соответствия «слово-жест» определены лексические значения слов. Среди множества альтернатив на основе алгоритма семантического анализа за каждым словом закрепляется единственное лексическое значение. Для простых предложений разработаны и реализованы алгоритмы семантического анализа. Предложен способ перевода русского текста на русский жестовый язык на основе сопоставления синтаксических конструкций. Разработана соответствующая библиотека для определения синтаксических конструкций. Для создания архитектуры будущей системы распознавания жестов были рассмотрены существующие аппаратно-программные средства.

Карина Владимировна Евграфова, Татьяна Васильевна Качковская

2014-12-16

Дифференциальные пороги восприятия длительности языковых единиц в зависимости от фонетического контекста

114-127

В данной статье описаны результаты исследования «Перцептивная шкала длительностей фонетических единиц языка». В ходе исследования были проведены два психоакустических эксперимента, в результате которых был установлен порог восприятия длительности ударных гласных. В среднем он составляет 2–4 периода основного тона, что приблизительно соответствует 20–40 мс. Показано, что величина порога не зависит от количества слогов в слове и места ударения. В разделах статьи представлены: краткий обзор литературных данных по проблеме, а также описание психоакустических экспериментов, целью которых было установить слуховые дифференциальные пороги длительности для русских гласных с учетом фонетического контекста, статистический анализ результатов эксперимента, а также выводы по полученным данным.

Ирина Сергеевна Кипяткова

2013-02-01

Программно-алгоритмическое обеспечение создания синтаксическо-статистической модели русского языка по текстовому корпусу

332-348

Создание модели языка является одним из этапов обучения системы распознавания слитной речи. В статье описаны алгоритм и разработанные программные средства для создания синтаксическо-статистической модели русского языка по текстовому корпусу. Основными этапами в работе алгоритма являются предварительная обработка текстового материала, создание статистической n-граммной модели языка, дополнение статистической модели n-граммами, полученными в результате синтаксического анализа. Синтаксический анализ позволяет увеличить количество создаваемых в результате обработки текста различных биграмм и тем самым повысить качество модели языка за счет выявления грамматически связанных пар слов. Приводятся результаты тестирования созданных с помощью программного модуля моделей языка по показателям информационной энтропии, коэффициента неопределенности, относительного количества внесловарных слов и совпадений n-грамм.

Татьяна Матвеевна Косовская

2014-06-30

Подход к решению задачи построения многоуровневого описания классов на языке исчисления предикатов

204-217

Рассматривается задача построения многоуровневого описания классов, объекты которых характеризуются свойствами своих элементов и отношениями между ними. Задачи распознавания и анализа таких объектов являются NP-трудными, но при наличии достаточно коротких и часто встречающихся подформул в описаниях классов можно построить многоуровневое описание классов, существенно понижающее значение показателя степени в оценках числа шагов алгоритмов, решающих эти задачи. До сих пор выделение таких подформул оставлялось на усмотрение разработчика системы распознавания. В работе предлагается подход к их автоматическому выделению.

Татьяна Васильевна Качковская

2014-04-09

Использование темпоральных характеристик для сегментации речевого потока на крупные смысловые единицы (на материале русского языка)

68-81

Настоящая работа посвящена исследованию темпоральных характеристик гласных в словах, расположенных на концах крупных смысловых единиц — синтагм и фраз. Исследование выполняется на материале корпуса CORPRES, содержащего записи чтения текстов профессиональными дикторами; общее время звучания проанализированного материала составляет около 12 часов. Результаты анализа значений нормализованной длительности гласных показали, что в словах, расположенных на конце синтагмы или фразы, удлиняется ударный гласный, а также заударный, если он находится в абсолютном конце слова; это верно даже в тех случаях, когда фразовое ударение реализуется не на последнем слове синтагмы. На степень удлинения влияет наличие последующей паузы, «глубина» границы, наличие фразового ударения на последнем слове синтагмы и тип интонационного контура. Кроме того, описаны особенности темпорального оформления незавершенности по типу ИК-3 и логического ударения по типу ИК-2 в позиции перед границей синтагмы.

Татьяна Матвеевна Косовская, Мария Александровна Власова

2013-04-01

Использование языков семейства Prolog для распознавания изображений

277-293

Статья посвящена исследованию возможностей языков семейства Prolog для их использования при решении задач распознавания изображений на экране дисплея. Отмечены трудности, возникшие при реализации подхода на языках семейства Prolog. Показано, как использование оценок числа шагов работы алгоритма поиска вывода для рассматриваемой задачи позволило преодолеть возникшие трудности. Приведены примеры применения написанных программ к выделению эталонного изображения на сложном изображении. Проанализированы особенности использования различных форматов изображения, предъявленного к распознаванию.

Игорь Сергеевич Ануреев

2013-04-01

На пути к технологии разработки операционной семантики компьютерных языков: унифицированный формат помеченных систем переходов

255-276

Предлагается формализм для описания помеченных систем переходов, который унифицируют формат состояний системы переходов, формат инструкций компьютерных языков, представляемых метками системы переходов, и формат и семантику правил перехода и, тем самым, делает процесс разработки операционной семантики компьютерных языков более технологичным.

Михаил Геннадьевич Гриф, Мария Кирилловна Тимофеева

2012-03-01

Интерлингва в системах машинного перевода для жестовых языков

116-137

В статье представлена обзорная характеристика систем машинного перевода, предназначенных для жестовых языков и базирующихся на использовании семантического языка-посредника (интерлингвы). Рассматриваются принципы построения интерлингвы в двух разработках: ZARDOZ (многоязыковая система, ориентированная на ряд жестовых языков, в частности, американский, ирландский, японский) и Multi-path (система с многоходовой архитектурой, предназначенная для перевода с английского языка на американский жестовый язык). Обсуждение архитектуры этих систем и требований, обусловленных спецификой жестовых языков, проводится на содержательном уровне, без углубления в математические и технические детали. Цель статьи: способствовать пониманию проблем и стратегий формализации семантики жестовых языков в рамках систем автоматического перевода.

Андрей Анатольевич Крижановский

2011-12-01

Количественный анализ лексики английского языка в викисловарях и Wordnet.

87-101

В работе выполнен количественный анализ лексики английского языка по данным трѐх электронных словарей: Английского Викисловаря, WordNet и Русского Викисловаря. Сравнивается объѐм словарей и распределение слов английского языка по частям речи. Приводится соотношение многозначных слов и слов с одним значением, а также распределение английских слов по числу значений. Эксперименты показывают, что лингвистические ресурсы, созданные как экспертами, так и энтузиастами, подчиняются общим законам.

Алексей Анатольевич Карпов, Ильдар Амирович Кагиров

2011-03-01

Формализация лексикона системы компьютерного синтеза языка жестов

123-140

В статье дан аналитический обзор особенностей русского жестового языка и калькирующей жестовой речи, в том числе жестовых лексиконов и грамматических конструкций данного языка, а также возможных методов формализованного представления элементов словаря жестов. В ходе междисциплинарных исследований была адаптирована для задачи синтеза русского жестового языка виртуальная трехмерная модель аватара человека и предложена модель универсального многомодального аудиовизуального синтезатора русской звучащей речи и калькирующей жестовой речи по тексту.

Татьяна Матвеевна Косовская

2010-09-01

Некоторые задачи искусственного интеллекта, допускающие формализацию на языке исчисления предикатов, и оценки числа шагов их решения

58-75

Ряд задач искусственного интеллекта, включающих в себя такие задачи как распознавание образов, медицинская диагностика, анализ рынка, сведены к доказательству выполнимости формул исчисления предикатов, имеющих простую структуру. Рассмотрены некоторые алгоритмы решения этих задач и доказаны верхние оценки числа шагов этих алгоритмов.

Ирина Сергеевна Кипяткова, Алексей Анатольевич Карпов

2010-03-01

Разработка и исследование статистической модели русского языка

35-49

В статье описан процесс создания статистической модели русского языка для систем распознавания слитной речи. Дана характеристика собранного текстового корпуса, который сформирован из новостных лент ряда Интернет-сайтов электронных газет, проводится статистический анализ данного корпуса. На основе собранного текстового корпуса созданы униграммная, биграммная и триграммная модели русского языка. Для определения качества этих моделей использованы показатели энтропии и коэффициента неопределенности для этих моделей. Также в статье приведен обзор существующих подходов к созданию статистических моделей языка.

Виктор Викентьевич Никифоров, Вячеслав Иванович Шкиртиль

2009-12-01

Спецификация средствами языка XML системы интерфейсов в приложениях реального времени

159-175

Изложен подход к использованию средств языка XML для спецификации межзадачных и внешних интерфейсов в программных приложениях реального времени. Спецификации позволяют представлять множество задач, составляющих программное приложение; последовательность сегментов кода в каждой из задач; множество интерфейсных элементов, обеспечивающих межзадачные связи; множество датчиков и эффекторов, реализующих связь программного приложения с внешним оборудованием. Элементы спецификации снабжаются динамическими характеристиками исполнения моделируемых объектов. Обработка спецификаций позволяет проверять гарантии своевременности выполнения функций системы реального времени.

Денис Васильевич Троцкий, Владимир Иванович Городецкий

2009-03-01

Сценарная модель знаний и язык описания процессов для оценки и прогнозирования ситуаций

94-127

Работа посвящена проблеме оценки ситуаций и прогнозирования ее развития в приложениях, в которых требуется иметь средства для гибкого изменения сценариев поведения в зависимости от достигнутых состояний системы и текущего состояния внешней среды в реальном времени. Дается обзор и анализируются достоинства и недостатки существующих языков описания процессов и показывается, что традиционные языки спецификации систем, способные представлять, главным образом, реактивное поведение, не обладают необходимыми выразительными возможностями и потом не в состоянии справиться с поставленной задачей. Особенности рассматриваемой задачи спецификации, оценки и прогнозирования ситуаций демонстрируются на задачи управления фрагментом системы заправки стартового ракетного комплекса. В работе предлагается новый язык, который предназначен для описания знаний о сценариях, позволяющий оценивать текущее состояние исполнения сценария, прогноз его развития и выбора варианта продолжения в зависимости от достигнутых состояний и состояния внешней среды. Дается описание основных элементов языка, их графической нотации и описывается его операционная семантика. Возможности разработанного языка демонстрируются на примере описания модели диагностики нештатных ситуаций в процессе функционирования фрагмента системы заправки. Для этого приложения представлены примеры спецификации процесса в терминах разработанного языка сценариев.

Кагиров, Леонтьева

2008-02-01

Модуль синтаксического анализа для литературного русского языка

171-183

Заявленная в заглавии данной статьи тема подразумевает описание концепции и способов реализации программного модуля синтаксического анализа для современного ли тературного русского языка. Описание организовано следующим образом: сначала излага ются теоретические принципы автоматического синтаксического анализа, а затем пред ставляется способ программной реализации модуля.

Антонов, Крижановский

2007-10-01

Создание веб-сервисов на языке Пролог

66-70

Рассмотрены возможности создания веб-сервиса исключительно на языке Пролог без использования других языков программирования: описаны как основные возможности разбора и генерации веб-документов с помощью языка SWI-Prolog, так и различные модели HTTP серверов и клиентов, поддерживаемых языком SWI-Prolog.

Королев

2005-04-01

Алгоритмические сети как визуальный язык программирования

130-137

Предлагается расширение возможностей аппарата алгоритмических сетей путем сравнения его с классическими языками программирования.

Лукьянова

2004-04-01

Адаптивный язык представления цели в системе логико-лингвистического моделирования целеполагания

64-89

Логико-лингвистическое моделирование целеполагания в промышленных организационных системах предполагает лингвистическую формализацию цели. Для лингвистической формализации цели предложены настраиваемая на предметную область и решаемую проблему специфическая деятельностная модель цели и разработанный на ее основе адаптивный язык представления целей.

Гасаненко

2002-02-01

Одностековая реализация бэктрекинга для языка Форт

211-223

Предложена методика реализации механизма откатов (бэктрекинга, backtracking) для языка Форт, отличающаяся использованием только одного стека (стека возвратов) и совместимостью с механизмом локальных переменных. Обсуждается возможность применения аналогичных методов для расширения бэктрекингом языка Си. Бэктрекинг позволяет ввести в язык еще один вид модульности — модули, отвечающие за пере- бор.

Дж Джанардана Найду, M Сешашаяи

2024-01-11

Система анализа тональности текста на телугу на основе нового пассивно-агрессивного классификатора с нечетким взвешиванием

39-64

Обработка естественного языка (NLP) — это разновидность искусственного интеллекта, демонстрирующая, как алгоритмы могут взаимодействовать с людьми на их уникальных языках. Кроме того, анализ настроений в NLP лучше проводится во многих программах, включая оценку настроений на телугу. Для обнаружения текста на телугу используются несколько неконтролируемых алгоритмов машинного обучения, таких как кластеризация k-средних с поиском с кукушкой. Однако эти методы с трудом справляются с кластеризацией данных с переменными размерами и плотностью кластеров, низкой скоростью поиска и плохой точностью сходимости. В ходе этого исследования была разработана уникальная система анализа настроений на основе машинного обучения для текста на телугу, позволяющая устранить указанные недостатки. Первоначально, на этапе предварительной обработки, предлагаемый алгоритм линейного преследования (LPA) удаляет слова в пробелах, знаках препинания и остановках. Затем для маркировки POS в этом исследовании было предложено условное случайное поле с лексическим взвешиванием; После этого предлагается надуманный пассивно-агрессивный классификатор с нечетким взвешиванием (CPSC-FWC) для классификации настроений в тексте на телугу. Следовательно, предлагаемый нами метод дает эффективные результаты с точки зрения точности, воспроизводимости и показателя f1.

Даниил Юрьевич Кравченко, Юрий Алексеевич Кравченко, Али Мансур, Жуман Мохаммад, Николай Сергеевич Павлов

2024-03-28

Алгоритм оптимизации извлечения ключевых слов на основе применения лингвистического парсера

467-494

В данной статье представлено аналитическое исследование особенностей двух типов парсинга, а именно синтаксический анализ составляющих (constituency parsing) и синтаксический анализ зависимостей (dependency parsing). Также в рамках проведенного исследования разработан алгоритм оптимизации извлечения ключевых слов, отличающийся применением функции извлечения именных фраз, предоставляемой парсером, для фильтрации неподходящих фраз. Алгоритм реализован с помощью трех разных парсеров: SpaCy, AllenNLP и Stazna. Эффективность предложенного алгоритма сравнивалась с двумя популярными методами (Yake, Rake) на наборе данных с английскими текстами. Результаты экспериментов показали, что предложенный алгоритм с парсером SpaCy превосходит другие алгоритмы извлечения ключевых слов с точки зрения точности и скорости. Для парсера AllenNLP и Stanza алгоритм так же отличается точностью, но требует гораздо большего времени выполнения. Полученные результаты позволяют более детально оценить преимущества и недостатки изучаемых в работе парсеров, а также определить направления дальнейших исследований. Время работы парсера SpaCy значительно меньше, чем у двух других парсеров, потому что парсеры, которые используют переходы, применяют детерминированный или машинно-обучаемый набор действий для пошагового построения дерева зависимостей. Они обычно работают быстрее и требуют меньше памяти по сравнению с парсерами, основанными на графах, что делает их более эффективными для анализа больших объемов текста. С другой стороны, AllenNLP и Stanza используют модели парсинга на основе графов, которые опираются на миллионы признаков, что ограничивает их способность к обобщению и замедляет скорость анализа по сравнению с парсерами на основе переходов. Задача достижения баланса между точностью и скоростью лингвистического парсера является открытой темой, требующей дальнейших исследований в связи с важностью данной проблемы для повышения эффективности текстового анализа, особенно в приложениях, требующих точности при работе в реальном масштабе времени. С этой целью авторы планируют проведение дальнейших исследований возможных решений для достижения такого баланса.

Анатолий Юрьевич Полетаев, Илья Вячеславович Парамонов, Елена Игоревна Бойчук

2023-11-10

Алгоритм построения дерева синтаксических единиц русскоязычного предложения по дереву синтаксических связей

1323-1353

Автоматический синтаксический анализ предложения — одна из важных задач компьютерной лингвистики. В настоящее время для русского языка отсутствуют общедоступные и пригодные для практического применения анализаторы синтаксической структуры. Создание таких анализаторов «с нуля» требует составления корпуса деревьев, размеченного в соответствии с заданной формальной грамматикой, что представляет собой крайне трудоёмкую задачу. Однако, поскольку для русского языка существует несколько анализаторов синтаксических связей, представляется полезным использовать результаты их работы для анализа синтаксической структуры предложений. В настоящей работе предлагается алгоритм, позволяющий построить дерево синтаксических единиц русскоязычного предложения по данному дереву синтаксических связей. Алгоритм использует грамматику, сформулированную в соответствии с классическим справочником Д.Э. Розенталя. Приведены результаты экспериментов по оценке качества работы предложенного алгоритма на корпусе из 300 предложений на русском языке. 200 предложений были выбраны из вышеупомянутого справочника и 100 из открытого корпуса публицистических текстов OpenCorpora. В ходе экспериментов предложения подавались на вход анализаторов из состава библиотек Stanza, SpaCy и Natasha, после чего полученные деревья синтаксических связей обрабатывались предложенным алгоритмом. Полученные в результате обработки деревья синтаксических единиц сравнивались с размеченными вручную экспертами-филологами. Наилучшее качество было получено при использовании анализатора синтаксических связей из библиотеки Stanza: F1-мера построения синтаксических единиц составила 0.85, а точность определения членов предложения — 0.93, чего должно быть достаточно для решения многих практических задач в таких областях, как извлечение событий, информационный поиск, анализ тональности.

Хуу Нгуен Фат, Нгуен Тхи Минь Ань

2020-12-04

Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec

1255-1279

В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.

Артис Андреевич Тейланс, Андрей Васильевич Романов, Юрий Анатольевич Меркурьев, Пётр Петрович Дорогов, Арнис Янович Клейнс, Семен Алексеевич Потрясаев

2018-08-01

Оценка рисков киберфизических систем с использованием моделирования доменов и имитационного моделирования

115-139

В настоящее время системы, разрабатываемые для интеграции реальных физических процессов и виртуальных вычислительных процессов — киберфизических систем (КФС), используются во многих областях промышленности и национальной инфраструктуры, таких как производство, медицина, управление транспортом и безопасность, автомобилестроение, управление промышленными процессами, энергосбережение, экологический менеджмент, промышленные роботы, управление технической инфраструктурой, распределенные роботизированные системы, целевые системы защиты, технологии нанотехнологий и биологических систем. При широком использовании подобных систем уровень ИТ-рисков и киберрисков резко возрастает, в результате чего атаки против КФС могут привести к неуправляемым и непредсказуемым последствиям. Таким образом, существует необходимость в хорошо продуманной системе оценки рисков КФС, что обеспечит общее представление о состоянии безопасности КФС, а также эффективное распределение защищаемых ресурсов. Характер КФС отличается от ИТ-систем главным образом потребностью в операциях реального времени, поэтому традиционный метод оценки рисков для ИТ-систем может быть адаптирован для условий работы КФС. Разработка языка моделирования доменов (“domain specific language”, DSL), основанного на унифицированном языке моделирования UML и описанного в данной статье, обеспечивает синергизм широко используемой в ИТ-индустрии методики с используемыми в конкретных областях подходами к управлению рисками. В отличие от традиционного использования UML для целей имитационного моделирования, описанный в статье язык моделирования DSL обогащен набором стохастических атрибутов моделируемых процессов. Подобные стохастические атрибуты можно использовать для дальнейшей реализации дискретно-событийных симуляторов.

Эдвин Пакоци, Бранислав Попович, Дарко Йован Пекар

2018-06-01

Усовершенствование распознавания сербской речи с помощью обученных на последовательностях глубоких нейронных сетей

53-76

Представлены последние усовершенствования в распознавании сербской речи, достигнутые с использованием современных глубоких нейронных сетей, основанных на применении дискриминативного обучения на последовательностях для акустического моделирования. Описываются несколько вариантов новой системы распознавания слитной речи с большим словарем (LVCSR), которая основанна на обучении по критерию максимальной взаимной информации (LF-MMI) без использования решетки. Параметры системы варьировались таким образом, чтобы достичь наименьших значений ошибки распознавания слов (WER) и ошибки распознавания символов (CER) при использовании самой большой существующей речевой базы данных сербского языка и наилучшей n-граммной языковой модели общего назначения. В дополнение к настройке самой нейронной сети (числа слоев, сложности, объединения элементов слоя и т.д.) для получения наилучших результатов были исследованы и другие ориентированные на конкретный язык способы оптимизации, такие как использование акценто-зависимых моделей гласных фонем и их сочетание с тональными признаками. Также была исследована настройка речевой базы данных, которая включает в себя искусственное расширение базы данных путем изменения скорости речевых высказываний и масштабирование уровня громкости для учета вариативности речи. Результаты экспериментов показали, что 8-слойная глубокая нейронная сеть с 625 нейронами в каждом слое работает в данных условиях работает лучше других сетей без необходимости увеличения речевой базы данных или регулировки громкости. Кроме того, тональные признаки в сочетании с использованием акценто-зависимых моделей гласных обеспечивают наилучшие показатели точности во всех экспериментах. Ключевые слова: глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI, акценты, основной тон, сербский.

Даниил Александрович Кочаров, Алла Павловна Меньшикова

2017-12-04

Применение лингвистических признаков для автоматического определения интонационно выделенных слов в русскоязычном тексте

216-236

В данной статье предлагается метод автоматического предсказания интонационно выделенных слов, то есть наиболее важной информации в высказывании. Метод опирается на использование лексических, грамматических и синтаксических маркеров интонационного выделения, что делает возможным его применение в системах синтеза речи по тексту, где реализация интонационного выделения может повысить естественность звучания синтезированной речи. В качестве методов классификации независимо друг от друга использовалось несколько различных моделей: наивная байесовская модель, модель максимальной энтропии и условные случайные поля. Сопоставление результатов, полученных в ходе нескольких экспериментов, показало, что использовавшиеся дискриминативные модели демонстрируют сбалансированные и примерно равные значения метрик качества, в то время как генеративная модель потенциально более пригодна для поиска интонационно выделенных слов в речевом сигнале. Результаты, представленные в статье, сравнимы и в некоторых случаях превосходят аналогичные системы, разработанные для других языков.

Анна Валерьевна Глазкова

2017-05-31

Подход к проведению классификации текстов на основании возрастных групп их адресатов

51-69

В статье рассматривается новый подход к выполнению классификации текстов, учитывающий наличие различных типов классификационных признаков (бинарных, номинальных, порядковых и интервальных). Особенность представленного подхода состоит в поэтапном проведении классификации, которое дает возможность не приводить разнотипные признаки, характеризующие текст, к единому диапазону. Также в статье предлагается набор классификационных признаков для проведения классификации русскоязычных текстов на основании их предполагаемой возрастной аудитории. В работе описывается вычислительный эксперимент с использованием текстов, включенных в Национальный корпус русского языка. Выборка включает в себя заведомо качественные и максимально разнообразные тексты, написанные на русском языке. Документы, входящие в состав рассматриваемой выборки, разделены в соответствии с мнениями экспертов-лингвистов на две категории — взрослые и детские. Таким образом, для обучения и тестирования использовались тексты, размеченные экспертами. В статье приведены значения точности классификации текстов, полученные в результате проведения серии экспериментов по автоматическому определению возрастных категорий адресатов текста (для кого написан текст — для детей или для взрослых).

Ирина Сергеевна Кипяткова, Алексей Анатольевич Карпов

2016-12-15

Разновидности глубоких искусственных нейронных сетей для систем распознавания речи

80-103

В статье представлен аналитический обзор основных разновидностей акустических и языковых моделей на основе искусственных нейронных сетей для систем автоматического распознавания речи. Рассмотрены гибридный и тандемный под-ходы объединения скрытых марковских моделей и искусственных нейронных сетей для акустического моделирования, описано построение языковых моделей с применением сетей прямого распространения и рекуррентных нейросетей. Обзор исследований в данной области показывает, что применение искусственных нейронных сетей как на этапе акустического, так и на этапе языкового моделирования позволяет снизить ошибку распознавания слов.

Сергей Николаевич Карпович

2016-08-01

Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI

92-104

В работе рассмотрен подход к многозначной классификации текстовых документов на основе вероятностного тематического моделирования. На базе корпуса SCTM-ru построена тематическая модель методом обучения с учителем, приведен алгоритм многозначной классификации. Описан состав программного прототипа, реализующего предложенный подход.

Юрий Алексеевич Котов

2016-02-15

Детерминированная идентификация буквенных биграмм в русскоязычном тексте

181-197

В статье рассмотрена задача идентификации символов текстов на естественном языке по числовым характеристикам этих текстов. На основе правил языка и частот биграмм предложено решение данной задачи для русских текстов. Решение представляет собой систему идентифицирующих функций для каждого символа алфавита и детерминированную последовательность их применения. Указаны ограничения для полученного решения, область его эффективного применения и возможности расширения.

Сергей Николаевич Карпович

2015-04-16

Русскоязычный корпус текстов SCTM-ru для построения тематических моделей

123-142

В статье рассматривается задача создания русскоязычного специального корпуса текстов для тестирования алгоритмов вероятностного тематического моделирования. В качестве наполнения корпуса предлагается использовать статьи международного новостного сайта «Русские Викиновости», распространяемого по свободной лицензии CC BY 2.5. Описан этап предварительной обработки и разметки корпуса текстов. Предложена разметка корпуса текстов, содержащая только необходимую в алгоритмах тематического моделирования информацию.

Андрей Анатольевич Крижановский, Александр Викторович Смирнов, Василий Михайлович Круглов, Наталья Борисовна Крижановская, Ирина Сергеевна Кипяткова

2014-06-02

Автоматическое извлечение словарных помет из Русского Викисловаря

164-185

Разработана методология извлечения словарных помет из интернет-словарей. В соответствие с этой методологией экспертами построено отображение (соответствие один к одному) системы словарных помет Русского Викисловаря (385 помет) и системы словарных помет Английского Викисловаря (1001 помета). Таким образом, построена интегральная система словарных помет (1096 помет), включающая пометы обоих словарей. Разработан синтаксический анализатор (парсер), который распознаёт и извлекает известные и новые словарные пометы, сокращения и пояснения, указанные в начале текста значений слов в словарных статьях Викисловаря. Следует отметить наличие в парсере большого количества словарных помет известных заранее (385 словарных помет для Русского Викисловаря). С помощью парсера на основе данных Русского Викисловаря была построена база данных машиночитаемого Викисловаря, включающая информацию о словарных пометах. В работе приводятся численные параметры словарных помет в Русском Викисловаре, а именно: с помощью разработанной программы было подсчитано, что в базе данных машиночитаемого Викисловаря к 133 тыс. значений слов приписаны пометы и пояснения; для полутора тысяч значений слов был указан регион употребления слова, подсчитано число словарных помет для разных предметных областей. Вкладом данной работы в компьютерную лексикографию является оценка численных параметров словарных помет в больших словарях (пятьсот тысяч словарных статей).

Виктор Васильевич Александров

2013-08-01

Колонизация. Информатика. Инфология

263-276

В статье проводится анализ явления лингвистической и социальной колонизации в аспекте инфокоммуникационного процесса. Предложено описание математических, физических и биологических объектов в виде процесса когнитивного программирования, который определяется понятием не информации, а инфологии (процесса информационных преобразований).

Игорь Сергеевич Ануреев, Сергей Николаевич Баранов, Дмитрий Михайлович Белоглазов, Павел Дмитриевич Дробинцев, Александр Валентинович Колчин, Всеволод Павлович Котляров, Александр Адольфович Летичевский, Александр Александрович Летичевский, Валерий Александрович Непомнящий, Игорь Валерьевич Никифоров, Степан Валериевич Потиенко, Лев Викторович Прийма, Борис Викторович Тютин, Евгений Михайлович Бодин

2013-06-01

Средства поддержки интегрированной технологии для анализа и верификации спецификаций телекоммуникационных приложений

349-383

В работе описываются разработанные авторами инструментальные средства и комплексный подход на их основе, при котором методы и средства анализа и верификации обеспечены для представителей всех четырех основных классов языков, на которых обычно описываются телекоммуникационные приложения: языки выполняемых спецификаций общего назначения (SDL), языки для описания и анализа укрупненных образцов поведения и выявления зависимостей между ними в сложных системах (UCM), специализированные языки, ориентированные на верификацию спецификаций телекоммуникационных систем (язык интерпретированных MSC диаграмм, язык взаимодействующих конечных автоматов, язык Dynamic-REAL) и индустриальные императивные языки (C/С++). Верификация спецификаций дополняется автоматизированным построением тестовых наборов, обеспечивающих заданную степень покрытия исходных поведенческих требований, причем эти тестовые наборы оптимизированы по заданным критериям производительности. Исполнение тестов происходит в среде автоматизированного тестирования на моделях систем, либо непосредственно на их реализациях, погруженных в соответствующие программные оболочки, обеспечивающие взаимодействие тестируемой системы с тестовым окружением. Тестовая оболочка позволяет одновременно с прогоном тестов проводить автоматизированный анализ результатов тестирования.

Тамара Ивановна Доценко, Юлия Ефимовна Лещенко

2013-04-01

Универсальные структуры и их функции в ментальном лексиконе билингва

371-384

В статье исследуются универсальные структуры и их функции в ментальном лексиконе взрослого, изучающего иностранный язык в учебных условиях. Модель ментального лексикона билингва в виде ассоциативно-вербальной сети строится на основе материалов свободных ассоциативных экспериментов, полученных от русскоязычных испытуемых на разных этапах обучения английскому языку (начальный и продвинутый этапы). За универсальные структуры ментального лексикона принимаются локальные группировки разнокодовых узлов, объединенные общим, интегральным значением, которое распределяется по двум межузловым связям. Исследование показывает, что универсальные структуры стабильно функционируют в ментальном лексиконе на разных этапах обучения; формируются в направлении от поверхностного языкового уровня к глубинному; выполняют связующую, интегрирующую и медиативную функции; обеспечивают процессы межъязыкового взаимодействия систем Я1 и Я2.

Александр Викторович Смирнов, Василий Михайлович Круглов, Андрей Анатольевич Крижановский, Наталья Борисовна Луговая, Алексей Анатольевич Карпов, Ирина Сергеевна Кипяткова

2012-12-01

Количественный анализ лексики русского WordNet и викисловарей

232-253

В работе выполнен количественный анализ лексики русского языка по данным тезауруса Русский WordNet и двух электронных словарей (Русский Викисловарь и Английский Викисловарь). Сравнивается объём словарей и распределение слов русского языка по частям речи. Приводится соотношение многозначных слов и слов с одним значением, а также распределение русских слов по числу значений. Анализ распределения числа значений выявил проблему Английского Викисловаря – отсутствие или недостаточная проработка многозначных русских слов с числом значений больше четырёх (по сравнению со словами Русского Викисловаря). Эксперименты показывают, что лингвистические ресурсы, созданные энтузиастами, демонстрируют те же закономерности, что и традиционные словари.

Александр Павлович Зыков

2011-12-01

Метод сглаживания вероятностей n-грамм на основе моделирования математического ожидания их встречаемости

146-158

В работе предлагается метод сглаживания n-граммной модели языка, в основе которого лежит моделирование функции математического ожидания вероятности встречаемости n-грамм. Вместо дисконтирования максимальной вероятности n-грамм предлагается увеличение мощности обучающего множества на ожидаемое число n-грамм, отсутствующих в обучающей базе текстов. Для моделирования этого числа функция математического ожидания вероятности встречаемости экстраполируется к нулевой частоте. На основе статистического анализа текстов построена модель функции математического ожидания встречаемости.

Ирина Сергеевна Кипяткова, Алексей Анатольевич Карпов

2010-03-01

Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря

63-74

Для распознавания слитной речи со сверхбольшим словарем распознавателю необходима модель языка, описывающая допустимые фразы. В статье представлены результаты экспериментов по распознаванию слитной речи со сверхбольшим (более 100 тыс. слов) словарем с применением n-граммных моделей языка. Проведено количественное сравнение точности распознавания слов, символов и фонем в зависимости от используемой n-граммной модели при изменении n от 0 до 3.

Михаил Юрьевич Колодин

2009-06-01

Синтаксические и семантические особенности метасистем

168-177

Метаподход позволяет рассматривать информационные системы, в т.ч. языки и системы программирования, а также данные в различных форматах как многоуровневые развиваемые системы и строить для них соответствующие преобразователи. В статье рассматриваются традиционные и специальные языки программирования и представления данных с точки зрения метаподхода, языки делятся на классы с внутренней либо с внешней метафункциональностью, показываются примеры записи и преобразований между языками, указываются некоторые сложности, возникающие при этом, и пути их преодоления, даются оценки эффективности применения различных языков, делаются выводы о полезности использования рассмотренных языков и подхода в целом для решения типовых задач и представления информации.

1 - 25 из 46 результатов

Поиск статей

Импакт-фактор

Разделы

Мы в сети

Обратная связь