Предлагается разделенный на несколько модулей алгоритм для создания изображений полнотекстовых документов. Эти изображения можно использовать для обучения, тестирования и оценки моделей оптического распознавания символов (ОПР). Алгоритм является модульным, отдельные части могут быть изменены и настроены для создания желаемых изображений. Описывается метод получения фоновых изображений бумаги из уже оцифрованных документов. Для этого используется новый, основанный на вариационном автоэнкодере подход к обучению генеративной модели. Эти фоны позволяют сразу же сгенерировать такие же фоновые изображения, как те, на которых производилось обучение. Для получения правдоподобного эффекта старения в модуле печати текста используются большие текстовые блоки, типы шрифтов и вариативность изменения яркости символов. Поддерживаются несколько типов макетов страницы. Система генерирует подробную структурированную аннотацию искусственного изображения. Для сравнения реальных изображений с искусственно созданными используется программа Тессеракт ОПР. Точность распознавания приблизительно схожа, что указывает на правильность сгенерированных искусственных изображений. Более того, допущенные системой ОПР ошибки в обоих случаях очень похожи. На основе сгенерированных изображений была обучена архитектура сверточная кодер-декодер нейронная сеть полностью для семантической сегментации отдельных символов. Благодаря этой архитектуре достигнута точность распознавания 99,28% в тестовом наборе синтетических документов.
Статья посвящена описанию разработанной в Институте проблем искусственного интеллекта НАН и МОН Украины (Донецк) технологии распознавания речи, основанной на следующих основных этапах обработки: сегментация с использованием численного аналога полной вариации; создание дифонной базы; DTW-распознавание слов по эталонам, автоматически создаваемым из эталонов дифонов. Разработанная технология применима к распознаванию сверхбольших словарей, а также при разработке текстовых редакторов с голосовым вводом.
В статье решается задача верификации разливов нефти на водных поверхностях рек, морей и океанов по оптическим аэрофотоснимкам с использованием методов глубокого обучения. Особенностью данной задачи является наличие визуально похожих на разливы нефти областей на водных поверхностях, вызванных цветением водорослей, веществ, не приносящих экологический ущерб (например, пальмовое масло), бликов при съемке или природных явлений (так называемые «двойники»). Многие исследования в данной области основаны на анализе изображений, полученных от радаров с синтезированной апертурой (Synthetic Aperture Radar (SAR) images), которые не обеспечивают точной классификации и сегментации. Последующая верификация способствует сокращению экологического и материального ущерба, а мониторинг размеров площади нефтяного пятна используется для принятия дальнейших решений по устранению последствий. Предлагается новый подход к верификации оптических снимков как задачи бинарной классификации на основе сиамской сети, когда фрагмент исходного изображения многократно сравнивается с репрезентативными примерами из класса нефтяных пятен на водных поверхностях. Основой сиамской сети служит облегченная сеть VGG16. При превышении порогового значения выходной функции принимается решение о наличии разлива нефти. Для обучения сети был собран и размечен собственный набор данных из открытых интернет-ресурсов. Существенной проблемой является несбалансированность выборки данных по классам, что потребовало применения методов аугментации, основанных не только на геометрических и цветовых манипуляциях, но и на основе генеративной состязательной сети (Generative Adversarial Network, GAN). Эксперименты показали, что точность классификации разливов нефти и «двойников» на тестовой выборке достигает значений 0,91 и 0,834 соответственно. Далее решается дополнительная задача семантической сегментации нефтяного пятна с применением сверточных нейронных сетей (СНС) типа кодировщик-декодировщик. Для сегментации исследовались три архитектуры глубоких сетей, а именно U-Net, SegNet и Poly-YOLOv3. Лучшие результаты показала сеть Poly-YOLOv3, достигнув точности 0,97 при среднем времени обработки снимка 385 с веб-сервисом Google Colab. Также была спроектирована база данных для хранения исходных и верифицированных изображений с проблемными областями.
В работе представлено применение алгоритма статистического анализа данных разновременной мультиспектральной аэрофотосъемки с целью выявления участков исторического антропогенного воздействия на природную среду. Исследуемый участок расположен на окраине поселка городского типа Знаменка (Знаменский район Тамбовской области) в лесостепной зоне с типичными черноземными почвами, где во второй половине XIX – начале XX вв. были расположены пашни. Признаком для выявления следов исторического антропогенного воздействия может быть растительность, возникшая в результате вторичной сукцессии на заброшенных участках. Отличительной особенностью такой растительности от окружающей природной среды является ее тип, возраст и плотность произрастания. Таким образом, задача обнаружения границ антропогенного воздействия по мультиспектральным изображениям сводится к задаче классификации растительности. Исходными данными являлись результаты разновременной мультиспектральной съемки в зеленом (Green), красном (Red), краевом красном (RedEdge) и ближнем инфракрасном (NIR) спектральных диапазонах. На первом этапе алгоритма предполагается вычисление текстурных признаков Харалика по данным мультиспектральной съемки, на втором этапе – уменьшение количества признаков методом главных компонент, на третьем – сегментация изображений на основе полученных признаков методом k-means. Эффективность предложенного алгоритма показана при сопоставлении результатов сегментации с эталонными данными исторических картографических материалов. Полученный результат сегментации отражает не только конфигурацию участков анотропогенно-преобразованной природной среды, но и особенности зарастания заброшенной пашни, поскольку исследование разновременных мультиспектральных снимков позволяет более полно охарактеризовать и учесть динамику наращивания фитомассы в разные периоды вегетации.
Представлены описания и результаты серии вычислительных экспериментов, посвященных анализу инерционности хаотических процессов. Материалы статьи являются продолжением исследований, приведенных в статье [1]. Существенным отличием от указанной работы является отказ от сегментации области изменения исследуемого процесса. Такой подход позволяет более гибко настраивать систему анализа инерционности хаотической динамики. Потверждаются ранее полученные выводы о наличии инерционности сглаженной динамики. Возможность построения эффективной стратегии управления на основе полученных выводов требует дополнительных исследований, связанных с изучением динамических свойств обнаруженного тренда.
На основе серии вычислительных экспериментов рассмотрен фундаментальный вопрос о наличии инерционности в квазихаотических процессах. В качестве полигона данных используются длительные интервалы наблюдений за котировками валютных инструментов на электронном рынке Forex. Для обеспечения наглядной визуализации используется технология динамической сегментации диапазона изменения наблюдаемого процесса. Установлено, что гипотеза о наличии инерционности подтверждается лишь для сглаженного процесса.
В статье предлагается метод ускорения алгоритмов сегментации изображения для класса алгоритмов наращивания областей в случае, когда функционал, определяющий необходимость слияния сегментов, не требует пересчёта признаков сегмента на каждой итерации.
В работе рассматривается задача сегментации масс-спектрометрических изображений, полученных методом MALDI. Предлагается подход, основанный на применении графических моделей (модели LDA и марковских сетей) для решения задачи. Рассматриваются несколько модификаций подхода и проводится сравнение с известными решениями; выделяются преимущества предлагаемого подхода.
В статье представлен обзор систем, применяемых для ассистивного интеллектуального пространства. Также описывается разработанная многомодальная ассистивная система для интеллектуального жилого пространства, которая состоит из двух комплексов средств. Первый комплекс выполняет обработку видеопотоков для определения положения пользователя и слежения за его перемещением, а также анализа его действий. Ко второму комплексу относится система обработки аудиопотоков, предназначенная для автоматического распознавания речевых команд и акустических событий. Разработанная система автоматического распознавания речи многоязычна и позволяет распознавать слова, произнесенные на английском или русском. В процессе проведения экспериментов было записано 2811 аудиофайлов, содержащих речь и акустические события, средняя точность распознавания составила 96,5% и 93,8% соответственно.
1 - 10 из 10 результатов