Алгоритмы обучения ансамблей, такие как bagging, часто генерируют неоправданно большие композиции, которые, помимо потребления вычислительных ресурсов, могут ухудшить обобщающую способность. Обрезка (pruning) потенциально может уменьшить размер ансамбля и повысить точность; однако большинство исследований сегодня сосредоточены на использовании этого подхода при решении задачи классификации, а не регрессии. Это связано с тем, что в общем случае обрезка ансамблей основывается на двух метриках: разнообразии и точности. Многие метрики разнообразия разработаны для задач, связанных с конечным набором классов, определяемых дискретными метками. Поэтому большинство работ по обрезке ансамблей сосредоточено на таких проблемах: классификация, кластеризация и выбор оптимального подмножества признаков. Для проблемы регрессии гораздо сложнее ввести метрику разнообразия. Фактически, единственной известной на сегодняшний день такой метрикой является корреляционная матрица, построенная на предсказаниях регрессоров. Данное исследование направлено на устранение этого пробела. Предложено условие, позволяющее проверить, включает ли регрессионный ансамбль избыточные модели, т. е. модели, удаление которых улучшает производительность. На базе этого условия предложен новый алгоритм обрезки, который основан на декомпозиции ошибки ансамбля регрессоров на сумму индивидуальных ошибок регрессоров и их рассогласованность. Предложенный метод сравнивается с двумя подходами, которые напрямую минимизируют ошибку путем последовательного включения и исключения регрессоров, а также с алгоритмом упорядоченного агрегирования (Ordered Aggregation). Эксперименты подтверждают, что предложенный метод позволяет уменьшить размер ансамбля регрессоров с одновременным улучшением его производительности и превосходит все сравниваемые методы.
В рамках инфологического подхода, в целях автоматизации процесса записи больных в медицинских учреждениях, предложена методика обработки обращений пациентов на основе применения инфологической системы, позволяющая организовать электронную запись больных к специалистам медицинского учреждения путем выявления семантического содержания жалоб на состояние здоровья.
В статье показаны достоинства и недостатки прямых и итерационных методов решения систем линейных алгебраических уравнений (СЛАУ) большой размерности (БР). Предложен новый «прямой» метод (алгоритм) решения СЛАУ с варьируемыми параметрами для матриц БР на основе учета разреженности матрицы и информации о решении базовой СЛАУ. Это позволяет существенно повысить быстродействие расчетных алгоритмов за счет уменьшения количества вычислительных операций; снизить требования к объемам оперативной памяти ЭВМ.
В работе рассмотрена проблема преобразования первичной структуры алгебраической байесовской сети с интервальными оценками вероятности к первичной структуре такой сети, стохастически эквивалентной исходной в задаче преобразования первичной структуры такой сети к ацикличной. Показано, что такое преобразование допустимо лишь в том случае, когда гиперграф, соответствующий результирующий первичной структуре, пореберно содержит гиперграф, соответствующий исходной первичной структуре. Предложен способ построения вероятностных оценок результирующей первичной структуры, делающий ее стохастически эквивалентной исходной.
1 - 4 из 4 результатов