Гупало, М. С.Павлов, В. А.Настенко, Є. А.Корнієнко, Г. А.2023-11-232023-11-232023Оптимізація результатів моделювання шляхом розбиття вибірок за критерієм подібності відстані Махаланобіса / Гупало М. С., Павлов В. А., Настенко Є. А., Корнієнко Г. А. // Біомедична інженерія і технологія. – 2023. – № 11. – С. 21-30. – Бібліогр.: 19 назв.2707-8434https://ela.kpi.ua/handle/123456789/62443Методи створення класифікаційних, апроксимаційних та прогностичних моделей включають процедури розділення робочого набору даних на технологічні частини, які використовуються для розрахунку параметрів, верифікації структури та завершальної оцінки якості моделей. Саме універсальність застосування даних процедур визначає виняткову актуальність вирішення завдання забезпечення ефективності розділення робочого набору даних на технологічні частини з точки зору якості результатів моделювання. Існуючі підходи до розбиття даних не забезпечують стійкої ефективності при побудові моделей (метод простого випадкового відбору, метод проб і помилок, тощо), або є ефективними, однак обмеженими використанням певних типів набору даних (зручний і систематичний відбори, тощо). В роботі для вирішення проблеми пропонується застосувати процедури розподілу даних на основі критерію подібності відстані Махаланобіса, що забезпечує збереження властивості відхилень об’єктів основної робочої вибірки для всіх технологічних підвибірок в умовах нерівних дисперсій змінних та корельованості простору ознак. Оскільки універсальним і найчастіше застосованим методом розбиття даних в даний час є метод випадкового відбору, у роботі саме з ним порівнюється ефективність пропонованого підходу. Аналіз підходів здійснений на даних для прогнозування рівня смертності від раку в округах США, що взяті з ресурсу data.world, та класифікації серцевої недостатності - з ресурсу Kaggle. Порівняння проведено для методів k-найближчих сусідів, логістичної регресії, методу групового урахування аргументів в завданні класифікації та методів k-найближчих сусідів, екстремального градієнтного підсилення (XGB), підвищення градієнта на основі алгоритму дерева рішень (LGBM) в задачі апроксимації. Результати аналізу показали перевагу пропонованого у роботі підходу розбиття даних відповідно до критерію подібності відстані Махаланобіса.ukрозбиття данихмашинне навчаннявідстань Махаланобісанавчання з учителеммодель класифікаціїапроксимаційна модельdata partitioningmachine learningMahalanobis distancetutored learningclassification modelapproximation modelОптимізація результатів моделювання шляхом розбиття вибірок за критерієм подібності відстані МахаланобісаModeling results optimization based on data splitting by Mahalanobis distance similarity criterionArticlePp. 21-30https://doi.org/10.20535/2617-8974.2023.11.279579004.81 + 616-0060009-0005-4203-01220000-0002-3293-53080000-0002-1076-93370000-0003-2104-5745