Оптимізація результатів моделювання шляхом розбиття вибірок за критерієм подібності відстані Махаланобіса

Гупало, М. С.; Павлов, В. А.; Настенко, Є. А.; Корнієнко, Г. А.

Оптимізація результатів моделювання шляхом розбиття вибірок за критерієм подібності відстані Махаланобіса

dc.contributor.author	Гупало, М. С.
dc.contributor.author	Павлов, В. А.
dc.contributor.author	Настенко, Є. А.
dc.contributor.author	Корнієнко, Г. А.
dc.date.accessioned	2023-11-23T18:47:45Z
dc.date.available	2023-11-23T18:47:45Z
dc.date.issued	2023
dc.description.abstract	Методи створення класифікаційних, апроксимаційних та прогностичних моделей включають процедури розділення робочого набору даних на технологічні частини, які використовуються для розрахунку параметрів, верифікації структури та завершальної оцінки якості моделей. Саме універсальність застосування даних процедур визначає виняткову актуальність вирішення завдання забезпечення ефективності розділення робочого набору даних на технологічні частини з точки зору якості результатів моделювання. Існуючі підходи до розбиття даних не забезпечують стійкої ефективності при побудові моделей (метод простого випадкового відбору, метод проб і помилок, тощо), або є ефективними, однак обмеженими використанням певних типів набору даних (зручний і систематичний відбори, тощо). В роботі для вирішення проблеми пропонується застосувати процедури розподілу даних на основі критерію подібності відстані Махаланобіса, що забезпечує збереження властивості відхилень об’єктів основної робочої вибірки для всіх технологічних підвибірок в умовах нерівних дисперсій змінних та корельованості простору ознак. Оскільки універсальним і найчастіше застосованим методом розбиття даних в даний час є метод випадкового відбору, у роботі саме з ним порівнюється ефективність пропонованого підходу. Аналіз підходів здійснений на даних для прогнозування рівня смертності від раку в округах США, що взяті з ресурсу data.world, та класифікації серцевої недостатності - з ресурсу Kaggle. Порівняння проведено для методів k-найближчих сусідів, логістичної регресії, методу групового урахування аргументів в завданні класифікації та методів k-найближчих сусідів, екстремального градієнтного підсилення (XGB), підвищення градієнта на основі алгоритму дерева рішень (LGBM) в задачі апроксимації. Результати аналізу показали перевагу пропонованого у роботі підходу розбиття даних відповідно до критерію подібності відстані Махаланобіса.	uk
dc.description.abstractother	The methods of creating classification, approximation, and predictive models include procedures for dividing the initial data set into subsamples, which are used for parameter calculation, structure verification, and the final assessment of model quality. These procedures determine the exceptional urgency of solving the task of ensuring the efficiency of dividing the data set into subsamples that give a high-quality modeling result. Some of the existing data splitting approaches do not provide consistent performance in model building (simple random sampling, trial and error, etc.) or are effective but limited to specific types of data (convenience and systematic sampling, etc.). In order to solve the problem, it is proposed to implement a data distribution procedure based on the Mahalanobis distance similarity criterion, which ensures the preservation of the property of main working sample objects by minimizing deviations between the main working sample and all technological subsamples considering conditions of unequal variables, variances, and feature space correlation. Since the universal and most commonly used data partitioning method at the moment is the random selection method, the effectiveness of the proposed approach is compared with it. The analysis and comparison of the methods were carried out on data sets for predicting cancer mortality rates in US counties taken from the data world resource and a heart failure classification data set taken from the Kaggle resource. Comparisons are made using k-nearest neighbors, logistic regression methods, and group methods of data handling in the classification task and k-nearest neighbor, extreme gradient boosting (XGB), and gradient boosting based on the decision tree algorithm (LGBM) methods in the approximation task. The results showed the advantage of the data division approach according to the Mahalanobis distance similarity criterion.	uk
dc.format.pagerange	Pp. 21-30	uk
dc.identifier.citation	Оптимізація результатів моделювання шляхом розбиття вибірок за критерієм подібності відстані Махаланобіса / Гупало М. С., Павлов В. А., Настенко Є. А., Корнієнко Г. А. // Біомедична інженерія і технологія. – 2023. – № 11. – С. 21-30. – Бібліогр.: 19 назв.	uk
dc.identifier.doi	https://doi.org/10.20535/2617-8974.2023.11.279579
dc.identifier.issn	2707-8434
dc.identifier.orcid	0009-0005-4203-0122	uk
dc.identifier.orcid	0000-0002-3293-5308	uk
dc.identifier.orcid	0000-0002-1076-9337	uk
dc.identifier.orcid	0000-0003-2104-5745	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/62443
dc.language.iso	uk	uk
dc.publisher	КПІ ім. Ігоря Сікорського	uk
dc.publisher.place	Київ	uk
dc.relation.ispartof	Біомедична інженерія і технологія, № 11	uk
dc.subject	розбиття даних	uk
dc.subject	машинне навчання	uk
dc.subject	відстань Махаланобіса	uk
dc.subject	навчання з учителем	uk
dc.subject	модель класифікації	uk
dc.subject	апроксимаційна модель	uk
dc.subject	data partitioning	uk
dc.subject	machine learning	uk
dc.subject	Mahalanobis distance	uk
dc.subject	tutored learning	uk
dc.subject	classification model	uk
dc.subject	approximation model	uk
dc.subject.udc	004.81 + 616-006	uk
dc.title	Оптимізація результатів моделювання шляхом розбиття вибірок за критерієм подібності відстані Махаланобіса	uk
dc.title.alternative	Modeling results optimization based on data splitting by Mahalanobis distance similarity criterion	uk
dc.type	Article	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: 279579-664959-1-10-20230927.pdf
Розмір:: 418.33 KB
Формат:: Adobe Portable Document Format
Опис:

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 9.1 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Біомедична інженерія і технологія, № 11