Прогнозування ризику настання інсульту за допомогою обробки незбалансованих даних

dc.contributor.authorЖиляк, Максим Євгенович
dc.contributor.authorГородецька, Олена Костянтинівна
dc.date.accessioned2024-03-08T06:55:39Z
dc.date.available2024-03-08T06:55:39Z
dc.date.issued2023
dc.description.abstractРеферат – У контексті медичної науки, інсульт залишається однією з провідних причин смертності та інвалідності, що ставить високі вимоги до ефективності його діагностики та прогнозування. У цьому дослідженні розглядалась проблематика використання незбалансованих даних для прогнозування ризику інсульту, яка є особливо актуальною в умовах гетерогенності симптомів та відсутності універсальних діагностичних методів. Метою даної роботи є вивчення та розробка ефективних прогностичних моделей ризику інсульту, використовуючи сучасні методи машинного навчання, та зосередження на проблемі класового дисбалансу у даних. Основний акцент ставиться на вирішенні викликів, пов'язаних з недостатньою представленістю деяких класів в даних, що є критичним для забезпечення точності прогнозування. Методологія дослідження охоплює декілька етапів: підготовку та обробку даних, використання методів для боротьби з дисбалансом класів (ADAYSN та GAN), а також застосування різних алгоритмів бінарної класифікації. Важливим аспектом є також аналіз впливу різних параметрів на результати прогнозування. Результати дослідження показали, що логістична регресія, навчена на даних, згенерованих за допомогою генеративної нейронної мережі (GAN), продемонструвала найвищу ефективність. Ця модель показала високі показники точності, чутливості, специфічності та зваженої F1-оцінки. Серед аналізованих параметрів особливо значущими виявилися ‘is_private_job’ (анотація, що пацієнт працює на приватній фірмі), ‘is_never_smoked’ (анотація, що пацієнт ніколи не курив), та ‘is_male’ (анотація, що пацієнт чоловічої статі). Загальні висновки дослідження підкреслюють важливість використання методів машинного навчання для прогнозування ризику інсульту, особливо в умовах незбалансованих даних. Вони також вказують на необхідність розробки цілеспрямованих стратегій профілактики, зосереджуючись на ідентифікованих групах ризику, для зниження загальної захворюваності та підвищення ефективності медичних втручань.
dc.description.abstractotherAbstract – In the context of medical science, stroke remains one of the leading causes of mortality and disability, which places high demands on the effectiveness of its diagnosis and prognosis. This study examined the problem of using unbalanced data to predict stroke risk, which is especially relevant in the context of heterogeneity of symptoms and lack of universal diagnostic methods. The aim of this paper is to study and develop effective predictive models of stroke risk using modern machine learning methods and focus on the problem of class imbalance in data. The main emphasis is placed on solving the challenges associated with the underrepresentation of some classes in the data, which is critical to ensure the accuracy of the prediction. The research methodology covers several stages: data preparation and processing, use of methods to deal with class imbalance (ADAYSN and GAN), and application of various binary classification algorithms. Another important aspect is the analysis of the impact of various parameters on the forecasting results. The results of the study showed that logistic regression trained on data generated by a generative neural network (GAN) demonstrated the highest efficiency. This model demonstrated high accuracy, sensitivity, specificity, and weighted F1 score. Among the analyzed parameters, 'is_private_job' (annotation that the patient works for a private company), 'is_never_smoked' (annotation that the patient has never smoked), and 'is_male' (annotation that the patient is male) were particularly significant. The overall findings of the study emphasize the importance of using machine learning methods to predict stroke risk, especially in the face of unbalanced data. They also point to the need to develop targeted prevention strategies, focusing on identified risk groups, to reduce overall morbidity and increase the effectiveness of medical interventions.
dc.format.pagerangePp. 42-49
dc.identifier.citationЖиляк, М. Є. Прогнозування ризику настання інсульту за допомогою обробки незбалансованих даних / Жиляк Максим Євгенович, Городецька Олена Костянтинівна // Біомедична інженерія і технологія. – 2023. – № 12. – С. 42-49. – Бібліогр.: 19 назв.
dc.identifier.doihttps://doi.org/10.20535/2617-8974.2023.12.292870
dc.identifier.issn2707-8434
dc.identifier.orcid0009-0006-3730-2442
dc.identifier.orcid0000-0002-8433-3878
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/65339
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.relation.ispartofБіомедична інженерія і технологія, № 12
dc.subjectінсульт
dc.subjectнезбалансовані дані
dc.subjectмашинне навчання
dc.subjectADAYSN
dc.subjectGAN
dc.subjectstroke
dc.subjectimbalanced data
dc.subjectmachine learning
dc.subject.udc004.852 + 616.8-005
dc.titleПрогнозування ризику настання інсульту за допомогою обробки незбалансованих даних
dc.title.alternativePredicting stroke risk via handling the imbalanced data
dc.typeArticle

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
292870-680823-1-10-20231226.pdf
Розмір:
549.2 KB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: