Прогнозування ризику настання інсульту за допомогою обробки незбалансованих даних
dc.contributor.author | Жиляк, Максим Євгенович | |
dc.contributor.author | Городецька, Олена Костянтинівна | |
dc.date.accessioned | 2024-03-08T06:55:39Z | |
dc.date.available | 2024-03-08T06:55:39Z | |
dc.date.issued | 2023 | |
dc.description.abstract | Реферат – У контексті медичної науки, інсульт залишається однією з провідних причин смертності та інвалідності, що ставить високі вимоги до ефективності його діагностики та прогнозування. У цьому дослідженні розглядалась проблематика використання незбалансованих даних для прогнозування ризику інсульту, яка є особливо актуальною в умовах гетерогенності симптомів та відсутності універсальних діагностичних методів. Метою даної роботи є вивчення та розробка ефективних прогностичних моделей ризику інсульту, використовуючи сучасні методи машинного навчання, та зосередження на проблемі класового дисбалансу у даних. Основний акцент ставиться на вирішенні викликів, пов'язаних з недостатньою представленістю деяких класів в даних, що є критичним для забезпечення точності прогнозування. Методологія дослідження охоплює декілька етапів: підготовку та обробку даних, використання методів для боротьби з дисбалансом класів (ADAYSN та GAN), а також застосування різних алгоритмів бінарної класифікації. Важливим аспектом є також аналіз впливу різних параметрів на результати прогнозування. Результати дослідження показали, що логістична регресія, навчена на даних, згенерованих за допомогою генеративної нейронної мережі (GAN), продемонструвала найвищу ефективність. Ця модель показала високі показники точності, чутливості, специфічності та зваженої F1-оцінки. Серед аналізованих параметрів особливо значущими виявилися ‘is_private_job’ (анотація, що пацієнт працює на приватній фірмі), ‘is_never_smoked’ (анотація, що пацієнт ніколи не курив), та ‘is_male’ (анотація, що пацієнт чоловічої статі). Загальні висновки дослідження підкреслюють важливість використання методів машинного навчання для прогнозування ризику інсульту, особливо в умовах незбалансованих даних. Вони також вказують на необхідність розробки цілеспрямованих стратегій профілактики, зосереджуючись на ідентифікованих групах ризику, для зниження загальної захворюваності та підвищення ефективності медичних втручань. | |
dc.description.abstractother | Abstract – In the context of medical science, stroke remains one of the leading causes of mortality and disability, which places high demands on the effectiveness of its diagnosis and prognosis. This study examined the problem of using unbalanced data to predict stroke risk, which is especially relevant in the context of heterogeneity of symptoms and lack of universal diagnostic methods. The aim of this paper is to study and develop effective predictive models of stroke risk using modern machine learning methods and focus on the problem of class imbalance in data. The main emphasis is placed on solving the challenges associated with the underrepresentation of some classes in the data, which is critical to ensure the accuracy of the prediction. The research methodology covers several stages: data preparation and processing, use of methods to deal with class imbalance (ADAYSN and GAN), and application of various binary classification algorithms. Another important aspect is the analysis of the impact of various parameters on the forecasting results. The results of the study showed that logistic regression trained on data generated by a generative neural network (GAN) demonstrated the highest efficiency. This model demonstrated high accuracy, sensitivity, specificity, and weighted F1 score. Among the analyzed parameters, 'is_private_job' (annotation that the patient works for a private company), 'is_never_smoked' (annotation that the patient has never smoked), and 'is_male' (annotation that the patient is male) were particularly significant. The overall findings of the study emphasize the importance of using machine learning methods to predict stroke risk, especially in the face of unbalanced data. They also point to the need to develop targeted prevention strategies, focusing on identified risk groups, to reduce overall morbidity and increase the effectiveness of medical interventions. | |
dc.format.pagerange | Pp. 42-49 | |
dc.identifier.citation | Жиляк, М. Є. Прогнозування ризику настання інсульту за допомогою обробки незбалансованих даних / Жиляк Максим Євгенович, Городецька Олена Костянтинівна // Біомедична інженерія і технологія. – 2023. – № 12. – С. 42-49. – Бібліогр.: 19 назв. | |
dc.identifier.doi | https://doi.org/10.20535/2617-8974.2023.12.292870 | |
dc.identifier.issn | 2707-8434 | |
dc.identifier.orcid | 0009-0006-3730-2442 | |
dc.identifier.orcid | 0000-0002-8433-3878 | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/65339 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.relation.ispartof | Біомедична інженерія і технологія, № 12 | |
dc.subject | інсульт | |
dc.subject | незбалансовані дані | |
dc.subject | машинне навчання | |
dc.subject | ADAYSN | |
dc.subject | GAN | |
dc.subject | stroke | |
dc.subject | imbalanced data | |
dc.subject | machine learning | |
dc.subject.udc | 004.852 + 616.8-005 | |
dc.title | Прогнозування ризику настання інсульту за допомогою обробки незбалансованих даних | |
dc.title.alternative | Predicting stroke risk via handling the imbalanced data | |
dc.type | Article |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- 292870-680823-1-10-20231226.pdf
- Розмір:
- 549.2 KB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: