Методи та програмні засоби пришвидшення донавчання класифікатора для діагностики захворювань за зображеннями
dc.contributor.advisor | Фіногенов, Олексій Дмитрович | |
dc.contributor.author | Смілянець, Федір Андрійович | |
dc.date.accessioned | 2025-05-13T11:26:13Z | |
dc.date.available | 2025-05-13T11:26:13Z | |
dc.date.issued | 2025 | |
dc.description.abstract | Смілянець Ф.А. Методи та програмні засоби пришвидшення донавчання класифікатора для діагностики захворювань за зображеннями. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 121 – Інженерія програмного забезпечення з галузі знань 12 – Інформаційні технології. – Національний Технічний Університет України «Київський Політехнічний Інститут імені Ігоря Сікорського», Київ, 2025. Дисертаційна робота присвячена розробці методу класифікації медичних зображень, що спрямований на уникнення зміни топології згорткової нейронної мережі при додаванні нових класів, дозволяючи знизити накладні витрати часу на їх підтримку, та методу організації обчислень за допомогою потоків робіт, який будує граф потоку під час його виконання, чим дозволяє мінімізує час на впровадження змін у систему. Вчасна розробка та доступність засобів тестування на інфекційні захворювання є фундаментальним компонентом контролю над епідеміями та пандеміями на кожному етапі поширення хвороби. Доступна та швидка діагностика є ключовою для своєчасності виявлення спалахів інфекції, і, як наслідок, визначення переліку та ізоляції контактних осіб чи запровадження карантинних обмежень на певній території. Упереджувальна розробка інструментів виявлення захворювань, а також пошук підходів для прискорення їх отримання та впровадження є важливим для контролю над епідеміями в майбутньому. Одним зі способів виконання діагностики є аналіз медичних зображень за допомогою згорткових нейронних мереж. Однак, така класифікація призводить до необхідності у зміні топології моделі при виникненні потреби у додаванні нових класів. Це обмеження можна подолати через використання проміжних даних – вкладених представлень, що генеруватимуться нейронною мережею, та виконання класифікації за ними. Таким чином, нейронна мережа може бути дотренована для підтримки нового класу без зміни її топології. Алгоритми машинного навчання, щовиконують класифікацію можуть бути перетреновані для підтримки більшої кількості класів без втручання у код та за відносно короткий час. У той час як проєктування та тренування нейронних мереж широко висвітлюється в науковій літературі щодо виконання діагностики за допомогою аналізу зображень, питання практичної інтеграції моделей у програмне забезпечення практично не розглядається. Важливим аспектом засобу для діагностики є швидкість адаптації системи до появи нових захворювань. Відтак, є потреба у зменшенні зусиль, необхідних для додавання чи модифікацію методу діагностики, який виконується у засобі. Оскільки потоки робіт дозволяють інкапсулювати окремі етапи обробки даних та гнучко змінювати їх послідовність без втручання в код системи, їх використання значно зменшує час та складність впровадження змін. Потоки робіт є впорядкованими структурованими представленнями багатокрокових обчислювальних задач. Типовою моделлю для них є спрямовані ациклічні графи, вершини яких є певними операціями над даними, а ребра – перетікання виходів одних операцій у входи інших. Такий граф, що складається з вхідних даних, та їх послідовних перетворень за допомогою окремих вершин (також – кроків або інструментів), також часто називається пайплайном (англ. pipeline). Існуючі системи керування потоками робіт вимагають статичного визначення графу потоку робіт розробником системи. Існування даних статичних визначень уповільнює внесення змін. Одним зі способів вирішення даної проблеми є динамічне створення та обчислення потоків робіт виходячи з наданих даних та інструментів для їх обробки і перетворення, що дозволить розширяти існуючі засоби класифікації захворювань без втручання або мінімальним втручанням людини (фахівця). Метою дисертаційної роботи є зменшення часу адаптації програмного забезпечення аналізу медичних зображень для діагностики на основі алгоритмів машинного навчання. У першому розділі дисертаційної роботи проведено аналіз засобів та методів діагностики захворювань за допомогою класифікації знімків комп’ютерної томографії, та розглянуто існуючі системи керування потоками робіт. За результатами аналізу літературних джерел виділено найбільш результативні архітектури нейронних мереж та окреслено проблеми, що пов’язані з аналізом результатів. Розглянуто способи інтеграції нейронних мереж у програмне забезпечення та обґрунтовано використання потоків робіт. Проведено порівняльний аналіз сучасних систем керування потоками робіт. У другому розділі запропоновано можливість використання вкладених представлень для вирішення задачі класифікації зображень КТ. Запропоновано модифікацію існуючої нейронної мережі для побудови вкладених представлень та доведено можливість додавання нових класів без істотної втрати точності. Розроблено математичну модель для обрахунку часу на побудову класифікатора та наведено умови, що визначають його ефективність. У третьому розділі запропоновано метод для динамічної побудови графу потоку робіт під час його виконання, який дозволяє уникнути необхідності у його статичному визначенні вручну. Для запропонованого методу визначено основні сутності. Розроблено модель обрахунку часу виконання потоку робіт. Імітаційним моделюванням показано, що часом роботи алгоритму можна знехтувати відносно часу на корисні обчислення. Розроблено систему керування потоками робіт, що реалізує запропонований метод з використанням системи Kubernetes для розподілених кластерних обчислень та можливістю горизонтального масштабування. Проведено аналіз швидкодії системи та доведено її практичну застосовність. Розроблено математичну модель оцінки часу на побудову потоків робіт за запропонованим методом та наведено умови, що визначають межі ефективності його використання. У четвертому розділі виконано проєктування та реалізацію програмного забезпечення аналізу зображень КТ для діагностики захворювань. Представлено архітектуру програмного забезпечення. Розроблено низку обчислюючих засобів системи керування потоками робіт для виконання класифікації зображень комп’ютерної томографії, у тому числі за допомогою вкладених представлень. Реалізовано сервер та інтерфейс користувача системи. Наведено опис функціональності системи. Результати, отримані у дисертаційному дослідженні, містять наукову новизну – вперше запропоновано метод динамічного конструювання потоків робіт під час їх виконання, який відрізняється від наявних автоматичною побудовою графу виконання, що дозволяє виключити етап визначення статичного потоку робіт та зменшити час на впровадження змін у програмне забезпечення; – удосконалено метод класифікації зображень шляхом використання вкладених представлень, що дозволяє додавання нових класів без зміни топології нейронної мережі; – удосконалено математичну модель для оцінки часу адаптації програмного забезпечення класифікації зображень шляхом врахування складових часу модифікації класифікатора та побудови графу потоку робіт, що дає можливість порівнювати швидкості впровадження змін у програмне забезпечення та здійснювати обгрунтований вибір методів та архітектурних рішень. Розроблено хмарне програмне забезпечення для автоматизованої діагностики захворювань за допомогою аналізу знімків КТ. Запропоновані методи, застосовані у програмному засобі, дозволяють швидке дотренування та розширення для підтримки нових методів, розпізнавання нових захворювань тощо. Представлений метод динамічного конструювання потоків робіт та система на його основі можуть бути використані як заміна поточних систем організації обчислень у сфері біоінформатики, у тому числі для проведення геномних розрахунків. Розроблені в дисертації програмні засоби можуть використовуватись як окремо (СКПР, ПЗ аналізу знімків КТ для діагностики) так і в складі інших систем (наприклад, як складові систем підтримки прийняття рішень). Результати проведених досліджень було опубліковано у 9 наукових працях, з яких 4 у фахових наукових журналах категорії «Б», 1 у журналі, що індексується наукометричною базою даних Scopus, 4 у матеріалах міжнародних науково-практичних конференцій. | |
dc.description.abstractother | Smilianets F.A. Methods and software Tools for accelerating classifier additional training for image-based disease diagnosis. – Qualifying scientific work on the rights of the manuscript. Thesis for the degree of Doctor of Philosophy in specialty 121 – Software Engineering of knowledge field 12 – Information Technologies. – National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Kyiv, 2025. The dissertation focuses on developing a medical image classification method aimed at avoiding changes in convolutional neural network topology when adding new classes, thus reducing the time overhead for their support, and a workflow-based computation organization method that constructs the pipeline graph during execution, thereby minimizing the time required for system modifications. The timely development and availability of infectious disease testing tools is a fundamental component of epidemic and pandemic control at every stage of disease spread. Accessible and rapid diagnostics are crucial for timely detection of infection outbreaks and, consequently, for identifying and isolating contacts or implementing quarantine restrictions in specific areas. Proactive development of disease detection tools, as well as finding approaches to accelerate their acquisition and implementation, is essential for control of future epidemics. One approach to diagnosis involves analyzing medical images using convolutional neural networks. However, such classification necessitates changes in model topology when new classes need to be added. This limitation can be overcome through the use of intermediate data – embeddings generated by the neural network – and performing classification based on them. Thus, the neural network can be fine-tuned to support new classes without introducing changes to its topology. Machine learning algorithms performing the classification on embeddings can be retrained to support more classes without code intervention and in a relatively short time. While the design and training of neural networks for image-based diagnostics is extensively covered in scientific literature, the practical aspects of integrating these models into software systems remain largely unexplored. An important aspect of diagnostic tools is the speed at which the system can adapt to emerging diseases. Therefore, there is a need to reduce the effort required for adding or modifying diagnostic methods implemented in the tool. Since workflows allow encapsulation of individual data processing stages and flexible alteration of their execution sequence without system code intervention, their use significantly reduces the time and complexity of implementing changes. Workflows are ordered, structured representations of multi-step computational tasks. They are typically modeled as directed acyclic graphs, where vertices represent data operations and edges represent the flow of outputs from one operation to inputs of others. Such a graph, consisting of input data and their sequential transformations through individual vertices (also known as steps or tools), is often referred to as a pipeline. Existing workflow management systems require static workflow graph definitions by system developers. The existence of these static definitions slows down the implementation of changes. One solution to this problem is dynamic creation and computation of workflows based on provided data and tools for their processing and transformation, which enables expansion of existing disease classification tools with minimal or no human (specialist) intervention. The aim of the thesis is to reduce the adaptation time of machine learning based software for medical image analysis for diagnostics. The first section analyzes tools and methods for disease diagnosis through classification of computed tomography images and examines existing workflow management systems. Based on the literature review, the most effective neural network architectures are identified and problems related to results analysis are outlined. Methods of integrating neural networks into software are considered and the use of workflows is justified. A comparative analysis of modern workflow management systems is conducted. The second section proposes the use of embeddings for solving CT image classification tasks. A modification of an existing neural network for generating embeddings is proposed and the possibility of adding new classes without significant accuracy loss is demonstrated. A mathematical model for calculating classifier construction time is developed and conditions determining its efficiency are presented. In the third section, a method for the dynamic construction of a workflow graph during its execution is proposed, which allows avoiding the need for its static manual definition. The main entities for the proposed algorithm are defined. A model for calculating the execution time of the workflow is developed. Through simulation modeling, it is demonstrated that the algorithm's runtime overhead is negligible compared to useful computation time. A workflow management system that implements the proposed algorithm using the Kubernetes system for distributed cluster computing with the ability to scale horizontally has been developed. The performance of the system is analyzed, and its practical applicability is proven. A mathematical model for estimating workflow construction time using the proposed method is developed, and conditions determining its effectiveness boundaries are presented. In the fourth section, the design and implementation of a CT image analysis software for disease diagnosis. The architecture of the software is presented. A number of computing tools have been developed in the workflow management system for performing classification of computed tomography images, including using embedded representations. The server and user interface of the software have been implemented. The functionality of the software is described. The results obtained in the dissertation research contain scientific novelty: – for the first time, a method for the dynamic construction of workflows during their execution has been proposed, which is characterized by the automatic construction of the execution graph and allows to avoid the stage of manually defining a static workflow, and thus reduces the time for implementing changes in software; – an image analysis method was improved by using embeddings, which enables the addition of new classes without modifying neural network topology; – mathematical model for estimating image classification software adaptation time was improved by incorporating classifier modification and workflow graph construction time components, enabling comparison of software modification implementation speeds and facilitating informed selection of methods and architectural solutions. A cloud-based software tool has been developed for automated disease diagnosis through the analysis of CT scans. The proposed methods, applied in the software tool, allow rapid fine-tuning and expansion to support new methods, recognition of new diseases, etc. The presented method of dynamic workflow formation and the system based on it can be used as a replacement for the current systems of organizing computations in the field of bioinformatics, including for performing genomic calculations. The software tools developed in the dissertation can be used both independently (Workflow Management System, CT scan analysis software for diagnostics) and as components of other systems (for example, as elements of decision support systems). The results of the research conducted were published in 9 scientific papers, of which 4 were in professional scientific journals, 1 was in a journal indexed by Scopus, and 4 were in the materials of international scientific and practical conferences. | |
dc.format.extent | 157 с. | |
dc.identifier.citation | Смілянець, Ф. А. Методи та програмні засоби пришвидшення донавчання класифікатора для діагностики захворювань за зображеннями : дис. … д-ра філософії : 121 Інженерія програмного забезпечення / Смілянець Федір Андрійович – Київ, 2025. – 157 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/73798 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | інженерія програмного забезпечення | |
dc.subject | аналіз медичних даних | |
dc.subject | знімки комп’ютерної томографії | |
dc.subject | вкладені представлення | |
dc.subject | класифікатори | |
dc.subject | машинне навчання | |
dc.subject | нейронні мережі | |
dc.subject | згорткові нейронні мережі | |
dc.subject | потоки робіт | |
dc.subject | системи виконання потоків робіт | |
dc.subject | хмарні обчислення | |
dc.subject | розподілені обчислення | |
dc.subject | контейнер | |
dc.subject | software engineering | |
dc.subject | medical data analysis | |
dc.subject | computed tomography scans | |
dc.subject | embeddings | |
dc.subject | classifiers | |
dc.subject | machine learning | |
dc.subject | neural networks | |
dc.subject | convolutional neural networks | |
dc.subject | workflows | |
dc.subject | workflow management systems | |
dc.subject | cloud computing | |
dc.subject | distributed computing | |
dc.subject | containers | |
dc.subject.udc | 004.42:519.237 | |
dc.title | Методи та програмні засоби пришвидшення донавчання класифікатора для діагностики захворювань за зображеннями | |
dc.title.alternative | Methods and software Tools for accelerating classifier additional training for image-based disease diagnosis | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Smilianets_dys.pdf
- Розмір:
- 4.8 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: