Методи та програмні засоби пришвидшення донавчання класифікатора для діагностики захворювань за зображеннями

Вантажиться...
Ескіз

Дата

2025

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Смілянець Ф.А. Методи та програмні засоби пришвидшення донавчання класифікатора для діагностики захворювань за зображеннями. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 121 – Інженерія програмного забезпечення з галузі знань 12 – Інформаційні технології. – Національний Технічний Університет України «Київський Політехнічний Інститут імені Ігоря Сікорського», Київ, 2025. Дисертаційна робота присвячена розробці методу класифікації медичних зображень, що спрямований на уникнення зміни топології згорткової нейронної мережі при додаванні нових класів, дозволяючи знизити накладні витрати часу на їх підтримку, та методу організації обчислень за допомогою потоків робіт, який будує граф потоку під час його виконання, чим дозволяє мінімізує час на впровадження змін у систему. Вчасна розробка та доступність засобів тестування на інфекційні захворювання є фундаментальним компонентом контролю над епідеміями та пандеміями на кожному етапі поширення хвороби. Доступна та швидка діагностика є ключовою для своєчасності виявлення спалахів інфекції, і, як наслідок, визначення переліку та ізоляції контактних осіб чи запровадження карантинних обмежень на певній території. Упереджувальна розробка інструментів виявлення захворювань, а також пошук підходів для прискорення їх отримання та впровадження є важливим для контролю над епідеміями в майбутньому. Одним зі способів виконання діагностики є аналіз медичних зображень за допомогою згорткових нейронних мереж. Однак, така класифікація призводить до необхідності у зміні топології моделі при виникненні потреби у додаванні нових класів. Це обмеження можна подолати через використання проміжних даних – вкладених представлень, що генеруватимуться нейронною мережею, та виконання класифікації за ними. Таким чином, нейронна мережа може бути дотренована для підтримки нового класу без зміни її топології. Алгоритми машинного навчання, щовиконують класифікацію можуть бути перетреновані для підтримки більшої кількості класів без втручання у код та за відносно короткий час. У той час як проєктування та тренування нейронних мереж широко висвітлюється в науковій літературі щодо виконання діагностики за допомогою аналізу зображень, питання практичної інтеграції моделей у програмне забезпечення практично не розглядається. Важливим аспектом засобу для діагностики є швидкість адаптації системи до появи нових захворювань. Відтак, є потреба у зменшенні зусиль, необхідних для додавання чи модифікацію методу діагностики, який виконується у засобі. Оскільки потоки робіт дозволяють інкапсулювати окремі етапи обробки даних та гнучко змінювати їх послідовність без втручання в код системи, їх використання значно зменшує час та складність впровадження змін. Потоки робіт є впорядкованими структурованими представленнями багатокрокових обчислювальних задач. Типовою моделлю для них є спрямовані ациклічні графи, вершини яких є певними операціями над даними, а ребра – перетікання виходів одних операцій у входи інших. Такий граф, що складається з вхідних даних, та їх послідовних перетворень за допомогою окремих вершин (також – кроків або інструментів), також часто називається пайплайном (англ. pipeline). Існуючі системи керування потоками робіт вимагають статичного визначення графу потоку робіт розробником системи. Існування даних статичних визначень уповільнює внесення змін. Одним зі способів вирішення даної проблеми є динамічне створення та обчислення потоків робіт виходячи з наданих даних та інструментів для їх обробки і перетворення, що дозволить розширяти існуючі засоби класифікації захворювань без втручання або мінімальним втручанням людини (фахівця). Метою дисертаційної роботи є зменшення часу адаптації програмного забезпечення аналізу медичних зображень для діагностики на основі алгоритмів машинного навчання. У першому розділі дисертаційної роботи проведено аналіз засобів та методів діагностики захворювань за допомогою класифікації знімків комп’ютерної томографії, та розглянуто існуючі системи керування потоками робіт. За результатами аналізу літературних джерел виділено найбільш результативні архітектури нейронних мереж та окреслено проблеми, що пов’язані з аналізом результатів. Розглянуто способи інтеграції нейронних мереж у програмне забезпечення та обґрунтовано використання потоків робіт. Проведено порівняльний аналіз сучасних систем керування потоками робіт. У другому розділі запропоновано можливість використання вкладених представлень для вирішення задачі класифікації зображень КТ. Запропоновано модифікацію існуючої нейронної мережі для побудови вкладених представлень та доведено можливість додавання нових класів без істотної втрати точності. Розроблено математичну модель для обрахунку часу на побудову класифікатора та наведено умови, що визначають його ефективність. У третьому розділі запропоновано метод для динамічної побудови графу потоку робіт під час його виконання, який дозволяє уникнути необхідності у його статичному визначенні вручну. Для запропонованого методу визначено основні сутності. Розроблено модель обрахунку часу виконання потоку робіт. Імітаційним моделюванням показано, що часом роботи алгоритму можна знехтувати відносно часу на корисні обчислення. Розроблено систему керування потоками робіт, що реалізує запропонований метод з використанням системи Kubernetes для розподілених кластерних обчислень та можливістю горизонтального масштабування. Проведено аналіз швидкодії системи та доведено її практичну застосовність. Розроблено математичну модель оцінки часу на побудову потоків робіт за запропонованим методом та наведено умови, що визначають межі ефективності його використання. У четвертому розділі виконано проєктування та реалізацію програмного забезпечення аналізу зображень КТ для діагностики захворювань. Представлено архітектуру програмного забезпечення. Розроблено низку обчислюючих засобів системи керування потоками робіт для виконання класифікації зображень комп’ютерної томографії, у тому числі за допомогою вкладених представлень. Реалізовано сервер та інтерфейс користувача системи. Наведено опис функціональності системи. Результати, отримані у дисертаційному дослідженні, містять наукову новизну – вперше запропоновано метод динамічного конструювання потоків робіт під час їх виконання, який відрізняється від наявних автоматичною побудовою графу виконання, що дозволяє виключити етап визначення статичного потоку робіт та зменшити час на впровадження змін у програмне забезпечення; – удосконалено метод класифікації зображень шляхом використання вкладених представлень, що дозволяє додавання нових класів без зміни топології нейронної мережі; – удосконалено математичну модель для оцінки часу адаптації програмного забезпечення класифікації зображень шляхом врахування складових часу модифікації класифікатора та побудови графу потоку робіт, що дає можливість порівнювати швидкості впровадження змін у програмне забезпечення та здійснювати обгрунтований вибір методів та архітектурних рішень. Розроблено хмарне програмне забезпечення для автоматизованої діагностики захворювань за допомогою аналізу знімків КТ. Запропоновані методи, застосовані у програмному засобі, дозволяють швидке дотренування та розширення для підтримки нових методів, розпізнавання нових захворювань тощо. Представлений метод динамічного конструювання потоків робіт та система на його основі можуть бути використані як заміна поточних систем організації обчислень у сфері біоінформатики, у тому числі для проведення геномних розрахунків. Розроблені в дисертації програмні засоби можуть використовуватись як окремо (СКПР, ПЗ аналізу знімків КТ для діагностики) так і в складі інших систем (наприклад, як складові систем підтримки прийняття рішень). Результати проведених досліджень було опубліковано у 9 наукових працях, з яких 4 у фахових наукових журналах категорії «Б», 1 у журналі, що індексується наукометричною базою даних Scopus, 4 у матеріалах міжнародних науково-практичних конференцій.

Опис

Ключові слова

інженерія програмного забезпечення, аналіз медичних даних, знімки комп’ютерної томографії, вкладені представлення, класифікатори, машинне навчання, нейронні мережі, згорткові нейронні мережі, потоки робіт, системи виконання потоків робіт, хмарні обчислення, розподілені обчислення, контейнер, software engineering, medical data analysis, computed tomography scans, embeddings, classifiers, machine learning, neural networks, convolutional neural networks, workflows, workflow management systems, cloud computing, distributed computing, containers

Бібліографічний опис

Смілянець, Ф. А. Методи та програмні засоби пришвидшення донавчання класифікатора для діагностики захворювань за зображеннями : дис. … д-ра філософії : 121 Інженерія програмного забезпечення / Смілянець Федір Андрійович – Київ, 2025. – 157 с.

DOI