Метод класифікації онкологічних захворювань легень на основі структурних патернів зображень комп’ютерної томографії
| dc.contributor.advisor | Настенко, Євген Арнольдович | |
| dc.contributor.author | Давидович, Ілля Вікторович | |
| dc.date.accessioned | 2026-06-09T08:40:07Z | |
| dc.date.available | 2026-06-09T08:40:07Z | |
| dc.date.issued | 2026 | |
| dc.description.abstract | Давидович І.В. Метод класифікації онкологічних захворювань легень на основі структурних патернів зображень комп’ютерної томографії. — Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 122 «Комп’ютерні науки» (12 - Інформаційні технології). – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2026. Дисертаційна робота присвячена дослідженню даних комп’ютерної томографії легень у пацієнтів із раком легень та розробці методів диференціації типів захворювання. Онкологічні захворювання легень залишаються однією з провідних причин смертності у світі. За глобальною статистикою у 2022 році було діагностовано близько 2,48 млн нових випадків та зафіксовано 1,8 млн смертей. В Україні значна частка випадків виявляється на пізніх стадіях, що підкреслює критичну потребу своєчасної діагностики. Важливу роль у виявленні патології відіграє медична візуалізація, зокрема комп’ютерна томографія (КТ) органів грудної клітини, яка використовується як базовий інструмент діагностичного уточнення та моніторингу стану захворювання, що здатні знижувати смертність завдяки ранньому виявленню пухлин. Водночас збільшення обсягів КТ-даних і складність їх інтерпретації створюють істотне навантаження на спеціалістів і підсилюють запит на автоматизовані методи, здатні виділяти діагностично значущу інформацію. Диференціація гістологічних типів визначає вибір тактики лікування та прогноз, тому підвищення точності інтерпретації КТ-даних є клінічно значущим. Проведено аналітичний огляд сучасних підходів до цифрової обробки та аналізу КТ-зображень легень у задачах онкологічної діагностики, включно з радіомікою, текстурними характеристиками, методами глибокого навчання, та підходів на основі Bag-of-Visual-Words для виділення інформативних ознак на зображеннях комп’ютерної томографії. За результатами проведеного огляду встановлено, що комп’ютерна томографія містить приховані структурні закономірності, які можуть бути використані для автоматизованої класифікації типів раку. Існуючі методи, зокрема глибокі нейронні мережі, демонструють високу точність, проте потребують великих обсягів якісно анотованих даних і часто не є у повній мірі прозорими у процесі прийняття рішень. Це ускладнює їх клінічну інтерпретацію та впровадження. Розглянуті сучасні методи мають проблеми зі стійкістю до варіативності вхідних даних та дисбалансу діагностичних класів при диференціації різних гістологічних типів. Тому постає задача вдосконалення методів виділення ознак та класифікації для забезпечення високої точності та інтерпретованості діагностики в умовах обмежених вибірок. Для підвищення інформативності даних розроблено метод селекції інтенсивностей пікселів для попередньої обробки зображень, що дозволяє виокремити найбільш репрезентативні діапазони яскравості для кожного класу патології. В алгоритмі попередньої обробки враховано необхідність зменшення розмірності простору інтенсивностей шляхом операції квантування та відбору пікселів, що формують стійкі структурні компоненти зображень, ігноруючи шумову складову. Селекція виконується шляхом узгодження інтенсивностей пікселів з урахуванням типових розподілів яскравостей для кожного класу, що зменшує міжсканерну варіативність та пригнічує артефакти, підвищуючи стабільність подальшого аналізу. Проведено дослідження із застосування методів виділення локальних структурних патернів для ідентифікації специфічних закономірностей у будові пухлинної тканини. На відміну від традиційних методів текстурного аналізу, які узагальнюють просторові залежності пікселів у вигляді інтегральних статистик, запропонований підхід формує явний словник мікроструктур шляхом сканування зображення ковзним вікном і подальшого підрахунку частот появи типових локальних конфігурацій. Таке подання є дискретизованим описом текстури, де замість обмеженої кількості агрегованих показників зберігається інформація про склад і розподіл конкретних локальних структур. Перевагою запропонованого підходу є використання методів статистичного зважування ознак, що дозволяє зменшити вплив фонових патернів та підсилити внесок рідкісних, але потенційно діагностично значущих структур. Виділення унікальних патернів дозволяє перейти від аналізу окремих пікселів до оцінки частотного розподілу локальних конфігурацій. Дискретний словник виділених структур дає змогу аналізувати внесок окремих патернів у рішення моделі та полегшує експертну верифікацію виявлених закономірностей. Для числового подання виокремлених структур проаналізовано декілька альтернативних схем формування опису ознак, які відрізняються ступенем узагальнення та чутливістю до частотного профілю патернів. Побудовані моделі та методика формування простору ознак надає можливість впорядкувати патерни за їх дискримінативною здатністю та сформувати вектори ознак, на основі яких побудовано класифікатор. Проаналізовано підходи до нормування частот патернів, їх зважування та відбору найбільш інформативних ознак, що забезпечує формування компактного вектора у єдиному порядку компонент, визначеному спільним словником патернів для всіх класів й наборів даних. На основі сформованого набору ознак проведено дослідження, спрямоване на розробку архітектури класифікатора для багатокласової діагностики гістологічних типів раку. Запропоновано реалізацію багатокласового класифікатора за стратегію каскадного «один проти решти» (One-vs-Rest), на базі логістичної регресії, що дозволяє послідовно відокремлювати класи, зменшуючи неоднорідність вибірки на кожному кроці. Для підвищення точності класифікації розроблено алгоритм автоматичного відбору порядку слідування класів та адаптивного підбору порогів прийняття рішень, що дозволяє враховувати специфіку дисбалансу даних та мінімізувати помилки розпізнавання для найбільш складних для розпізнавання класів. Проведено порівняльне дослідження ефективності запропонованого підходу з низкою моделей машинного навчання та глибокого навчання, включно з лінійними методами, ансамблями дерев рішень і градієнтного бустингу, багаторівневими ансамблями, а також нейромережевими архітектурами. Перевірку виконано на незалежній тестовій вибірці, що дозволило оцінити узагальнювальну здатність підходу на нових даних. За результатами порівняльних експериментів запропонований підхід за обраних параметрів попередньої обробки забезпечив точність на рівні 0.949±0.048 та макро-F1-міри 0.916±0.074. Додаткова перевірка в умовах ізольованої обробки навчальної та тестової вибірок підтвердила відтворюваність отриманих результатів і практичну придатність для сценарію застосування на нових даних. У додатковому, більш консервативному сценарії отримано точність на рівні 0.805, макро-F1-міра 0.766. Метою роботи було підвищення точності та інтерпретованості автоматизованої диференційної діагностики гістологічних типів раку легень за даними комп’ютерної томографії шляхом розроблення методу багатокласової класифікації на основі локальних структурних патернів. У дисертації отримані такі наукові результати: 1. Запропоновано метод селекції інтенсивностей пікселів КТ-зображень у межах області інтересу, який зменшує вплив випадкових коливань яскравості та узгоджує вхідні дані шляхом побудови нормованих розподілів інтенсивностей і їх послідовного усереднення. Це забезпечує подальший відбір найбільш репрезентативної частини діапазону відтінків сірого та пригнічення фонових й неспецифічних значень. 2. Розроблено спосіб виокремлення часто повторюваних локальних структурних патернів для подальшої їх селекції з метою отримання компактного та інформативного набору ознак. Запропонований спосіб відрізняється формуванням словника структур і поєднанням частотного та дискримінативного відбору. 3. Розроблено алгоритм багатокласової класифікації за стратегією каскадного «один проти решти» (One-vs-Rest), що відрізняється послідовним відокремленням класів з покроковим звуженням множини альтернатив на кожному етапі та автоматизованим підбором порядку проходження класів. Це забезпечує зменшення кількості помилок для малопредставлених і тому складних для розпізнавання класів. Практичне значення отриманих результатів. Реалізовано технологію формування структурно орієнтованого опису ознак на основі виокремлення локальних клас-специфічних патернів в області інтересу з подальшою селекцією інформативних структур. За результатами проведених досліджень розроблено інформаційну систему автоматизованого аналізу зображень комп’ютерної томографії легень, орієнтовану на багатокласову диференціацію гістологічних типів раку легень. Доведено практичну цінність моделі багатокласової класифікації за стратегією каскадного «один проти решти», що забезпечує підвищення стабільності результатів за нерівномірної представленості різних нозологічних груп. | |
| dc.description.abstractother | Davydovych I. A Method for Classifying Oncological Lung Diseases Based on Structural Patterns of Computed Tomography Images. — Qualifying scientific work (manuscript). PhD thesis submitted for the degree of Doctor of Philosophy in specialty 122 “Computer Science” (12 – Information Technologies). — National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Kyiv, 2026. The dissertation is devoted to the study of lung computed tomography (CT) data in patients with lung cancer and to the development of methods for differentiating disease types. Lung cancer remains one of the leading causes of mortality worldwide. According to global statistics, in 2022 approximately 2.48 million new cases were diagnosed and 1.8 million deaths were recorded. In Ukraine, a significant proportion of cases is detected at late stages, which emphasizes the critical need for timely diagnosis. Medical imaging plays an important role in detecting pathology, in particular chest computed tomography (CT), which is used as a basic tool for diagnostic verification and for monitoring the course of disease and can reduce mortality through early tumor detection. At the same time, the increasing volume of CT data and the complexity of its interpretation place a substantial burden on specialists and intensify the demand for automated methods capable of extracting diagnostically significant information. Differentiation of histological types determines treatment strategy and prognosis; therefore, improving the accuracy of CT interpretation is clinically important. An analytical review of modern approaches to digital processing and analysis of lung CT images for oncological diagnosis was conducted, including radiomics, texture characteristics, deep learning methods, and Bag-of-Visual-Words–based approaches for extracting informative features from CT images. Based on the review, it was established that CT contains latent structural regularities that can be used for automated classification of cancer types. Existing methods, including deep neural networks, demonstrate high accuracy; however, they require large volumes of high-quality annotated data and are often not fully transparent in the decision-making process. This complicates their clinical interpretation and implementation. The considered modern methods face challenges in robustness to input data variability and in handling diagnostic class imbalance when differentiating histological types. Therefore, there is a need to improve feature extraction and classification methods to ensure high accuracy and interpretability under limited-sample conditions. To increase data informativeness, a pixel-intensity selection method for image preprocessing was developed, enabling the identification of the most representative brightness ranges for each pathology class. The preprocessing algorithm accounts for the need to reduce the dimensionality of the intensity space through quantization and selection of pixels forming stable structural components of images while ignoring the noise component. Selection is performed by aligning pixel intensities with regard to typical brightness distributions for each class, which reduces inter-scanner variability and suppresses artifacts, thereby increasing the stability of further analysis. A study was carried out using methods for extracting local structural patterns to identify specific regularities in the structure of tumor tissue. Unlike traditional texture analysis methods that summarize spatial pixel dependencies as integral statistics, the proposed approach forms an explicit microstructure dictionary by scanning the image with a sliding window and subsequently counting the occurrence frequencies of typical local configurations. This representation is a discretized description of texture in which, instead of a limited set of aggregated indicators, information about the composition and distribution of specific local structures is retained. An advantage of the proposed approach is the use of statistical feature weighting methods, which reduces the influence of background patterns and strengthens the contribution of rare but potentially diagnostically significant structures. Extracting unique patterns makes it possible to move from pixel-level analysis to assessing the frequency distribution of local configurations. The discrete dictionary of extracted structures enables analysis of individual patterns’ contributions to model decisions and facilitates expert verification of the discovered regularities. For numerical representation of the extracted structures, several alternative schemes for forming feature descriptors were analyzed, differing in the degree of generalization and sensitivity to the frequency profile of patterns. The constructed models and the methodology for forming the feature space make it possible to rank patterns by their discriminative power and to form feature vectors on the basis of which a classifier is built. Approaches to frequency normalization, weighting, and selection of the most informative features were analyzed, ensuring the formation of a compact vector with a unified component order defined by a common pattern dictionary for all classes and datasets. Based on the formed feature set, a study was conducted aimed at developing a classifier architecture for multiclass diagnosis of histological cancer types. An implementation of a multiclass classifier using the One-vs-Rest strategy in a cascade, based on logistic regression, was proposed; it enables sequential separation of classes, reducing sample heterogeneity at each step. To improve classification accuracy, an algorithm for automatic selection of the class order in the cascade and adaptive tuning of decision thresholds was developed, which allows accounting for data imbalance specifics and minimizing recognition errors for the most difficult-to-recognize classes. A comparative study of the effectiveness of the proposed approach was performed against a range of machine-learning and deep-learning models, including linear methods, ensembles of decision trees and gradient boosting, multi-level ensembles, as well as neural network architectures. Validation was carried out on an independent test set, which made it possible to evaluate the generalization ability of the approach on new data. According to the comparative experiments, under the selected preprocessing parameters the proposed approach achieved an accuracy of 0.949±0.048 and a macro-F1 score of 0.916±0.074. Additional validation under conditions of isolated processing of the training and test sets confirmed the reproducibility of the results and practical applicability for deployment on new data. In an additional, more conservative scenario, an accuracy of 0.805 and a macro-F1 score of 0.766 were obtained. The aim of the work was to improve the accuracy and interpretability of automated differential diagnosis of histological types of lung cancer from computed tomography data by developing a multiclass classification method based on local structural patterns. The dissertation presents the following scientific results: A method for selecting pixel intensities of CT images within the region of interest is proposed, which reduces the influence of random brightness fluctuations and aligns the input data by constructing normalized intensity distributions and their sequential averaging. This ensures subsequent selection of the most representative part of the grayscale range and suppression of background and nonspecific values. A method for extracting frequently recurring local structural patterns for their subsequent selection is developed in order to obtain a compact and informative feature set. The proposed method is distinguished by building a structure dictionary and combining frequency-based and discriminative selection. A multiclass classification algorithm using the One-vs-Rest strategy is developed, which differs by sequential separation of classes with stepwise narrowing of the set of alternatives at each stage and automated selection of the class traversal order. This reduces the number of errors for underrepresented and therefore difficult-to-recognize classes. Practical significance of the obtained results. A technology for forming a structurally oriented feature description has been implemented based on extracting local class-specific patterns in the region of interest followed by selection of informative structures. Based on the conducted studies, an information system for automated analysis of lung CT images was developed, oriented toward multiclass differentiation of histological types of lung cancer. The practical value of the multiclass classification model based on the One-vs-Rest strategy has been demonstrated, providing improved stability of results under uneven representation of different nosological groups. | |
| dc.format.extent | 147 с. | |
| dc.identifier.citation | Давидович, І. В. Метод класифікації онкологічних захворювань легень на основі структурних патернів зображень комп’ютерної томографії : дис. … д-ра філософії : 122 Комп’ютерні науки / Давидович Ілля Вікторович. - Київ, 2026. - 147 с. | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/81545 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.subject | нейронні мережі | |
| dc.subject | машинне навчання | |
| dc.subject | обробка медичних зображень | |
| dc.subject | медична візуалізація | |
| dc.subject | сегментація зображення | |
| dc.subject | класифікація зображень | |
| dc.subject | точність класифікації | |
| dc.subject | розподіл частот інтенсивностей пікселів | |
| dc.subject | статистичний розподіл | |
| dc.subject | ознаки | |
| dc.subject | прогнозування | |
| dc.subject | стратегія лікування | |
| dc.subject | рання діагностика | |
| dc.subject | структурні патерни | |
| dc.subject | рак легень | |
| dc.subject | neural network | |
| dc.subject | machine learning | |
| dc.subject | medical image processing | |
| dc.subject | medical visualization | |
| dc.subject | image segmentation | |
| dc.subject | image classification | |
| dc.subject | classification accuracy | |
| dc.subject | pixel intensity frequency distribution | |
| dc.subject | statistical distribution | |
| dc.subject | features | |
| dc.subject | prediction | |
| dc.subject | treatment strategy | |
| dc.subject | early diagnosis | |
| dc.subject | structural patterns | |
| dc.subject | lung cancer | |
| dc.subject.udc | 004.89:616-073.75 | |
| dc.title | Метод класифікації онкологічних захворювань легень на основі структурних патернів зображень комп’ютерної томографії | |
| dc.title.alternative | A Method for Classifying Oncological Lung Diseases Based on Structural Patterns of Computed Tomography Images | |
| dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Davydovych_dys.pdf
- Розмір:
- 8.35 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: