Research and development of self-supervised visual feature learning based on neural networks
dc.contributor.advisor | Stirenko, Sergii | |
dc.contributor.author | Xu Jiashu | |
dc.date.accessioned | 2024-03-11T10:30:05Z | |
dc.date.available | 2024-03-11T10:30:05Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Xu Jiashu. Research and development of self-supervised visual feature learning based on neural networks. - Qualified scientific work on the rights of the manuscript. Dissertation for the degree of Doctor of Philosophy in the specialty 121 - Software Engineering and 12 - Information Technologies. - National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute", Kyiv, 2024. This Dissertation focuses on in-depth exploration into the design and development of self-supervised learning algorithms, which are a subset of unsupervised learning techniques that operate without the need for labeled datasets. These algorithms are particularly adept at pre-training models in an unsupervised manner, with the resultant models demonstrating performance on par with their supervised counterparts across a range of downstream applications. This method is particularly advantageous as it aims to mitigate the over-dependence on extensive data labeling that is typical within deep learning paradigms, thereby enhancing efficiency and practical utility in diverse real-world scenarios. The pertinence of selfsupervised learning algorithms is especially highlighted within the realm of medical image analysis. In this specialized field, the requisites for data annotation are not only laborious but also require a high degree of precision due to the critical nature of the data involved. The difficulty of obtaining accurate annotations is compounded by the scarcity of specialists capable of providing them, which in turn underscores the transformative potential of self-supervised learning approaches within this domain. In this dissertation, a cutting-edge self-supervised learning methodology is delineated, which employs the Mixup Feature as the reconstruction target within the pretext task. This pretext task is fundamentally designed to encapsulate visual representations by the prediction of Mixup features from masked image, utilizing these feature maps to extracting high-level semantic information. The dissertation delves into the validation of the Mixup Feature's role as a predictive target in selfsupervised learning frameworks. This investigation involved the meticulous calibration of the hyperparameter , integral to the Mixup Feature operation. Such adjustments allowed for the generation of amalgamated feature maps that encompass Sobel edge detection maps, Histogram of Oriented Gradients (HOG) maps, and Local Binary Pattern (LBP) maps, providing a rich, multifaceted representation of visual data. For the empirical application of this novel method, the visual transformer was selected as the principal architecture, due to its proficiency in handling complex visual inputs and its emphasis on critical image regions. This choice was further reinforced by the insights derived from the Masked AutoEncoder (MAE) approach, which illuminated the potential of utilizing partially visible inputs to reconstruct full images, thus enhancing the model's predictive capabilities in a self-supervised context. A denoising self-distillation Masked Autoencoder model for self-supervised learning was developed. This model synthesizes elements from Siamese Networks and Masked Autoencoders, incorporating a tripartite architecture that includes a student network in the form of a masked autoencoder, an intermediary regressor, and a teacher network. The underlying proxy task for this model is the restoration of input images that have been artificially corrupted with random Gaussian noise patches. This is a strategic choice designed to encourage the model to learn robust feature representations by distilling clean signals from noisy inputs. In doing so, the model is trained to reconstruction of the degraded image, effectively teaching it focus on the essence of the visual content. To ensure comprehensive learning, the model harnesses a dual loss function mechanism. One function is calibrated to reinforce the global contextual understanding of the image, thereby enabling the model to grasp the overall structure and scene configuration. Concurrently, the second function is tailored to refine the perception of intricate local details, ensuring that fine visual nuances are not lost in the process of denoising and reconstruction. Through this innovative approach, the model aspires to achieve a delicate balance between the macroscopic comprehension of visual scenes and the meticulous reconstruction of localized details, a balance that is pivotal for sophisticated image analysis tasks in self-supervised learning frameworks. An exhaustive analysis was executed to assess the experimental performance of two innovative self-supervised learning algorithms, specifically applied to three benchmark datasets: Cifar-10, Cifar-100, and STL-10. This study aimed to benchmark these algorithms against existing advanced self-supervised techniques grounded in Masked Image Modeling. In comparison to other state-of-the-art selfsupervised methods based on Masked Image Modeling, the mixed HOG-Sobel feature maps obtained using Mixup showed outstanding performance on Cifar-10 and STL-10 after full fine-tuning, with an average performance improvement of 0.4%. Additionally, the pre-trained model of the Deep Masked Autoencoder (DMAE) was subjected to a rigorous evaluation. When full fine-tuned on the STL-10 dataset, this model demonstrated a modest yet significant edge over the conventional Masked Autoencoder (MAE), exceeding its performance by a margin of 0.1%. This finding shed light on the potential of DMAE in enhancing model accuracy. Moreover, the study revealed that in comparison to traditional self-supervised learning strategies reliant on contrastive learning, the Mixup Feature method emerged as more efficient. It offered the advantage of shortened training durations and negated the requirement for conventional data augmentation methods, thus streamlining the learning process. In conclusion, the two self-supervised learning algorithms introduced in this research contribute to the expanding repertoire of methods for masked image modeling. Their demonstrated effectiveness on benchmark datasets illuminates their potential for broader applications, particularly in larger and more complex datasets. The application of these self-supervised learning algorithms was effectively expanded to encompass the domain of medical image analysis. This extension involved the utilization of self-supervised pre-training on specifically curated medical image datasets. Following this pre-training phase, the model thus developed was then employed for the downstream tasks. Empirical results from this study illustrate that the approach of self-supervised pre-training surpasses the efficacy of direct training methodologies. A notable enhancement in accuracy, exceeding 5%, was observed upon the Full fine-tuning of the model on the two downstream datasets. Data imbalance poses a substantial challenge in medical image analysis, as inadequate representation of specific conditions or features can negatively impact the efficacy of model training and feature extraction. Considering this, the study developed an imbalanced dataset and delved into the robustness of self-supervised pre-trained models in the context of data imbalance. The experimental findings underscore the superior robustness of self-supervised pre-training methods over from scrath trained models in addressing data imbalance issues. Particularly notable is their performance in scenarios with a positive to negative sample ratio of 1:8, where they exhibit enhanced robustness compared to traditional supervised Convolutional Neural Network (CNN) pre-trained models. These results affirm the effectiveness of our proposed self-supervised pre-trained models in tackling dataset imbalance challenges. The notable improvement in the robustness of self-supervised learning algorithms augments their potential as powerful tools in medical image analysis, suggesting a prospective enhancement in accuracy within intelligent assisted diagnostic systems. | |
dc.description.abstractother | Сюй Цзяшу. Дослідження та розробка самонавчання візуальним особливостям на основі нейронних мереж. - Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 121 - Інженерія програмного забезпечення та 12 - Інформаційні технології. - Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", Київ, 2024. Ця дисертація присвячена поглибленому дослідженню розробки та впровадження алгоритмів самонавчання, що являються частиною технік неконтрольованого навчання, які функціонують без потреби в маркованих даних. Ці алгоритми особливо вправні у попередньому навчанні моделей неконтрольованим способом, а отримані моделі показують результативність, порівнянну з їх контрольованими аналогами у широкому спектрі застосувань. Цей метод особливо корисний, оскільки він має на меті зменшити залежність від обширного маркування даних, характерного для парадигм глибокого навчання, тим самим підвищуючи ефективність і практичне застосування в різних сценаріях реального світу. Важливість алгоритмів самонавчання особливо підкреслена в області аналізу медичних зображень. У цій спеціалізованій області вимоги до анотування даних є не лише трудомісткими, але й потребують високої точності через критичну природу використовуваних даних. Складність отримання точних анотацій посилюється через дефіцит спеціалістів, здатних їх забезпечити, що в свою чергу підкреслює трансформуючий потенціал підходів самонавчання в цій сфері. У цій дисертації представлено новітню методологію самонавчання, що використовує Mixup Feature як мету реконструкції у межах pretext task. Це pretext task засноване на укладенні візуальних представлень через прогнозування Mixup Feature із маскованого зображення, використовуючи ці карти особливостей для вилучення високорівневої семантичної інформації. Дисертація детально розглядає роль Mixup Feature як прогностичної цілі у структурах самонавчання. Це дослідження включало детальну калібровку гіперпараметра , що є важливою для функціонування Mixup Feature. Ці налаштування дозволили створити комбіновані карти особливостей, що охоплюють карти детекції країв Sobel, гістограми орієнтованих градієнтів (HOG) та карти локальних бінарних шаблонів (LBP), забезпечуючи багатогранне представлення візуальних даних. Для практичного застосування цього нового методу як головної архітектури був обраний VIT (visual transformer), оскільки він ефективно обробляє складні візуальні вхідні дані та фокусується на важливих регіонах зображення. Цей вибір було додатково посилений висновками, отриманими з підходу Masked AutoEncoder (MAE), який виявив потенціал використання частково видимих вхідних даних для реконструкції повних зображень, таким чином покращуючи прогностичні здібності моделі в контексті самонавчання. Розроблено модель denoising self-distillation Masked Autoencoder для самонавчання. Ця модель поєднує елементи з мереж Siamese Networks та Masked Autoencoders, втілюючи трьохчастинну архітектуру, що включає student network у формі маскованого автокодера, проміжний regressor та teacher network. Основним проксі-завданням цієї моделі є відновлення вхідних зображень, які були штучно спотворені випадковими плямами гауссівського шуму. Це стратегічне рішення, призначене для стимулювання моделі вчитися стійким представленням особливостей, відокремлюючи чисті сигнали від шумних вхідних даних. Виконуючи це, модель навчається реконструювати деградоване зображення, ефективно вчиться концентруватися на сутності візуального контенту. Для забезпечення всебічного навчання модель застосовує механізм подвійної функції втрати. Одна функція налаштована на зміцнення глобального контекстуального розуміння зображення, що дозволяє моделі осягнути загальну структуру та конфігурацію сцени. Одночасно друга функція націлена на удосконалення сприйняття складних локальних деталей, гарантуючи, що тонкі візуальні нюанси не втрачаються під час дешумізації та реконструкції. Завдяки цьому інноваційний підхід, модель прагне досягнути делікатного балансу між макроскопічним сприйняттям візуальних сцен та детальною реконструкцією локалізованих деталей, балансу, який відіграє вирішальну роль для складних завдань аналізу зображень в рамках систем самонавчання. Для оцінки експериментальної продуктивності двох інноваційних алгоритмів самонавчання було здійснено всебічний аналіз, зокрема застосований до трьох стандартних наборів даних: Cifar-10, Cifar-100 і STL-10. Це дослідження мало на меті порівняти ці алгоритми з сучасними передовими техніками самонавчання, основаними на моделюванні з маскованими зображеннями. Порівняно з іншими сучасними методами самонавчання, що базуються на моделюванні з маскованими зображеннями, змішані картографічні характеристики HOG-Sobel, отримані за допомогою Mixup, показали видатні результати на Cifar-10 та STL-10 після full fine-tuning, з середнім підвищенням продуктивності на 0,4%. Крім того, переднавчена модель denoising self-distillation Masked Autoencoder (DMAE) була піддана ретельній оцінці. Після full fine-tuning, на наборі даних STL-10 ця модель продемонструвала невелику, але вагому перевагу над традиційним Masked Autoencoders (MAE), перевершуючи його продуктивність на 0,1%. Це відкриття підкреслює потенціал DMAE у покращенні точності моделі. Більше того, дослідження виявило, що в порівнянні з традиційними стратегіями самонавчання, які ґрунтуються на контрастному навчанні, метод Mixup Feature виявився ефективнішим. Він надав перевагу у вигляді скорочення часу навчання та усунення необхідності традиційних методів розширення даних, тим самим оптимізуючи процес навчання. В заключенні, два алгоритми самонавчання, введені в цьому дослідженні, сприяють розширенню набору методів для моделювання зображень із застосуванням масок. Їх доведена ефективність на контрольних наборах даних висвітлює їхній потенціал для більш широкого використання, зокрема в більших та складніших наборах даних. Ефективне розширення застосування цих алгоритмів самонавчання охопило область аналізу медичних зображень. Таке розширення включало застосування самонавчання з попереднім навчанням на спеціально підібраних наборах медичних зображень. Після фази попереднього навчання, розроблена таким чином модель була застосована для виконання наступних завдань. Емпіричні результати цього дослідження демонструють, що метод самонавчання з попереднім навчанням перевищує ефективність прямих методів навчання. Було спостережено відчутне підвищення точності, перевищуюче 5%, після Full fine-tuning моделі на двох наборах даних для наступних завдань. Незбалансованість даних є вагомим викликом у аналізі медичних зображень, адже недостатнє представлення окремих станів або характеристик може негативно впливати на ефективність тренування моделей та екстракції ознак. З огляду на це, у дослідженні був розроблений незбалансований набір даних, а також проведено аналіз стійкості самонавчальних попередньо тренованих моделей у контексті незбалансованості даних. Експериментальні результати виділяють перевагу стійкості методів самонавчання з попереднім тренуванням над моделями, навченими з нуля, у подоланні проблем незбалансованості даних. Ці результати засвідчують ефективність наших запропонованих самонавчальних попередньо тренованих моделей у розв'язанні проблем незбалансованості наборів даних. Відчутне покращення стійкості алгоритмів самонавчання розширює їх можливості як ефективних інструментів у аналізі медичних зображень, натякаючи на перспективне збільшення точності в системах інтелектуальної підтримки діагностики. | |
dc.format.extent | 168 p. | |
dc.identifier.citation | Xu Jiashu. Research and development of self-supervised visual feature learning based on neural networks : thesis ... doctor of philosophy : 121 Software engineering / Xu Jiashu. – Kyiv, 2024. – 168 p. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/65406 | |
dc.language.iso | en | |
dc.publisher | Igor Sikorsky Kyiv Polytechnic Institute | |
dc.publisher.place | Kyiv | |
dc.subject | Self-supervised learning | |
dc.subject | Image reconstruction | |
dc.subject | Feature extraction | |
dc.subject | Image edge detection | |
dc.subject | Masked Autoencoder | |
dc.subject | Vision Transformers | |
dc.subject | Siamese Networks | |
dc.subject | Medical image analysis | |
dc.subject | Реконструкція зображення | |
dc.subject | Видобуток особливостей | |
dc.subject | Виявлення краю зображення | |
dc.subject | Маскований автоенкодер | |
dc.subject | Візійні трансформатори | |
dc.subject | Мережі Сіамських | |
dc.subject | Аналіз медичних зображень | |
dc.subject.udc | 004.032.26 | |
dc.title | Research and development of self-supervised visual feature learning based on neural networks | |
dc.title.alternative | Дослідження та розробка самонавчання візуальним особливостям на основі нейронних мереж | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Xu_Jiashu_dys.pdf
- Розмір:
- 17.26 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: