Аналіз емоційного контексту зображень із використанням сучасних архітектур глибокого навчання

dc.contributor.advisorШаповал, Наталія Віталіївна
dc.contributor.authorЯхненко, Владислава Юріївна
dc.date.accessioned2025-09-09T13:00:01Z
dc.date.available2025-09-09T13:00:01Z
dc.date.issued2025
dc.description.abstractДипломна робота: 85 с., 29 рис., 10 табл., 44 посилань, 1 додаток. Об’єктом дослідження є емоційний контекст зображень, що входять до складу анотованого датасету. Предметом дослідження є глибокі нейронні мережі, мультимодальні моделі, застосовані до задачі класифікації емоційного контексту в зображеннях. Метою роботи є порівняння підходів та визначення найоптимальнішого підходу до автоматичного визначення емоцій в зображеннях на основі візуальних, семантичних і мультимодальних ознак. В результаті виконання роботи реалізовано та протестовано три архітектурні рішення – EfficientNet-B0 (візуальний підхід), CLIP ViT-B/32 (семантичний підхід), та мультимодальну ансамблеву модель (CLIP_BLIP + CNN + DeiT). Найвищі показники продемонструвала мультимодальна ансамблева модель. Новизна полягає у практичному поєднанні візуальних, текстових і семантичних ознак для емоційної класифікації зображень без використання явних текстових підказок. Рекомендації щодо використання – цей підхід може знайти застосування в системах аналізу емоційного впливу рекламних матеріалів, зокрема для оптимізації візуального контенту відповідно до цільової емоційної реакції. Також можливе використання в суміжних сферах – UXдослідженнях, медіааналітиці.
dc.description.abstractotherThesis: 85 p., 29 figures, 10 tables, 44 references, appendix. The object of the study is the emotional context of visual content. The subject of the study is deep neural networks applied to the task of classifying the emotional context in images. The purpose of the work is to compare approaches and determine the most optimal solution for automatic recognition of emotions in images based on visual, semantic, and multimodal features. As a result of the work, three architectural solutions were implemented and tested – EfficientNet-B0 (visual approach), CLIP ViT-B/32 (semantic approach), and a multimodal ensemble model (CLIP_BLIP + CNN + DeiT). The highest performance was demonstrated by the multimodal ensemble model. The novelty lies in the practical combination of visual, textual, and semantic features for emotion classification in images without the use of explicit textual prompts. Recommendations for use – this approach can be applied in systems for analyzing the emotional impact of advertising materials, particularly for optimizing visual content according to the target emotional response. It can also be used in related fields – UX research, media analytics.
dc.format.extent102 с.
dc.identifier.citationЯхненко, В. Ю. Аналіз емоційного контексту зображень із використанням сучасних архітектур глибокого навчання : дипломна робота … бакалавра : 122 Комп'ютерні науки / Яхненко Владислава Юріївна. – Київ, 2025. – 102 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/75892
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectаналіз емоцій
dc.subjectblip
dc.subjectclip
dc.subjectглибоке навчання
dc.subjectзображення
dc.subjectкласифікація
dc.subjectмультимодальність
dc.titleАналіз емоційного контексту зображень із використанням сучасних архітектур глибокого навчання
dc.typeBachelor Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Yakhnenko_bakalavr.pdf
Розмір:
13.7 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: