Method for combining CNN-based features with geometric facial descriptors in emotion recognition

dc.contributor.authorZinchenko, Liudmyla
dc.date.accessioned2026-02-09T09:30:03Z
dc.date.available2026-02-09T09:30:03Z
dc.date.issued2025
dc.description.abstractThis study presents a method for combining CNN-based visual features with geometric facial descriptors to improve the accuracy of emotion recognition in static images. The method integrates deep convolutional embeddings extracted from a pre-trained ResNetV2_101 model within the ML.NET framework with handcrafted geometric features computed from facial landmarks. Open-source datasets containing labeled emotional categories were used for experiments. At the first stage, deep image embeddings were obtained through transfer learning. At the second stage, 68 facial landmarks were detected to calculate distances and proportional relationships such as interocular distance, mouth width, eyebrow height, and other geometry-based indicators. These visual and geometric representations were concatenated into a unified feature space and classified using a multiclass linear model. The hybrid method achieved approximately 4% higher accuracy than the baseline CNN model relying solely on pixel-level features (from about 63% to 67%), confirming that combining heterogeneous features enhances generalization and robustness. The results also highlight that geometric descriptors act as stabilizing factors, compensating for noise, occlusions, and lighting variations that degrade CNN-only models. The developed pipeline demonstrates the feasibility of integrating interpretable geometric cues with deep embeddings directly in C# using ML.NET. The research novelty lies in proposing an interpretable hybrid model for emotion recognition that improves reliability while maintaining compatibility with .NET-based applications. The approach offers an accessible solution for developers working within enterprise .NET ecosystems, enabling direct deployment without cross-language integration. Future research will focus on extending the model toward multimodal emotion analysis that incorporates speech, gesture, and physiological signals to enhance contextual understanding of affective states. Additionally, the hybrid model can serve as a diagnostic tool for studying emotion dynamics in psychological or behavioral research.
dc.description.abstractotherУ дослiдженнi представлено метод поєднання вiзуальних ознак, отриманих iз згорткових нейронних мереж(CNN), iз геометричними дескрипторами обличчя для пiдвищення точностi розпiзнавання емоцiй на статичних зображеннях. Метод iнтегрує глибокi згортковi вектори ознак, отриманi з попередньо натренованої моделi ResNetV2_101у середовищi ML.NET, iз вручну розрахованими геометричними параметрами, визначеними наосновi ключових точок обличчя. Для експериментiв використано вiдкритi набори даних, що мiстять зображення облич iз вiдповiдними емоцiйними категорiями. На першому етапi глибокi вiзуальнi ознаки отримано з попередньо натренованої мережi, а на другому – на основi 68 ключових точок обличчя обчисленометричнi та пропорцiйнi характеристики (вiдстань мiж очима, ширину рота, висоту брiв тощо). Отриманiвiзуальнi та геометричнi ознаки об’єднано в єдиний простiр i класифiковано за допомогою багатокласової лiнiйної моделi. Гiбридний метод продемонстрував покращення точностi приблизно на 4% у порiвняннi збазовою CNN-моделлю, що використовувала лише пiксельнi ознаки (з 63% до 67%). Це пiдтвердило, щопоєднання гетерогенних ознак пiдвищує узагальнювальну здатнiсть i стiйкiсть моделi. Результати показали,що геометричнi дескриптори стабiлiзують процес класифiкацiї, компенсуючи вплив шумiв, перекриттiв iварiацiй освiтлення. Розроблений програмний код ML.NET демонструє можливiсть iнтеграцiї iнтерпретованихгеометричних ознак iз глибокими векторами ознак безпосередньо у середовищi C#. Наукова новизна полягає уствореннi iнтерпретованої гiбридної моделi, що пiдвищує надiйнiсть класифiкацiї та зберiгає сумiснiсть iз.NET-орiєнтованими застосунками. Подальшi дослiдження спрямовуватимуться на розширення моделi домультимодального аналiзу емоцiй, який поєднує мовнi, жестикуляцiйнi та фiзiологiчнi сигнали для глибшогорозумiння емоцiйних станiв. Також гiбридна модель може бути використана як дiагностичний iнструмент у психологiчних i поведiнкових дослiдженнях.
dc.format.pagerangeP. 127-141
dc.identifier.citationZinchenko, L. Method for combining CNN-based features with geometric facial descriptors in emotion recognition / Liudmyla Zinchenko // Information, Computing and Intelligent systems. – 2025. – No. 7. – P. 127-141. – Bibliogr.: 16 ref.
dc.identifier.doihttps://doi.org/10.20535/2786-8729.7.2025.333629
dc.identifier.orcid0009-0009-3956-5854
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/78691
dc.language.isoen
dc.publisherNational Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
dc.publisher.placeKyiv
dc.relation.ispartofInformation, Computing and Intelligent systems, No. 7, 2025
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectemotion recognition
dc.subjectfacial landmarks
dc.subjectconvolutional neural networks
dc.subject.NET framework
dc.subjectfeaturefusion
dc.subjectрозпiзнавання емоцiй
dc.subjectключовi точки обличчя
dc.subjectзгортковi нейроннi мережi
dc.subject.NET фреймворк
dc.subjectметод поєднання ознак
dc.subject.udc519.688; 004.89; 004.9
dc.titleMethod for combining CNN-based features with geometric facial descriptors in emotion recognition
dc.title.alternativeМетод поєднання CNN-ознак з геометричними характеристиками обличчя для розпізнавання емоцій
dc.typeArticle

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
127-141.pdf
Розмір:
605.41 KB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: