Method for combining CNN-based features with geometric facial descriptors in emotion recognition

Zinchenko, Liudmyla

Method for combining CNN-based features with geometric facial descriptors in emotion recognition

dc.contributor.author	Zinchenko, Liudmyla
dc.date.accessioned	2026-02-09T09:30:03Z
dc.date.available	2026-02-09T09:30:03Z
dc.date.issued	2025
dc.description.abstract	This study presents a method for combining CNN-based visual features with geometric facial descriptors to improve the accuracy of emotion recognition in static images. The method integrates deep convolutional embeddings extracted from a pre-trained ResNetV2_101 model within the ML.NET framework with handcrafted geometric features computed from facial landmarks. Open-source datasets containing labeled emotional categories were used for experiments. At the first stage, deep image embeddings were obtained through transfer learning. At the second stage, 68 facial landmarks were detected to calculate distances and proportional relationships such as interocular distance, mouth width, eyebrow height, and other geometry-based indicators. These visual and geometric representations were concatenated into a unified feature space and classified using a multiclass linear model. The hybrid method achieved approximately 4% higher accuracy than the baseline CNN model relying solely on pixel-level features (from about 63% to 67%), confirming that combining heterogeneous features enhances generalization and robustness. The results also highlight that geometric descriptors act as stabilizing factors, compensating for noise, occlusions, and lighting variations that degrade CNN-only models. The developed pipeline demonstrates the feasibility of integrating interpretable geometric cues with deep embeddings directly in C# using ML.NET. The research novelty lies in proposing an interpretable hybrid model for emotion recognition that improves reliability while maintaining compatibility with .NET-based applications. The approach offers an accessible solution for developers working within enterprise .NET ecosystems, enabling direct deployment without cross-language integration. Future research will focus on extending the model toward multimodal emotion analysis that incorporates speech, gesture, and physiological signals to enhance contextual understanding of affective states. Additionally, the hybrid model can serve as a diagnostic tool for studying emotion dynamics in psychological or behavioral research.
dc.description.abstractother	У дослiдженнi представлено метод поєднання вiзуальних ознак, отриманих iз згорткових нейронних мереж(CNN), iз геометричними дескрипторами обличчя для пiдвищення точностi розпiзнавання емоцiй на статичних зображеннях. Метод iнтегрує глибокi згортковi вектори ознак, отриманi з попередньо натренованої моделi ResNetV2_101у середовищi ML.NET, iз вручну розрахованими геометричними параметрами, визначеними наосновi ключових точок обличчя. Для експериментiв використано вiдкритi набори даних, що мiстять зображення облич iз вiдповiдними емоцiйними категорiями. На першому етапi глибокi вiзуальнi ознаки отримано з попередньо натренованої мережi, а на другому – на основi 68 ключових точок обличчя обчисленометричнi та пропорцiйнi характеристики (вiдстань мiж очима, ширину рота, висоту брiв тощо). Отриманiвiзуальнi та геометричнi ознаки об’єднано в єдиний простiр i класифiковано за допомогою багатокласової лiнiйної моделi. Гiбридний метод продемонстрував покращення точностi приблизно на 4% у порiвняннi збазовою CNN-моделлю, що використовувала лише пiксельнi ознаки (з 63% до 67%). Це пiдтвердило, щопоєднання гетерогенних ознак пiдвищує узагальнювальну здатнiсть i стiйкiсть моделi. Результати показали,що геометричнi дескриптори стабiлiзують процес класифiкацiї, компенсуючи вплив шумiв, перекриттiв iварiацiй освiтлення. Розроблений програмний код ML.NET демонструє можливiсть iнтеграцiї iнтерпретованихгеометричних ознак iз глибокими векторами ознак безпосередньо у середовищi C#. Наукова новизна полягає уствореннi iнтерпретованої гiбридної моделi, що пiдвищує надiйнiсть класифiкацiї та зберiгає сумiснiсть iз.NET-орiєнтованими застосунками. Подальшi дослiдження спрямовуватимуться на розширення моделi домультимодального аналiзу емоцiй, який поєднує мовнi, жестикуляцiйнi та фiзiологiчнi сигнали для глибшогорозумiння емоцiйних станiв. Також гiбридна модель може бути використана як дiагностичний iнструмент у психологiчних i поведiнкових дослiдженнях.
dc.format.pagerange	P. 127-141
dc.identifier.citation	Zinchenko, L. Method for combining CNN-based features with geometric facial descriptors in emotion recognition / Liudmyla Zinchenko // Information, Computing and Intelligent systems. – 2025. – No. 7. – P. 127-141. – Bibliogr.: 16 ref.
dc.identifier.doi	https://doi.org/10.20535/2786-8729.7.2025.333629
dc.identifier.orcid	0009-0009-3956-5854
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/78691
dc.language.iso	en
dc.publisher	National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute"
dc.publisher.place	Kyiv
dc.relation.ispartof	Information, Computing and Intelligent systems, No. 7, 2025
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	emotion recognition
dc.subject	facial landmarks
dc.subject	convolutional neural networks
dc.subject	.NET framework
dc.subject	featurefusion
dc.subject	розпiзнавання емоцiй
dc.subject	ключовi точки обличчя
dc.subject	згортковi нейроннi мережi
dc.subject	.NET фреймворк
dc.subject	метод поєднання ознак
dc.subject.udc	519.688; 004.89; 004.9
dc.title	Method for combining CNN-based features with geometric facial descriptors in emotion recognition
dc.title.alternative	Метод поєднання CNN-ознак з геометричними характеристиками обличчя для розпізнавання емоцій
dc.type	Article

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: 127-141.pdf
Розмір:: 605.41 KB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 8.98 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Information, Computing and Intelligent systems, No. 7