Морозов, Костянтин ВячеславовичЛунгов, Олександр Віталійович2026-01-192026-01-192025Лунгов, О. В. Система відстеження погляду користувача для взаємодії з комп'ютером : магістерська дис. : 123 Комп'ютерна інженерія / Лунгов Олександр Віталійович. – Київ, 2025. – 93 с.https://ela.kpi.ua/handle/123456789/78233Актуальність теми. Розвиток людино-комп'ютерної взаємодії спрямований на створення більш природних, інтуїтивних та інклюзивних інтерфейсів. Керування пристроями за допомогою погляду є наступним логічним етапом еволюції, оскільки забезпечує режим "вільні руки" та є життєво необхідним для допоміжних технологій. Проте, широке впровадження цієї технології гальмується домінуванням дорогих апаратних трекерів, що суперечить принципам масової доступності та економічної ефективності. Актуальність роботи полягає у розробці та дослідженні високоточної, чисто програмної системи відстеження погляду, яка використовує лише стандартну камеру, що є елементом модернізації IT-інфраструктури. Об’єктом дослідження є процес підвищення точності та стійкості систем відстеження погляду, побудованих на основі методів глибокого навчання в умовах експлуатації зі стандартними пристроями введення. Предметом дослідження є методологія розробки та імплементації масштабованої клієнт-серверної архітектури для прогнозування напрямку погляду в режимі реального часу за допомогою багатопотокової згорткової нейронної мережі та математичного апарату афінного калібрування. Мета роботи: розробка та дослідження високоточної програмної системи відстеження погляду, яка здатна функціонувати у режимі реального часу, використовуючи виключно стандартну, загальнодоступну камеру, що є невід'ємним елементом сучасного обчислювального пристрою, що забезпечить демократизацію доступу до технології керування поглядом для широкого кола користувачів. Наукова новизна полягає в наступному: 1. Запропоновано та імплементовано архітектурне рішення для реалізації відстеження погляду у режимі реального часу на основі масштабованих мікросервісів, що використовує асинхронну передачу даних та паралельну обробку на GPU. 2. Удосконалено архітектуру Multi-stream CNN шляхом застосування Shared Weights для потоків обробки очей, що дозволило зменшити кількість параметрів моделі, підвищити її узагальнюючу здатність та оптимізувати швидкість інференсу. Практична цінність. Розроблена система є готовим, економічно доступним рішенням, яке може бути використане як пряма альтернатива дорогим апаратним трекерам. Основні сфери застосування: асистивні технології для людей з порушеннями моторики, UX/UI-аналітика, а також як компонент для інтеграції в ігрові та VR/AR-системи, що не мають вбудованих ІЧ-датчиків. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на XVIII науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2025 (Київ, 19-21 листопада 2025 р.). Структура та обсяг роботи. Магістерська дисертація складається з вступу, п’яти розділів та висновків. У вступі подано загальну характеристику роботи, зроблено оцінку сучасного стану проблеми, обґрунтовано актуальність напрямку досліджень, сформульовано мету досліджень. У першому розділі розглянуто задачу відстеження погляду та її сфери застосування. Проведено класифікацію методів відстеження погляду та здійснено детальний аналіз існуючих комерційних рішень. На основі проведеного порівняння зроблено висновок про переваги та обмеження апаратних систем і обґрунтовано необхідність розробки чисто програмного рішення на основі глибокого навчання. У другому розділі наведено результати дослідження ключових технологій, необхідних для розробки системи: глибоке навчання, архітектури згорткових нейронних мереж, принцип просторової нормалізації вхідних даних для компенсації рухів голови. Також проаналізовано відповідні програмні інструменти та обрані датасети, що стали основою для навчання моделі. У третьому розділі детально розглянуто методологію розробки та архітектуру нейронної мережі. Обґрунтовано вибір та проведено характеристику масивного навчального набору даних Gaze Capture. Центральний акцент зроблено на розробці багатопотокової згорткової нейронної мережі, що використовує спільні вагові коефіцієнти та алгоритм просторової нормалізації вхідних даних для забезпечення стійкості до рухів голови. Обґрунтовано вибір функції втрат Г'юбера для підвищення стійкості моделі до викидів та сформульовано стратегію динамічної спеціалізації для подальшого підвищення надійності. У четвертому розділі наведено результати імплементації розробленої системи, детально описано функціональні блоки клієнтського та серверного модулів. Представлено математичну модель афінного калібрування, яка слугує для точного перетворення 3D-прогнозу нейромережі у 2D-піксельні координати на екрані, адаптовані під індивідуальні параметри користувача. У п’тому розділі наведено протоколи, результати та аналіз експериментів. Оцінено ключові метрики: точність, швидкодія та стійкість до рухів голови. Проведено порівняльний аналіз із найкращими світовими аналогами та обґрунтовано конкурентні переваги розробленої системи У висновках представлені результати проведеної роботи. Робота представлена на 82 аркушах, містить посилання на список використаних літературних джерел.93 с.ukвідстеження поглядуглибоке навчанняMulti-stream CNNпросторова нормалізаціяафінне калібруваннялюдино-комп'ютерна взаємодіяобробка в реальному часі.gaze trackingdeep learningspatial normalizationaffine calibrationhuman-computer interactionreal-time processing.Система відстеження погляду користувача для взаємодії з комп'ютеромMaster Thesis004.05