Система розпізнавання об’єктів і голосового сповіщення для людей з вадами зору на основі нейронних мереж та мікроконтролерів

Ескіз

Дата

2025

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Денісов Р.В. Система розпізнавання об’єктів і голосового сповіщення для людей з вадами зору на основі нейронних мереж та мікроконтролерів. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 171 "Електроніка". – Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", МОН України, Київ, 2025. В дисертаційній роботі вперше отримано наступні наукові результати: 1. Вперше досліджено можливості застосування мікроконтролерів та одноплатних комп’ютерів у поєднанні з нейронними мережами для створення систем розпізнавання об’єктів з подальшим голосовим сповіщенням для покращення орієнтації у просторі, та підвищення рівня мобільності людей з вадами розу. 2. Виконано розрахунок технічних параметрів, та виконано підбір компонентів на їх основі для варіацій систем, що базуються на різних мікроконтролерах та одноплатних комп’ютерах. 3. Вперше запропоновано метод попередньої обробки тренувальних даних для підвищення точності розпізнавання об’єктів, що мають надлишкову інформацію, або об’єктів з різних категорій, які можуть знаходитися поруч один з одним на тренувальних даних та при практичному використанні. 4. Виконано навчання і перевірку точності та швидкості розпізнавання нейронних мереж MobileNet для розпізнавання п’яти категорій об’єктів, а саме "windows", "door", "trees", "traffic lights", "crosswalk" з необробленими та змішаними тренувальними даними. 5. Вперше визначено умову застосування методу попередньої обробки для різних категорій об'єктів розпізнавання, яка полягає у порівнянні площі надлишкової інформації з корисною інформацію в межах кадру. 6. Розраховано час необхідний на проходження одного повного циклу розпізнавання-оголошення інформації з урахуванням особливостей Української мови та мовлення, часу необхідного на оголошення різних комбінацій слів, швидкості реакції людини на голосову інформацію та часу розпізнавання об’єктів нейронними мережами. Дисертаційна робота присвячена дослідженню та практичному опису можливості застосування системи розпізнавання об’єктів у режимі реального часу з подальшим голосовим сповіщенням для людей з вадами зору. Дисертаційне дослідження представлене в чотирьох розділах, в яких обґрунтовані та представлені основні результати роботи. У вступній частині обґрунтовано актуальність роботи, сформульовано мету та задачі дослідження, наведено методи дослідження, представлена інформація про наукову новизну, а також практичне значення результатів. У першому розділі виконано огляд етапів процесу розпізнавання зображення, розглянуто як класичні, так і сучасні методи та алгоритми, які застосовуються під час попередньої обробки зображень, виділення ознак, сегментації об’єктів та пост обробці. Розглянуто архітектури сучасних нейронних мереж, а також доступні на ринку пристрої які призначені для людей з вадами зору. У другому розділі представлено результати аналізу доступних складових системи розпізнавання об’єктів з подальшим голосовим виводом інформації для людей з вадами зору. Встановлено, що оптимальними нейронними мережами для розгортання на пристроях з обмеженими ресурсами є клас мереж MobileNet. Основними перевагами є можливість стиснення розмірів моделі до необхідного, завдяки кофіцієнтам ширини мережі і зміні розміру вхідного зображення, без значних втрат у швидкості і точності розпізнавання. У якості платформи для навчання та експортування нейронних мереж під обрані мікроконтролери, враховуючи функціонал та постійний розвиток обрано платформу Edge Impulse. У якості синтезатора мови оптимальним рішенням є eSpeak NG. Встановлено, що мікроконтролери та одноплатні комп’ютери є оптимальним рішенням для створення необхідних систем. Вони мають невеликий форм фактор та вагу, а також мають достатньо потужності для виконання задач з розпізнавання об’єктів в режимі реального часу. Для опису варіацій систем розпізнавання об’єктів з подальшим голосовим виводом для людей з вадами зору обрано такі плати як: ESP32-S3-EYE, Raspberry Pi 5 та NVIDIA Jetson Nano. Плати мають різні технічні характеристики і можуть забезпечити різний рівень швидкості розпізнавання об’єктів, і загальну продуктивність системи. У третьому розділі виконано оцінку часу необхідного на один цикл процесу розпізнавання-оголошення інформації враховуючі швидкість реакції людини на голосову інформацію, та швидкість проходження різних етапів самого процесу. Встановлено час, необхідний на оголошення слів та їх комбінацій різної довжини з врахуванням особливостей Української мови та мовлення. Встановлено, що мінімальний час необхідний на оголошення одного слова становить 129 мс, у той час, як комбінація назва з трьох довгих слів може займати дві секунди на оголошення з урахуванням паузи між словами. Виконано розрахунок і підбір компонентів для варіантів системи на платах ESP32-S3-EYE , Raspberry Pi 5 та NVIDIA Jetson Nano. Розраховано світловий потік який має забезпечити джерело світла, для нормального функціонування системи при поганому освітленні, та обрано світлодіод Cree XP-G3. Для оголошення інформації обрано динаміки LD-SP-UM20/8A, що мають компактні розміри, сумісні з обраними платами, забезпечують необхідний рівень гучності. Також, було обрано звуковий підсилювач PAM8403 для підключення динаміків до системи. А також модулі камер для плат, в яких вона відсутня у базовій комплектації. Розраховано загальну споживану потужність систем у різних комплектаціях з урахуванням роботи нейронних мереж, джерела світла і постійної роботи динаміків. На основі отриманої споживаної потужності було розраховано ємність джерела живлення та обрано оптимальні варіанти для забезпечення автономної роботи системи впродовж 3х годин. У четвертому розділі проведено дослідження точності та швидкості розпізнавання 5 обраних категорій об’єктів, а саме "windows", "doors", "trees", "traffic light", "crosswalk", нейронними мережами MobileNetV1 96x96 0.2, MobileNetV2 96x96 0.35, MobileNetV2 160x160 0.5 та MobileNetV2 160x160 1.0 для мікроконтролерів ESP32-S3-EYE, NVIDIA Jetson Nano та Raspberry Pi 5 було проведено декілька експериментів з необробленими та змішаними тренувальними зображеннями. Для необроблених тренувальних даних отримано середні показники точності для мереж MobileNetV1 96x96 0.2, MobileNetV2 96x96 0.35 у 63% та 90%, а для мереж MobileNetV2 160x160 0.5 та MobileNetV2 160x160 1.0 отримано точність розпізнавання у 100%. При цьому, прогнозований час розпізнавання для мікроконтролера ESP32-S3-EYE у випадку моделей MobileNetV2 160x160 0.5 та MobileNetV2 160x160 1.0 становив більше 10 секунд, що є неприйнятним для використання у системах розпізнавання в режимі реального часу. Для плат NVIDIA Jetson Nano та Raspberry Pi 5 середній прогнозований час розпізнавання становить від 3 мс для моделей MobileNetV1 96x96 0.2, MobileNetV2 96x96 0.35, та від 14 мс до 33 мс у випадку мереж MobileNetV2 160x160 0.5 та MobileNetV2 160x160 1.0. Після змішування оброблених і необроблених тренувальних даних отримано приріст у точності розпізнавання для більшості категорій, але для категорії "windows" отримано погіршення точності розпізнавання. Після зворотної заміни комбінованих тренувальних даних у категорії "windows" на необроблені, отримано приріст у точності розпізнавання для мережі MobileNetV1 96x96 0.2 до 80 % для плат NVIDIA Jetson Nano та Raspberry Pi 5 та приріст до 73,3% для плати ESP32-S3-EYE. Для мережі MobileNetV2 96x96 0.35 було отримано точність розпізнавання у 96,7% для всіх плат. Також встановлено мінімальний та максимальний час необхідних на проходження повного циклу розпізнавання-оголошення результатів з урахуванням особливостей Української мови та швидкості реакції людиною на слухову інформацію. Мінімальний час становить 379 мс у випадку назви об’єкту що складається з одного короткого слова, та 2198 мс у випадку для назви об’єкту з трьох довгих слів. Практичне значення отриманих в дисертаційній роботі результатів можуть бути використані для проектування та створення адаптивної системи розпізнавання об’єктів у режимі реального часу з подальшим голосовим сповіщення користувача для людей з вадами зору або повною сліпотою. Отримано мінімальний та максимальний час проходження одного повного циклу розпізнавання-оголошення. Мінімальний час становить 379 мс для короткої назви об’єкту, що складається з одного слова, з урахуванням часу реакції людини на слухову інформацію, та максимальний час 2198 мс для назви об’єкту, що складається з трьох довгих слів, з урахуванням пауз між словами. Виконано розрахунок необхідної сили світлового потоку та обрано світлодіод Cree XP-G3, для забезпечення роботи системи під час поганого освітлення, також обрано динаміки та підсилювач, розраховано загальну споживану потужність варіацій систем для плат ESP32-S3-EYE , Raspberry Pi 5 та NVIDIA Jetson Nano, розраховано необхідну ємність джерела живлення для забезпечення автономної роботи пристрою впродовж 3 годин.

Опис

Ключові слова

розпізнавання об’єктів, попередня обробка зображень, нейроні мережі, мікроконтролер, одноплатний комп’ютер, MobileNet, Edge Impulse, тренувальні дані, голосове сповіщення, мовна модель, точність розпізнавання, хибне розпізнавання, автономність, object recognition, image preprocessing, neural networks, microcontroller, single-board computer, training data, voice notification, language model, recognition accuracy, false recognition, autonomy

Бібліографічний опис

Денісов, Р. В. Система розпізнавання об’єктів і голосового сповіщення для людей з вадами зору на основі нейронних мереж та мікроконтролерів : дис. … д-ра філософії : 171 Електроніка / Денісов Ростислав Віталійович. – Київ, 2025. – 139 с.

ORCID

DOI