Система розпізнавання об’єктів і голосового сповіщення для людей з вадами зору на основі нейронних мереж та мікроконтролерів
dc.contributor.advisor | Попович, Павло Васильович | |
dc.contributor.author | Денісов, Ростислав Віталійович | |
dc.date.accessioned | 2025-06-24T09:37:33Z | |
dc.date.available | 2025-06-24T09:37:33Z | |
dc.date.issued | 2025 | |
dc.description.abstract | Денісов Р.В. Система розпізнавання об’єктів і голосового сповіщення для людей з вадами зору на основі нейронних мереж та мікроконтролерів. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 171 "Електроніка". – Національний технічний університет України "Київський політехнічний інститут імені Ігоря Сікорського", МОН України, Київ, 2025. В дисертаційній роботі вперше отримано наступні наукові результати: 1. Вперше досліджено можливості застосування мікроконтролерів та одноплатних комп’ютерів у поєднанні з нейронними мережами для створення систем розпізнавання об’єктів з подальшим голосовим сповіщенням для покращення орієнтації у просторі, та підвищення рівня мобільності людей з вадами розу. 2. Виконано розрахунок технічних параметрів, та виконано підбір компонентів на їх основі для варіацій систем, що базуються на різних мікроконтролерах та одноплатних комп’ютерах. 3. Вперше запропоновано метод попередньої обробки тренувальних даних для підвищення точності розпізнавання об’єктів, що мають надлишкову інформацію, або об’єктів з різних категорій, які можуть знаходитися поруч один з одним на тренувальних даних та при практичному використанні. 4. Виконано навчання і перевірку точності та швидкості розпізнавання нейронних мереж MobileNet для розпізнавання п’яти категорій об’єктів, а саме "windows", "door", "trees", "traffic lights", "crosswalk" з необробленими та змішаними тренувальними даними. 5. Вперше визначено умову застосування методу попередньої обробки для різних категорій об'єктів розпізнавання, яка полягає у порівнянні площі надлишкової інформації з корисною інформацію в межах кадру. 6. Розраховано час необхідний на проходження одного повного циклу розпізнавання-оголошення інформації з урахуванням особливостей Української мови та мовлення, часу необхідного на оголошення різних комбінацій слів, швидкості реакції людини на голосову інформацію та часу розпізнавання об’єктів нейронними мережами. Дисертаційна робота присвячена дослідженню та практичному опису можливості застосування системи розпізнавання об’єктів у режимі реального часу з подальшим голосовим сповіщенням для людей з вадами зору. Дисертаційне дослідження представлене в чотирьох розділах, в яких обґрунтовані та представлені основні результати роботи. У вступній частині обґрунтовано актуальність роботи, сформульовано мету та задачі дослідження, наведено методи дослідження, представлена інформація про наукову новизну, а також практичне значення результатів. У першому розділі виконано огляд етапів процесу розпізнавання зображення, розглянуто як класичні, так і сучасні методи та алгоритми, які застосовуються під час попередньої обробки зображень, виділення ознак, сегментації об’єктів та пост обробці. Розглянуто архітектури сучасних нейронних мереж, а також доступні на ринку пристрої які призначені для людей з вадами зору. У другому розділі представлено результати аналізу доступних складових системи розпізнавання об’єктів з подальшим голосовим виводом інформації для людей з вадами зору. Встановлено, що оптимальними нейронними мережами для розгортання на пристроях з обмеженими ресурсами є клас мереж MobileNet. Основними перевагами є можливість стиснення розмірів моделі до необхідного, завдяки кофіцієнтам ширини мережі і зміні розміру вхідного зображення, без значних втрат у швидкості і точності розпізнавання. У якості платформи для навчання та експортування нейронних мереж під обрані мікроконтролери, враховуючи функціонал та постійний розвиток обрано платформу Edge Impulse. У якості синтезатора мови оптимальним рішенням є eSpeak NG. Встановлено, що мікроконтролери та одноплатні комп’ютери є оптимальним рішенням для створення необхідних систем. Вони мають невеликий форм фактор та вагу, а також мають достатньо потужності для виконання задач з розпізнавання об’єктів в режимі реального часу. Для опису варіацій систем розпізнавання об’єктів з подальшим голосовим виводом для людей з вадами зору обрано такі плати як: ESP32-S3-EYE, Raspberry Pi 5 та NVIDIA Jetson Nano. Плати мають різні технічні характеристики і можуть забезпечити різний рівень швидкості розпізнавання об’єктів, і загальну продуктивність системи. У третьому розділі виконано оцінку часу необхідного на один цикл процесу розпізнавання-оголошення інформації враховуючі швидкість реакції людини на голосову інформацію, та швидкість проходження різних етапів самого процесу. Встановлено час, необхідний на оголошення слів та їх комбінацій різної довжини з врахуванням особливостей Української мови та мовлення. Встановлено, що мінімальний час необхідний на оголошення одного слова становить 129 мс, у той час, як комбінація назва з трьох довгих слів може займати дві секунди на оголошення з урахуванням паузи між словами. Виконано розрахунок і підбір компонентів для варіантів системи на платах ESP32-S3-EYE , Raspberry Pi 5 та NVIDIA Jetson Nano. Розраховано світловий потік який має забезпечити джерело світла, для нормального функціонування системи при поганому освітленні, та обрано світлодіод Cree XP-G3. Для оголошення інформації обрано динаміки LD-SP-UM20/8A, що мають компактні розміри, сумісні з обраними платами, забезпечують необхідний рівень гучності. Також, було обрано звуковий підсилювач PAM8403 для підключення динаміків до системи. А також модулі камер для плат, в яких вона відсутня у базовій комплектації. Розраховано загальну споживану потужність систем у різних комплектаціях з урахуванням роботи нейронних мереж, джерела світла і постійної роботи динаміків. На основі отриманої споживаної потужності було розраховано ємність джерела живлення та обрано оптимальні варіанти для забезпечення автономної роботи системи впродовж 3х годин. У четвертому розділі проведено дослідження точності та швидкості розпізнавання 5 обраних категорій об’єктів, а саме "windows", "doors", "trees", "traffic light", "crosswalk", нейронними мережами MobileNetV1 96x96 0.2, MobileNetV2 96x96 0.35, MobileNetV2 160x160 0.5 та MobileNetV2 160x160 1.0 для мікроконтролерів ESP32-S3-EYE, NVIDIA Jetson Nano та Raspberry Pi 5 було проведено декілька експериментів з необробленими та змішаними тренувальними зображеннями. Для необроблених тренувальних даних отримано середні показники точності для мереж MobileNetV1 96x96 0.2, MobileNetV2 96x96 0.35 у 63% та 90%, а для мереж MobileNetV2 160x160 0.5 та MobileNetV2 160x160 1.0 отримано точність розпізнавання у 100%. При цьому, прогнозований час розпізнавання для мікроконтролера ESP32-S3-EYE у випадку моделей MobileNetV2 160x160 0.5 та MobileNetV2 160x160 1.0 становив більше 10 секунд, що є неприйнятним для використання у системах розпізнавання в режимі реального часу. Для плат NVIDIA Jetson Nano та Raspberry Pi 5 середній прогнозований час розпізнавання становить від 3 мс для моделей MobileNetV1 96x96 0.2, MobileNetV2 96x96 0.35, та від 14 мс до 33 мс у випадку мереж MobileNetV2 160x160 0.5 та MobileNetV2 160x160 1.0. Після змішування оброблених і необроблених тренувальних даних отримано приріст у точності розпізнавання для більшості категорій, але для категорії "windows" отримано погіршення точності розпізнавання. Після зворотної заміни комбінованих тренувальних даних у категорії "windows" на необроблені, отримано приріст у точності розпізнавання для мережі MobileNetV1 96x96 0.2 до 80 % для плат NVIDIA Jetson Nano та Raspberry Pi 5 та приріст до 73,3% для плати ESP32-S3-EYE. Для мережі MobileNetV2 96x96 0.35 було отримано точність розпізнавання у 96,7% для всіх плат. Також встановлено мінімальний та максимальний час необхідних на проходження повного циклу розпізнавання-оголошення результатів з урахуванням особливостей Української мови та швидкості реакції людиною на слухову інформацію. Мінімальний час становить 379 мс у випадку назви об’єкту що складається з одного короткого слова, та 2198 мс у випадку для назви об’єкту з трьох довгих слів. Практичне значення отриманих в дисертаційній роботі результатів можуть бути використані для проектування та створення адаптивної системи розпізнавання об’єктів у режимі реального часу з подальшим голосовим сповіщення користувача для людей з вадами зору або повною сліпотою. Отримано мінімальний та максимальний час проходження одного повного циклу розпізнавання-оголошення. Мінімальний час становить 379 мс для короткої назви об’єкту, що складається з одного слова, з урахуванням часу реакції людини на слухову інформацію, та максимальний час 2198 мс для назви об’єкту, що складається з трьох довгих слів, з урахуванням пауз між словами. Виконано розрахунок необхідної сили світлового потоку та обрано світлодіод Cree XP-G3, для забезпечення роботи системи під час поганого освітлення, також обрано динаміки та підсилювач, розраховано загальну споживану потужність варіацій систем для плат ESP32-S3-EYE , Raspberry Pi 5 та NVIDIA Jetson Nano, розраховано необхідну ємність джерела живлення для забезпечення автономної роботи пристрою впродовж 3 годин. | |
dc.description.abstractother | The following scientific results were obtained for the first time in the dissertation: 1. For the first time, the possibilities of using microcontrollers and single-board computers in combination with neural networks to create object recognition systems with subsequent voice notification to improve spatial orientation and increase the level of mobility of people with visual impairments have been investigated. 2. The technical parameters were calculated, and components were selected based on them for system variations based on different microcontrollers and singleboard computers. 3. A method of preliminary processing of training data in Adobe Photoshop was proposed for the first time to increase the accuracy of recognizing objects with similar redundant information or objects from different categories that may be located close to each other in training data and during practical use. 4. Neural networks were trained and tested for recognition accuracy and speed for five categories of objects, namely "windows", "door", "trees", "traffic lights", "crosswalk" with raw and mixed training data. 5. For the first time, the condition for applying the preprocessing method for different categories of recognition objects has been defined, which consists in comparing the area of redundant information with useful information within the frame. 6. The time required for a complete recognition-announcement cycle was calculated, taking into account the peculiarities of the Ukrainian language and speech, the time needed to announce different word combinations, human reaction speed to voice information, and the time for object recognition by neural networks. The dissertation is devoted to the research and practical description of the possibilities of applying an object recognition system in real-time with subsequent voice notification for visually impaired people. The dissertation research is presented in four chapters, which substantiate and present the main results of the work. The introduction substantiates the relevance of the work, formulates the goal and objectives of the research, presents the research methods, provides information on scientific novelty, and the practical significance of the results. The first chapter reviews the stages of the image recognition process, considers both classical and modern methods and algorithms used during image preprocessing, feature extraction, object segmentation, and post-processing. The architectures of modern neural networks and available devices on the market designed for visually impaired people are reviewed. The second chapter presents the results of the analysis of available components of the object recognition system with subsequent voice output of information for visually impaired people. It was established that the optimal neural networks for deployment on resource-limited devices are the MobileNet class. The main advantages are the ability to compress model sizes to the required level due to network width coefficients and changing the input image size without significant losses in recognition speed and accuracy. The Edge Impulse platform was chosen as the platform for training and exporting neural networks to selected microcontrollers, considering its functionality and continuous development. eSpeak NG was chosen as the optimal speech synthesizer. It was established that microcontrollers and single-board computers are the optimal solution for creating the required systems. They have a small form factor and weight and are powerful enough to perform object recognition tasks in real-time. The object recognition system variations with subsequent voice output for visually impaired people were described using boards such as ESP32-S3-EYE, Raspberry Pi 5, and NVIDIA Jetson Nano. The boards have different technical characteristics and can provide different levels of object recognition speed and overall system performance. The third chapter evaluates the time required for one cycle of the recognitionannouncement process, considering human reaction speed to voice information and the speed of various process stages. The time required to announce words and their combinations of different lengths, taking into account the peculiarities of the Ukrainian language and speech, was determined. It was established that the minimum time required to announce one word is 129 ms, while a combination of three long words may take up to two seconds to announce, considering pauses between words. The components for system variants on ESP32-S3-EYE, Raspberry Pi 5, and NVIDIA Jetson Nano boards were calculated and selected. The luminous flux that the light source should provide for normal system operation in low-light conditions was calculated, and the Cree XP-G3 LED was chosen. LD-SP-UM20/8A speakers, which have compact sizes, are compatible with the selected boards and provide the required sound level, were chosen for information announcement. A PAM8403 audio amplifier was selected to connect the speakers to the system, as well as camera modules for boards without a built-in camera. The total power consumption of the systems in different configurations was calculated, taking into account the operation of neural networks, light sources, and continuous speaker operation. Based on the obtained power consumption, the battery capacity was calculated, and optimal options were chosen to ensure the autonomous operation of the system for 3 hours. The fourth chapter conducted studies on the accuracy and speed of recognizing 5 selected categories of objects, namely "windows", "doors", "trees", "traffic light", "crosswalk" by MobileNetV1 96x96 0.2, MobileNetV2 96x96 0.35, MobileNetV2 160x160 0.5, and MobileNetV2 160x160 1.0 neural networks for ESP32-S3-EYE, NVIDIA Jetson Nano, and Raspberry Pi 5 microcontrollers. Several experiments were conducted with raw and mixed training images. For raw training data, the average accuracy indicators for MobileNetV1 96x96 0.2 and MobileNetV2 96x96 0.35 networks were 63% and 90%, respectively, while MobileNetV2 160x160 0.5 and MobileNetV2 160x160 1.0 achieved 100% recognition accuracy. However, the predicted recognition time for the ESP32-S3-EYE microcontroller with MobileNetV2 160x160 0.5 and MobileNetV2 160x160 1.0 models exceeded 10 seconds, which is unacceptable for real-time recognition systems. For NVIDIA Jetson Nano and Raspberry Pi 5 boards, the average predicted recognition time ranges from 3 ms for MobileNetV1 96x96 0.2 and MobileNetV2 96x96 0.35 models, to 14 ms - 33 ms for MobileNetV2 160x160 0.5 and MobileNetV2 160x160 1.0 networks. After mixing processed and unprocessed training data, an improvement in recognition accuracy was observed for most categories, but a significant decrease in recognition accuracy was recorded for the "windows" category. After reverting the combined training data for the "windows" category to the unprocessed data, recognition accuracy for the MobileNetV1 96x96 0.2 network increased to 80% for NVIDIA Jetson Nano and Raspberry Pi 5 boards and to 73.3% for the ESP32-S3-EYE board. Recognition accuracy for the MobileNetV2 96x96 0.35 network reached 96.7% for all boards. Additionally, the minimum and maximum times required to complete a full recognition-announcement cycle, taking into account the peculiarities of the Ukrainian language and the human reaction speed to auditory information, were determined. The minimum time is 379 ms for an object name consisting of one short word, while the maximum time is 2198 ms for an object name with three long words. The practical significance of the results obtained in the dissertation can be used for designing and creating an adaptive real-time object recognition system with subsequent voice notifications for visually impaired or completely blind individuals. The results include calculations of the time required for a full recognitionannouncement cycle, as well as the time needed for each of its separate elements, considering the peculiarities of the Ukrainian language and speech, and the human reaction speed to auditory information. The required luminous flux was calculated, and the Cree XP-G3 LED was selected to ensure system operation in low-light conditions. Speakers and an amplifier were also selected. The total power consumption of various system configurations for ESP32-S3-EYE, Raspberry Pi 5, and NVIDIA Jetson Nano boards was calculated, and the required battery capacity was determined to ensure autonomous operation of the device for 3 hours. | |
dc.format.extent | 139 с. | |
dc.identifier.citation | Денісов, Р. В. Система розпізнавання об’єктів і голосового сповіщення для людей з вадами зору на основі нейронних мереж та мікроконтролерів : дис. … д-ра філософії : 171 Електроніка / Денісов Ростислав Віталійович. – Київ, 2025. – 139 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/74402 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | розпізнавання об’єктів | |
dc.subject | попередня обробка зображень | |
dc.subject | нейроні мережі | |
dc.subject | мікроконтролер | |
dc.subject | одноплатний комп’ютер | |
dc.subject | MobileNet | |
dc.subject | Edge Impulse | |
dc.subject | тренувальні дані | |
dc.subject | голосове сповіщення | |
dc.subject | мовна модель | |
dc.subject | точність розпізнавання | |
dc.subject | хибне розпізнавання | |
dc.subject | автономність | |
dc.subject | object recognition | |
dc.subject | image preprocessing | |
dc.subject | neural networks | |
dc.subject | microcontroller | |
dc.subject | single-board computer | |
dc.subject | training data | |
dc.subject | voice notification | |
dc.subject | language model | |
dc.subject | recognition accuracy | |
dc.subject | false recognition | |
dc.subject | autonomy | |
dc.subject.udc | 621.397.6 | |
dc.title | Система розпізнавання об’єктів і голосового сповіщення для людей з вадами зору на основі нейронних мереж та мікроконтролерів | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: