Метод розпізнавання слів у комп'ютерних системах
Вантажиться...
Дата
2025
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми. Сучасний розвиток інформаційних технологій тісно пов’язаний із впровадженням інноваційних рішень у сфері обробки природної мови, зокрема автоматизацією розпізнавання мовлення в комп’ютерних системах. Це забезпечує підвищення ефективності взаємодії людини з комп’ютером, автоматизацію обробки аудіоданих і створення інтелектуальних систем, таких як голосові помічники, системи транскрипції та автоматичного перекладу. В умовах глобального зростання попиту на багатомовні та адаптивні системи зростає потреба в автоматизованих рішеннях для розпізнавання слів у реальному часі, які можуть працювати в різних умовах, включаючи шумні середовища та змішані мовні сценарії. Одним із перспективних підходів є застосування гібридних методів, що поєднують статистичні моделі, машинне навчання та глибоке навчання, для забезпечення високої точності й швидкості обробки аудіоданих.
Гібридні методи розпізнавання мовлення, які використовують сучасні алгоритми, відкривають нові можливості для універсального розпізнавання всіх мов, включаючи рідкісні, а також для обробки акцентів і діалектів у шумних умовах. Використання таких технологій дозволяє автоматизувати процес аналізу аудіо, зменшуючи залежність від людського фактору, підвищуючи швидкість і точність розпізнавання. Це особливо актуально для України, де розвиток інтелектуальних систем може сприяти підвищенню конкурентоспроможності на міжнародному ринку інформаційних технологій. Розробка методів автоматизованого розпізнавання слів у комп’ютерних системах є важливим науковим і практичним завданням, оскільки вона сприяє вдосконаленню інтерфейсів користувача та підвищенню ефективності обробки аудіоданих.
Об’єкт дослідження: процес розпізнавання слів у комп’ютерних системах.
Предмет дослідження: гібридні методи розпізнавання слів, що поєднують статистичні моделі, алгоритми машинного навчання та глибокі нейронні мережі, для обробки аудіоданих у комп’ютерних системах.
Мета роботи: Запропонувати ефективний гібридний метод обробки аудіоданих, адаптований до універсального розпізнавання всіх мов у реальному часі, включаючи шумні та багатомовні умови. Передбачено створення концепції програмного забезпечення, яке здатне автоматично розпізнавати слова, класифікувати мовні одиниці та оцінювати точність результатів.
Наукова новизна полягає в наступному:
● Розроблено гібридний метод розпізнавання слів, який інтегрує приховані марковські моделі (HMM), Support Vector Machines (SVM) і трансформери для забезпечення високої точності сегментації та класифікації аудіоданих за умов варіативного шуму та багатомовності.
● Запропоновано новий підхід до інтеграції компонентів гібридної моделі, що оптимізує конвеєр обробки аудіо, забезпечуючи низьку затримку (менше 100 мс) і високу точність (WER нижче 10%).
● Удосконалено методику попередньої обробки аудіоданих, яка включає адаптивне видалення шуму та витягнення ознак (MFCC і багатомовні embeddings), що підвищує стійкість моделі до шумних умов.
● Реалізовано концепцію програмного забезпечення, яке автоматизує процес розпізнавання слів, підтримуючи всі мови та адаптуючись до різних апаратних платформ, включаючи IoT-пристрої з обмеженими ресурсами.
● Запропоновано адаптивний підхід до тонкого налаштування моделі для рідкісних мов, який враховує обмеженість даних і забезпечує точність розпізнавання в реальних умовах.
Практична цінність полягає у можливості використання запропонованого гібридного методу для швидкого та точного розпізнавання слів у комп’ютерних системах. Застосування автоматизованої системи розпізнавання мовлення знижує витрати часу на обробку аудіоданих і зменшує залежність від суб’єктивного людського фактору, забезпечуючи об’єктивність і точність результатів. Запропонована концепція програмного забезпечення може бути використана в голосових помічниках, системах транскрипції, автоматичного перекладу та IoT-пристроях для обробки мовлення в реальному часі.
На відміну від існуючих методів, таких як традиційні приховані марковські моделі (HMM), глибокі нейронні мережі (DNN) чи сучасні трансформери (наприклад, Whisper від OpenAI), запропонований гібридний метод поєднує переваги трьох підходів – HMM, SVM і трансформерів – для досягнення вищої універсальності та ефективності. По-перше, інтеграція HMM забезпечує швидку сегментацію аудіосигналу (затримка <100 мс), що перевершує DNN і трансформери за швидкістю обробки на слабких платформах, де останні потребують >150–200 мс. По-друге, використання SVM із нелінійним ядром (RBF) підвищує стійкість до шуму (очікуваний WER <10% при SNR 0–10 дБ), тоді як окремі HMM чи DNN демонструють WER >15–20% у подібних умовах. По-третє, трансформери забезпечують точний контекстний аналіз, що дозволяє обробляти омоніми та рідкісні мови (наприклад, кримськотатарську, суахілі) ефективніше, ніж більшість комерційних систем, які обмежені поширеними мовами (WER >30% для рідкісних мов).
Крім того, оптимізаційні техніки, такі як дистилювання (зменшення моделі на 40%) і квантування (8-бітне представлення), знижують споживання пам’яті до <500 МБ, роблячи метод придатним для IoT-пристроїв (наприклад, Raspberry Pi), на відміну від ресурсоємних трансформерів, що потребують >2 ГБ. Це забезпечує енергоефективність і знижує витрати на апаратне забезпечення. Таким чином, запропонований метод перевершує існуючі рішення за комбінацією швидкості, точності, стійкості до шуму, підтримки всіх мов і адаптивності до різних платформ, сприяючи створенню конкурентоспроможних ІТ-рішень для автоматизації обробки аудіоданих.
Апробація роботи.
● ПРОБЛЕМАТИКА РОЗПІЗНАВАННЯ СЛІВ У КОМП'ЮТЕРНИХ СИСТЕМАХ Дмитро Зіменков, Ігор Терейковський. Матеріали 2-ї Міжнародної науково-практичної конференції «Інформаційні системи та технології: результати і перспективи» (IST 2025), 5 березня 2025 р. (Київ, Україна). К. : ФІТ КНУТШ, 2025 р. 425 с
матеріали магістерської дисертації використані при виконанні науково технічної роботи кафедри СПСКС Факультету Прикладної Математики Національного технічного університету України "Київський політехнічний інститут імені Ігоря Сікорського "Методи, моделі та засоби моніторингу закликів до тероризму у онлайн соціальних мережах" (Державний реєстраційний номер: 0124U003866, дата реєстрації: 05-09-2024)
Структура та обсяг роботи. Магістерська дисертація складається зі вступу, чотирьох розділів, висновків, списку використаних джерел та додатків. Загальний обсяг роботи становить 100 сторінок.
Опис
Ключові слова
розпізнавання слів, комп’ютерні системи, гібридний метод, обробка аудіоданих, машинне навчання, глибоке навчання, багатомовність, word recognition, computer systems, hybrid method, audio data processing, machine learning, deep learning, multilingualism
Бібліографічний опис
Зіменков, Д. А. Метод розпізнавання слів у комп'ютерних системах : магістерська дис. : 123 Комп'ютерна інженерія / Зіменков Дмитро Андрійович. – Київ, 2025. – 111 с.