Спосіб нейромережевого розпізнавання ключових слів у аудіопотоці
Ескіз недоступний
Дата
2024
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Актуальність теми.
У сучасному світі інформаційні технології стрімко розвиваються, і зростаючий обсяг даних вимагає ефективних методів їх обробки та аналізу. Однією з найбільш динамічних областей є обробка аудіоінформації, зокрема, розпізнавання ключових слів у аудіопотоці. Ця технологія знаходить застосування в різноманітних сферах, від інтелектуальних систем допомоги до автоматизації бізнес-процесів і розваг. З розвитком глибокого навчання та нейромереж, розпізнавання ключових слів стало більш точним і ефективним. Нейромережеві моделі, особливо рекурентні нейронні мережі (RNN) та їх вдосконалені версії, такі як довготривалі короткочасні пам'яті (LSTM) та гейтовані рекурентні одиниці (GRU), дозволяють аналізувати послідовності даних та розпізнавати складні патерни у аудіопотоці.
Основною перевагою нейромережевих підходів є їх здатність адаптуватися до різноманітних умов і варіацій у мові, акцентах, інтонаціях та шумі фону.
Це робить їх надзвичайно корисними для застосування у реальних умовах, де аудіосигнали часто супроводжуються різними перешкодами. Крім того, сучасні методи глибокого навчання дозволяють зменшити потребу у великих обсягах вручну позначених даних, завдяки використанню методів навчання з підкріпленням та переднавчання на великих мовних корпусах. Розпізнавання ключових слів у аудіопотоці має широке коло застосувань. Наприклад, у сфері розумних помічників (такі як Siri, Google Assistant, Alexa), де користувачі взаємодіють з системою за допомогою голосових команд. Уміння швидко і точно розпізнавати ключові слова дозволяє цим системам надавати більш персоналізовані та ефективні послуги.
У сфері безпеки та моніторингу нейромережеве розпізнавання ключових слів може використовуватися для виявлення потенційних загроз або для автоматичного транскрибування розмов у режимі реального часу. Це може бути корисним у контексті забезпечення громадської безпеки, моніторингу дзвінків у службах підтримки клієнтів або для збору розвідувальної інформації. Не менш важливим є застосування цієї технології у медицині, зокрема, для створення систем допомоги людям з обмеженими можливостями. Наприклад, системи розпізнавання мови можуть допомагати людям з порушеннями зору чи слуху отримувати інформацію та взаємодіяти зі світом.
Наукові дослідження у цій області також спрямовані на підвищення ефективності алгоритмів, зменшення затримок у обробці аудіосигналів та покращення точності розпізнавання. Це включає використання методів трансферного навчання, удосконалення архітектур нейромереж та інтеграцію різноманітних джерел даних для підвищення надійності системи.
З огляду на всі наведені аргументи, можна зробити висновок, що нейромережеве розпізнавання ключових слів у аудіопотоці є актуальною і перспективною темою, яка має величезний потенціал для розвитку та впровадження у різних галузях. Розвиток цієї технології сприятиме створенню більш інтелектуальних, адаптивних та корисних систем, які можуть значно покращити якість життя та ефективність роботи у різних сферах діяльності.
Метою дослідження є забезпечення ефективного розпізнавання ключових слів в аудіопотоці за допомогою комбінованого підходу з гнучкою нейромережевою моделлю.
Об’єктом дослідження є процес розпізнавання ключових слів в аудіопотоці.
Предметом дослідження є спосіб виявлення ключових слів в аудіопотоці.
Наукова новизна полягає в наступному:
1) Удосконалено спосіб розпізнавання ключовхих слів в аудіопотоці що за рахунок використання метод обробки вхідних даних для нейромережевої можелі аналізу голосового сигналу та за рахунок використання згорткової нейронної мережі адаптованої до умов задачі розпізнавання ключових слів забезпечує підвищення ефективності розпізнавання голосових сигналів в комп’ютерних системах загального призначення.
2) Удосконалено метод обробки вхідних даних для нейромережевої моделі аналізу голосового сигналу, що зебезпечує підвищення швидкості навчання нейромережевої моделі.
Практична цінність :
Практична цінність даного дослідження полягає у створенні ефективного методу розпізнавання ключових слів в аудіопотоці, що може бути впроваджений у різні галузі. Завдяки новому підходу до обробки аудіоданих та покращенню нейронних мереж, результати дослідження можуть застосовуватися у розробці розумних помічників, систем безпеки, моніторингу та медичних пристроїв для людей з обмеженими можливостями. Підвищена точність і швидкість розпізнавання мовлення сприяють покращенню взаємодії користувачів з технологіями, забезпечуючи більш ефективну та надійну роботу систем. Це, в свою чергу, сприяє підвищенню якості життя та продуктивності у різних сферах діяльності.
Апробація роботи
1. Савченко, В.С., Терейковський, І.А. (2024). Методи нейромережевого розпізнавання ключових слів в аудіофайлі. Sсience — Technology — Innovation. – 2024.
2. Савченко, В.С., Терейковський, І.А. (2024). Методи нейромережевого розпізнавання ключових слів в аудіофайлі. «Перспективні напрямки наукових досліджень» – 2024.
Структура та обсяг роботи. Робота складається із вступу та чотирьох розділів. Загальний обсяг роботи: 99 аркушів основного тексту, 7 ілюстрацій, 2 таблиці, 2 додатки (лістинг програми, презентація). При підготовці використовувалася література з 53 різних джерел.
Опис
Ключові слова
розпізнавання ключових слів, нейронні мережі, розпізнавання голосу, аудіофайл, математичне моделювання, глибоке навчання, машинне навчання, model training speed
Бібліографічний опис
Савченко, В. С. Спосіб нейромережевого розпізнавання ключових слів у аудіопотоці : магістерська дис. : 123 Комп'ютерна інженерія / Савченко Владислав Сергійович. – Київ, 2024. – 134 с.