Спосіб розпізнавання нечіткого мовлення з використанням нейромереж
| dc.contributor.advisor | Потапова, Катерина Романівна | |
| dc.contributor.author | Шевченко, Іван Іванович | |
| dc.date.accessioned | 2026-01-16T10:15:22Z | |
| dc.date.available | 2026-01-16T10:15:22Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Актуальність теми. У сучасних системах розпізнавання мовлення особливою проблемою залишається розуміння нечітких або спотворених голосових сигналів, що характерно для реальних умов комунікації. Наявність фонового шуму, реверберації або нечіткої вимови знижує точність традиційних систем розпізнавання автоматичного мовлення. Дифузійна модель здатна відновлювати мовленнєвий сигнал шляхом поступового усунення шуму, що дозволяє підвищити точність розпізнавання нечіткого мовлення. Мета роботи. Розробка системи розпізнавання нечіткого мовлення на основі модифікованого дифузійного алгоритму із використанням варіаційного навчання для підвищення точності розпізнавання мовлення. Об’єкт дослідження. Процес автоматичного розпізнавання нечіткого мовлення у системах штучного інтелекту. Предмет дослідження. Методи та алгоритми розпізнавання нечіткого мовлення. Методи дослідження. У роботі застосовано: математичне моделювання процесу поширення шуму та його реконструкції; аналіз сучасних нейромережевих архітектур (CNN, RNN, Transformer, Diffusion Models), порівняння; варіаційне навчання для персоналізації; експериментальне тестування на багатомовних аудіокорпусах із різними рівнями шуму; статистична оцінка точності та швидкодії системи. Наукова новизна. Запропоновано модифікований дифузійний алгоритм попередньої оброки мовленнєвого сигналу. Обґрунтовано доцільність використання дифузійної моделі для підвищення точності розпізнавання нечіткого мовлення. Практична цінність. Результати дослідження можуть бути використані для створення систем автоматичного розпізнавання мовлення, здатних працювати з нечітким мовленням у реальних умовах. Апробація результатів. Основні положення та результати роботи були представленні на конференціях: 1. «Прикладна математика та комп’ютинг» ПМК-2025 та опубліковані у збірнику тез доповідей «МОДИФІКОВАНИЙ ДИФУЗІЙНИЙ АЛГОРИТМ ПІДВИЩЕННЯ ТОЧНОСТІ СИСТЕМИ РОЗПІЗНАВАННЯ НЕЧІТКОГО МОВЛЕННЯ»; 2. Науковий журнал «Таврійський науковий вісник. Серія: Технічні науки.» стаття «МОДИФІКОВАНИЙ ДИФУЗІЙНИЙ АЛГОРИТМ ОБРОБКИ НЕЧІТКОГО МОВЛЕННЯ» ; 3. V Міжнародна науково-практична конференція «OPEN SCIENCE NOWADAYS: MAIN MISSION, TRENDS AND INSTRUMENTS, PATH AND ITS DEVELOPMENT» тези «АНАЛІЗ ОБЧИСЛЮВАЛЬНОЇ СКЛАДНОСТІ ДИФУЗІЙНОГО АЛГОРИТМУ ПОПЕРЕДНЬОЇ ОБРОБКИ НЕЧІТКОГО МОВЛЕННЯ ДЛЯ СИСТЕМ РЕАЛЬНОГО ЧАСУ». Структура та обсяг роботи. Магістерська дисертація складається з вступу, трьох розділів, висновків, список використаних джерел та додатків. Перший розділ присвячено теоретичним засадам розпізнавання спотвореного та нечіткого мовлення. Другий розділ містить опис модифікованого дифузійного алгоритму попередньої обробки аудіосигналу. Подано архітектуру запропонованої системи, описано процеси дифузійної реконструкції. Третій розділ містить практичну реалізацію системи розпізнавання нечіткого мовлення. Розглянуто вибір інструментів, формування датасету, процес навчання й тестування моделі. Подано інтерфейс користувача та результати тестування. | |
| dc.description.abstractother | Relevance of the topic. In modern speech recognition systems, one of the key challenges remains the understanding of unclear or distorted speech signals, which are typical of real communication conditions. The presence of background noise, reverberation, or unclear pronunciation reduces the accuracy of traditional automatic speech recognition systems. Diffusion models are capable of restoring speech signals through the gradual removal of noise, which makes it possible to improve the accuracy of recognizing unclear speech. Purpose of the study. To develop an unclear speech recognition system based on a modified diffusion algorithm using variational learning to improve speech recognition accuracy. Object of the study. The process of automatic recognition of unclear speech in artificial intelligence systems. Subject of the study. Methods and algorithms for unclear speech recognition. Research methods. The following methods were applied in this work: mathematical modeling of noise propagation and reconstruction processes; analysis and comparison of modern neural network architectures (CNN, RNN, Transformer, Diffusion Models); variational learning for personalization; experimental testing on multilingual audio corpora with different noise levels; statistical evaluation of system accuracy and computational performance. Scientific novelty. A modified diffusion-based algorithm for speech signal preprocessing has been proposed. The feasibility of using a diffusion model to improve the accuracy of unclear speech recognition has been substantiated. Practical significance. The research results can be used to develop automatic speech recognition systems capable of operating with unclear speech under real-world conditions. Approbation of results. The main provisions and results of the study were presented at the following conferences: 1. Applied Mathematics and Computing (PMC-2025) and published in the conference proceedings as “A Modified Diffusion Algorithm for Improving the Accuracy of an Unclear Speech Recognition System”; 2. Scientific journal Tavria Scientific Bulletin. Series: Technical Sciences, article “A Modified Diffusion Algorithm for Unclear Speech Processing”; 3. V International Scientific and Practical Conference OPEN SCIENCE NOWADAYS: Main Mission, Trends and Instruments, Path and Its Development, proceedings “Analysis of the Computational Complexity of a Diffusion Algorithm for Unclear Speech Preprocessing in Real-Time Systems”. Structure and scope of the thesis. The master’s thesis consists of an introduction, three chapters, conclusions, a list of references, and appendices. The first chapter is devoted to the theoretical foundations of distorted and unclear speech recognition. The second chapter describes the modified diffusion algorithm for audio signal preprocessing, presents the architecture of the proposed system, and explains the diffusion reconstruction processes. The third chapter focuses on the practical implementation of the unclear speech recognition system, including tool selection, dataset formation, model training and testing. A user interface and testing results are also presented. Keywords: unclear speech, automatic speech recognition system, diffusion model, CNN, RNN, Transformer, audio signal preprocessing. | |
| dc.format.extent | 82 с. | |
| dc.identifier.citation | Шевченко, І. І. Спосіб розпізнавання нечіткого мовлення з використанням нейромереж : магістерська дис. : 123 Комп'ютерна інженерія / Шевченко Іван Іванович. – Київ, 2025. – 82 с | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/78186 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.subject | нечітке мовлення | |
| dc.subject | система автоматичного розпізнавання мовлення | |
| dc.subject | дифузійна модель | |
| dc.subject | CNN | |
| dc.subject | RNN | |
| dc.subject | Transformer | |
| dc.subject | попередня обробка аудіосигналу. | |
| dc.subject | unclear speech | |
| dc.subject | automatic speech recognition system | |
| dc.subject | diffusion model | |
| dc.subject | audio signal preprocessing. | |
| dc.subject.udc | 004.934 | |
| dc.title | Спосіб розпізнавання нечіткого мовлення з використанням нейромереж | |
| dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Shevchenko_magistr.pdf
- Розмір:
- 1.44 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: