Математичне та програмне забезпечення системи розпізнавання емоцій за аудіозаписами

dc.contributor.advisorТретиник, Віолета Вікентіївна
dc.contributor.authorКоваленко, Олександра Петрівна
dc.date.accessioned2024-05-29T08:23:10Z
dc.date.available2024-05-29T08:23:10Z
dc.date.issued2023
dc.description.abstractДисертацію виконано на 81 аркушах, вона містить 2 додатки та перелік посилань на використані джерела з 22 найменувань. У роботі наведено 40 рисунків та 2 таблиці. Актуальність теми. Технології сучасності стрімко розвиваються. Сьогодні потужність обчислювальної техніки сильно виросла порівняно з попереднім століттям. Розвиток машинного навчання припадає ще на 60-ті роки минулого століття і швидкість розвитку цієї галузі зростає з кожним роком в геометричній прогресії. Протягом останніх двох десятиліть ця галузь є однією із провідних у комп’ютерних науках. Задачі розпізнавання вирішені використанням нейронних мереж є унікальними. Використання нейронних мереж у багатьох сферах стрімко покращує прогрес. Дана робота, про розпізнавання емоцій людини за аудіозаписами спрямована на вирішення проблем галузях: військовій, розважальній, освітній та медичній. Зв’язок роботи з науковими програмами, планами, темами. Дисертаційна робота виконувалась згідно з планом науково-дослідних робіт кафедри прикладної математики Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського». Мета і задачі дослідження. Метою дисертаційної роботи є розробка математичного та програмного забезпечення системи розпізнавання емоцій за аудіозаписами. Для досягнення цієї мети необхідно вирішити наступні задачі: - дослідити методи навчання нейронних мереж; - розглянути і проаналізувати архітектури та принципи організації нейронних мереж та методів вирішення задач класифікації; - способи оптимізації параметрів згорткових мереж; - запропонувати структуру системи класифікації аудіозаписів; - розробити модель програмного забезпечення з запропонованою структурою; - провести експериментальне дослідження характеристик системи. Об’єктом дослідження є способи організації засобів машинного навчання для розпізнавання емоцій за аудіозаписами. Теоретичні інструменти: - методи і алгоритми реалізації архітектур нейронних мереж: нейронні мережі, аналіз та класифікація даних за заданими параметрами; обрання ознак; - методи оптимізації гіперпараметрів: гіперпараметри, оптимізація, пошук архітектури нейронної мережі, автоналаштування; обрання моделі; Існуючі засоби: класи, ознаки, характеристики, область застосування, вартість володіння. Предмет дослідження: Математичне та програмне забезпечення системи розпізнавання емоцій за аудіозаписами на основі нейромережевої моделі. Застосування нейронних мереж на етапі попереднього тренування для розпізнавання емоцій за аудіозаписами, порівняльний аналіз методів оптимізації, що використовуються при навчанні нейронних мереж. Методи дослідження. Для розв’язання поставленої задачі використовувались такі методи: методи машинного навчання (для розробки моделі нейронної мережі); методи оптимізації (для пошуку найкращого налаштування системи); методи обробки даних (для попередньої підготовки вихідних даних); методи теорії алгоритмів та програмування (для програмної реалізації розроблених алгоритмів). Наукова новизна одержаних результатів складається з таких положень: 1) вперше застосовано та поєднано системну інженерію, включено методи та моделі Data Science, які використовуються для реалізації системи розпізнавання емоцій людини за аудіозаписами; 2) запропоновано використання інтегрованої моделі класифікації емоцій за аудіозаписами на основі згорткових нейронних мереж з автоматизованим підбором гіперпараметрів. Практичне значення одержаних результатів. Полягає в тому, що розроблена система розпізнавання емоцій за аудіозаписами на основі згорткової нейронної мережі, яка може використовуватись для аналізу розмови та емоційного стану людини, що в подальшому можна використовувати в рекомендаційних системах, військовій справі і тд. Апробація результатів дисертації. Основні положення й результати роботи дисертації доповідались та опубліковані у матеріалах XV наукової конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг - ПМК-2022» ( Київ 16-17 листопада 2022 року). Публікації. Результати дисертації викладено в науковій праці: тези «Автоматизація підбору гіперпарметрів lstm для задачі розпізнавання емоцій за аудіозаписами» на XV конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг - ПМК-2022»
dc.description.abstractotherThe dissertation is made up of 81 sheets, it contains 2 appendices and a list of references to used sources from 22 names. The work contains 40 figures and 2 tables. Actuality of theme. Modern technologies are developing rapidly. Today, the power of computing has greatly increased compared to the previous century. The development of machine learning dates back to the 60s of the last century, and the speed of development of this field is growing exponentially every year. For the past two decades, this field has been one of the leading in computer science. Recognition tasks solved using neural networks are unique. The use of neural networks in many fields is rapidly improving progress. This work, about recognizing human emotions from audio recordings, is aimed at solving problems in the following fields: military, entertainment, education, and medicine. Connection of work with scientific programs, plans, topics. The dissertation work was carried out in accordance with the plan of research works of the Department of Applied Mathematics of the National Technical University of Ukraine "Ihor Sikorskyi Kyiv Polytechnic Institute". The purpose and objectives of the research. The aim of the dissertation is to develop a mathematical and software system for recognizing emotions from audio recordings. To achieve this goal, the following tasks must be solved: 1) research methods of learning neural networks; 2) consider and analyze the architecture and principles of the organization of neural networks and methods of solving classification problems; 3) ways to optimize parameters of convolutional networks; 4) propose the structure of the audio recording classification system; 5) develop a software model with the proposed structure; 6) conduct an experimental study of system characteristics. The object of research is ways of organizing machine learning tools for recognizing emotions from audio recordings. Theoretical tools: 1) methods and algorithms for implementing neural network architectures: neural networks, data analysis and classification according to specified parameters; selection of signs; 2) hyperparameter optimization methods: hyperparameters, optimization, neural network architecture search, auto-tuning; choosing a model. Existing means: classes, features, characteristics, scope, cost of ownership. Subject of study: Mathematical and software development of a system for recognizing emotions from audio recordings based on a neural network model. Application of neural networks at the pre-training stage for emotion recognition from audio recordings, comparative analysis of optimization methods used in training neural networks. Research methods. The following methods were used to solve the problem: machine learning methods (for developing a neural network model); optimization methods (to find the best system setting); data processing methods (for preliminary preparation of initial data); algorithm theory and programming methods (for software implementation of developed algorithms). The scientific novelty of the obtained results consists of the following provisions: 1) for the first time, system engineering was applied and combined, Data Science methods and models were included, which are used to implement a system for recognizing human emotions from audio recordings; 2) the use of an integrated model of emotion classification based on audio recordings based on convolutional neural networks with automated selection of hyperparameters is proposed. Practical significance of the obtained results. It consists in the fact that a system for recognizing emotions from audio recordings has been developed based on a convolutional neural network, which can be used to analyze a person's conversation and emotional state, which can later be used in recommender systems, military affairs, etc. Approbation of the results of the dissertation. The main provisions and results of the dissertation work were reported and published in the materials of the XV scientific conference of master's and postgraduate students "Applied mathematics and computing - PMK-2022" (Kyiv, November 16-17, 2022). Publications. The results of the dissertation were presented in a scientific work: theses "Automation of the selection of lstm hyperparameters for the problem of emotion recognition from audio recordings" at the XV conference of master's and postgraduate students "Applied mathematics and computing - PMK-2022"
dc.format.extent98 с.
dc.identifier.citationКоваленко, О. П. Математичне та програмне забезпечення системи розпізнавання емоцій за аудіозаписами : магістерська дис. : 113 Прикладна математика / Коваленко Олександра Петрівна. – Київ, 2023. – 98 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/66938
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectзгорткова нейронна мережа
dc.subjectрозпізнавання емоцій
dc.subjectкласифікація
dc.subjectрегуляризація
dc.subjectнавчання мережі
dc.subjectалгоритми оптимізації
dc.subjectоптимізація гіперпараметрів
dc.subject.udc519.688:004.855.5
dc.titleМатематичне та програмне забезпечення системи розпізнавання емоцій за аудіозаписами
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Kovalenko_magistr.pdf
Розмір:
7.54 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: