Адаптивні системи оброблення акустичної інформації для створення персоналізованого медіаконтенту
dc.contributor.advisor | Трапезон, Кирил Олександрович | |
dc.contributor.author | Борисов, Гліб Олександрович | |
dc.date.accessioned | 2025-07-08T07:33:06Z | |
dc.date.available | 2025-07-08T07:33:06Z | |
dc.date.issued | 2025 | |
dc.description.abstract | Борисов Г.О. Адаптивні системи оброблення акустичної інформації для створення персоналізованого медіаконтенту. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії у галузі знань 17 – Електроніка та телекомунікації за спеціальністю 171 «Електроніка». – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», МОН України, Київ, 2025. Дисертаційна робота присвячена дослідженню адаптивних систем оброблення акустичної інформації для створення персоналізованого медіаконтенту. Зміст дисертаційного дослідження викладено в трьох розділах, де представлено та обґрунтовано основні результати роботи. Актуальність дисертаційної роботи обґрунтовано у вступі, де сформульовано мету та задачі дослідження, описано методи дослідження, надано інформацію про наукову новизну та практичне значення одержаних результатів. Об’єктом дослідження є різноманітний аудіо контент з записом живого або синтетично створеного голосового повідомлення на українській та англійській мовах. Застосування технологій оброблення акустичної інформації може бути спрямовано на забезпечення алгоритмів створення якісного персоналізованого медіаконтенту, наприклад для систем клонування голосу. У контексті цифрової трансформації суспільства важливість таких технологій останнім часом невпинно зростає, адже вони знаходять своє застосування у багатьох галузях, включаючи медицину, освіту, інформаційні системи, розваги та засоби комунікації. Одним із ключових аспектів роботи є застосування нейромережевих алгоритмів для оброблення акустичних сигналів. Використання нейронних мереж, як альтернативний спосіб, дозволяє отримати точну ідентифікацію голосу, реалізувати синтез природного мовлення та ефективне зменшення шуму і реверберації сигналів. Особливо актуальним це стає для систем, які працюють у складних акустичних умовах. Значний інтерес викликає завдання створення персоналізованого контенту, яке базується на здатності нейронних мереж адаптуватися до індивідуальних характеристик мовця. Це включає можливість збереження унікальних інтонацій, тембру та інших специфічних особливостей голосу. Крім того, задача підвищення розбірливості мовлення є важливою для поліпшення комунікації між користувачами у різних акустичних середовищах, серед яких це лекційні зали, офіси або відкриті простори. Зокрема, використання нейронних мереж дозволяє автоматизувати та покращувати процес обробки звукових сигналів, що є основою медіасистем. Такий підхід забезпечує можливість створювати персоналізований контент, який враховує, у тому числі, специфічні вподобання користувачів. У першому розділі розглянуто сучасний стан досліджень у галузі обробки акустичної інформації та створення персоналізованого медіаконтенту. Представлено загальні відомості про основні типи акустичних сигналів, які включають широке різноманіття звукових хвиль — від природних шумів до мовлення, музики та техногенних сигналів. Розкрито їх ключові характеристики, такі як амплітуда, частота, тривалість і спектральний склад, які формують базу для їх подальшого аналізу та обробки. Описано ключові технології, такі як згорткові нейронні мережі, рекурентні архітектури та їх застосування у задачах розпізнавання мовлення, синтезу голосу та зменшення шумів. Наведено приклади використання часово-частотного представлення сигналів (спектрограм, мел-спектрограм) для вилучення інформативних ознак з аудіоданих. Також наведено актуальні підходи до адаптації моделей до оброблення сигналів у складних акустичних умовах. Розглянуто методи оцінювання ефективності нейромережевих моделей, а також перспективи їхнього використання для персоналізації голосу в різних прикладних задачах. У другому розділі, присвяченому огляду загальних засад адаптивних систем оброблення акустичної інформації, розглянуто основні принципи побудови таких систем. Наведено загальні концепції адаптивності, що забезпечують ефективну роботу систем у змінних акустичних умовах. Описано ключові компоненти адаптивних систем, включаючи модулі вилучення ознак, класифікації та синтезу мовлення. Проведено аналіз сучасних архітектур нейронних мереж, таких як згорткові та рекурентні моделі, які є основою для створення адаптивних рішень. Представлено приклади використання систем із застосуванням часово-частотного представлення сигналів, що дозволяє досягти високої точності вилучення інформативних ознак. Також наведено актуальні підходи до інтеграції методів адаптації, таких як нормалізація даних, компенсація шумів і реверберації. Розглянуто перспективи використання адаптивних систем для вирішення прикладних задач, таких як синтез персоналізованого голосу, автоматичне розпізнавання мовлення та аудіообробка в реальному часі. Особливий акцент зроблено на значенні цих систем для інноваційних сфер, таких як голосові асистенти, медичні пристрої, системи безпеки та мультимедійні додатки. Це підкреслює їхній внесок у підвищення комфорту, інтерактивності та персоналізації сучасних технологій. У третьому розділі детально описано проведення серії експериментальних досліджень, спрямованих на перевірку ефективності розроблених методів оброблення акустичної інформації. Наведено опис експериментальної бази, включаючи використане програмне забезпечення, набори даних та параметри середовищ. Представлено результати перевірки розроблених алгоритмів для задач вилучення ознак, синтезу мовлення та адаптації аудіосигналів у різних акустичних умовах. Зокрема, розглянуто методи зменшення впливу шумів та реверберації, а також забезпечення персоналізації голосу. Описано проведення експериментів на різних наборах аудіоданих, що дозволило оцінити стабільність і точність запропонованих підходів. Висвітлено практичну цінність отриманих результатів у реальних сценаріях, таких як створення персоналізованого медіаконтенту, ідентифікація за голосом та обробка аудіо у складних умовах. В дисертаційній роботі отримано наступні наукові результати: 1. Вперше розроблено систему ідентифікації за голосом, яка є стійкою до штучно підробленого голосу і показує високу точність схожості відразу за 4 критеріями. 2. Вперше побудовано акустичну модель розпізнавання мовних сигналів з підтримкою нейронної мережі, яка дозволяє в якості вхідної інформації використовувати українські словосполучення. Для її реалізації розроблено змінену рекурентну нейронну мережу, яка вирізняється тим, що за рахунок вбудованої пам’яті в структурі етап навчання та тестування нейронної мережі моделі можна проводити одночасно. 3. Удосконалено програмний алгоритм дереверберації записаних аудіо сигналів з адитивним додаванням шуму, де використано згорткову нейронну мережу за архітектурою U-Net і яка адаптована до запису не тільки тестових сигналів типу ‘сплеск’ або “постріл”, але й словосполучень українською мовою. 4. Набуло подальшого розвитку створення систем клонування голосу за рахунок введення послідовно трьох попередньо навчених нейронних мереж. Такий підхід дозволив зберегти акцент, інтонаційні та інші фонетичні особливості у синтезованих фразах як англійською, так і українською мов. Практичне значення одержаних в дисертаційній роботі результатів полягає в тому, що отримані результати можуть бути використані для широкого спектру завдань у галузі обробки аудіосигналів. Практичне значення отриманих результатів полягає у розробці та впровадженні інноваційних методів обробки акустичної інформації, що базуються на принципах функціонування сучасних нейронних мереж. Отримані результати можуть бути використані для створення систем автоматичного розпізнавання мовлення, синтезу персоналізованого голосу, адаптації аудіосигналів до різних акустичних умов та зменшення впливу шумів і реверберації. Запропоновані алгоритми та підходи є універсальними та можуть бути інтегровані у широкий спектр застосувань, таких як голосові помічники, системи безпеки, слухові апарати, медичне обладнання, інтерфейси "розумного будинку" та мультимедійні платформи. Практична значущість роботи підтверджується можливістю використання її результатів для підвищення точності, стійкості та адаптивності сучасних технологій персоналізованого медіаконтенту. | |
dc.description.abstractother | Borisov G.O. Adaptive acoustic information processing systems for creating personalized media content. Dissertation for the degree of Doctor of Philosophy in Knowledge Area 17 - Electronics and Telecommunications, specialty 171 “Electronics.” - National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Ministry of Education and Science of Ukraine, Kyiv, 2025. The dissertation is devoted to the study of adaptive acoustic information processing systems for creating personalized media content. The content of the dissertation research is presented in three chapters, where the main results of the work are presented and substantiated. The relevance of the thesis is substantiated in the introduction, which formulates the purpose and objectives of the study, describes the research methods, and provides information on the scientific novelty and practical significance of the results. The object of the study is a variety of audio content with live or synthetically generated voice messages in Ukrainian and English. The development of modern acoustic information processing technologies is inextricably linked to ensuring the creation of high-quality personalized media content, especially for voice cloning systems. In the context of the digital transformation of society, the importance of such technologies is growing, as they are used in many fields, including medicine, education, information systems, entertainment, and communication. One of the key aspects of the work is the study of neural network algorithms for processing acoustic signals. The use of neural networks is likely to enable accurate voice identification, natural speech synthesis, and effective noise and reverberation reduction. This is especially relevant for systems operating in difficult acoustic conditions. The task of creating personalized content based on the ability of neural networks to adapt to the individual characteristics of the speaker is of great interest. This includes the ability to preserve unique intonations, timbre, and other specific voice features. In addition, the task of enhancing speech intelligibility is important for improving communication between users in different acoustic environments, such as lecture halls, offices, or open spaces. In particular, the use of neural networks allows automating and improving the processing of audio signals, which is the basis of media systems. This approach makes it possible to create personalized content that takes into account the specific preferences of users. The first chapter discusses the current state of research in the field of acoustic information processing and personalized media content creation. General information about the main types of acoustic signals is presented, which include a wide variety of sound waves - from natural noise to speech, music, and man-made signals. Their key characteristics, such as amplitude, frequency, duration, and spectral composition, which form the basis for their further analysis and processing, are revealed. Key technologies such as convolutional neural networks, recurrent architectures and their application in speech recognition, voice synthesis and noise reduction are described. Examples of the use of time-frequency representation of signals (spectrograms, melspectrograms) to extract informative features from audio data are given. The current approaches to the adaptation of models to signal processing in complex acoustic conditions are also presented. The methods for evaluating the effectiveness of neural network models, as well as the prospects for their use for voice personalization in various applied tasks, are considered. In the second section, devoted to the review of the general principles of adaptive acoustic information processing systems, the basic principles of building such systems are considered. General concepts of adaptability are presented to ensure efficient operation of systems under variable acoustic conditions. The key components of adaptive systems are described, including modules for feature extraction, classification, and speech synthesis. An analysis of modern neural network architectures, such as convolutional and recurrent models, which are the basis for creating adaptive solutions, is presented. Examples of the use of systems with the use of time-frequency representation of signals are presented, which allows to achieve high accuracy of informative features extraction. The article also presents current approaches to the integration of adaptation methods, such as data normalization, noise and reverberation compensation. The prospects of using adaptive systems to solve applied problems, such as personalized voice synthesis, automatic speech recognition, and real-time audio processing, are considered. Particular emphasis is placed on the importance of these systems for innovative areas such as voice assistants, medical devices, security systems, and multimedia applications. This emphasizes their contribution to increasing the comfort, interactivity and personalization of modern technology. Chapter 3 describes in detail the series of experimental studies aimed at verifying the effectiveness of the developed methods for processing acoustic information. We describe the experimental setup, including the software used, data sets, and environmental parameters. The results of testing the developed algorithms for the tasks of feature extraction, speech synthesis, and adaptation of audio signals in different acoustic conditions are presented. In particular, the methods for reducing the impact of noise and reverberation, as well as for ensuring voice personalization are considered. Experiments on different sets of audio data are described, which allowed us to evaluate the stability and accuracy of the proposed approaches. The practical value of the obtained results in real-life scenarios, such as the creation of personalized media content, voice identification, and audio processing in complex environments, is highlighted. The following scientific results were obtained in the dissertation: 1. For the first time, a voice identification system has been developed that is resistant to artificially faked voices and shows high accuracy of similarity by 4 criteria at once. 2. For the first time, an acoustic model of speech signal recognition with the support of a neural network was built, which allows using Ukrainian word combinations as input. For its implementation, a modified recurrent neural network was developed, which is distinguished by the fact that due to the built-in memory in the structure, the training and testing of the model's neural network can be carried out simultaneously. 3. A software algorithm for deregulation of recorded audio signals with additive noise addition has been improved, using a convolutional neural network based on the U-Net architecture and adapted to record not only test signals such as 'burst' or 'shot', but also word combinations in Ukrainian. 4. The development of voice cloning systems was further developed by introducing three pre-trained neural networks in sequence. This approach made it possible to preserve the accent, intonation, and other phonetic features in the synthesized phrases of both English and Ukrainian. The dissertation is devoted to the investigation of adaptive systems for acoustic information processing aimed at creating personalized media content. The practical significance of the results obtained in this thesis is that the findings can be used for a wide range of tasks in the field of audio signal processing. The practical significance of the results obtained is the development and implementation of innovative methods of acoustic information processing based on the principles of functioning of modern neural networks. The obtained results can be used to create systems for automatic speech recognition, personalized voice synthesis, adaptation of audio signals to different acoustic conditions, and reduction of noise and reverberation. The proposed algorithms and approaches are versatile and can be integrated into a wide range of applications, such as voice assistants, security systems, hearing aids, medical equipment, smart home interfaces, and multimedia platforms. The practical significance of the work is confirmed by the possibility of using its results to improve the accuracy, stability, and adaptability of modern technologies for personalized media content. | |
dc.format.extent | 137 с. | |
dc.identifier.citation | Борисов, Г. О. Адаптивні системи оброблення акустичної інформації для створення персоналізованого медіаконтенту : дис. … д-ра філософії : 171 Електроніка / Борисов Гліб Олександрович. – Київ, 2025. – 137 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/74714 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | розбірливість мовлення | |
dc.subject | оцінка | |
dc.subject | якість мовлення | |
dc.subject | тестовий сигнал | |
dc.subject | реверберація | |
dc.subject | шуми | |
dc.subject | моделювання | |
dc.subject | процес | |
dc.subject | звук | |
dc.subject | Інтернет речей | |
dc.subject | IoT | |
dc.subject | комп’ютерна система | |
dc.subject | рівень сигналу | |
dc.subject | розповсюдження сигналу | |
dc.subject | speech intelligibility | |
dc.subject | evaluation | |
dc.subject | speech quality | |
dc.subject | test signal | |
dc.subject | reverberation | |
dc.subject | noise | |
dc.subject | modeling | |
dc.subject | process | |
dc.subject | sound | |
dc.subject | Internet of Things | |
dc.subject | computer system | |
dc.subject | signal strength | |
dc.subject | signal propagation | |
dc.subject.udc | 621.391.83 | |
dc.title | Адаптивні системи оброблення акустичної інформації для створення персоналізованого медіаконтенту | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: