Оброблення, запис та передавання засобами IoT мовного аудіосигналу з дефектами
dc.contributor.advisor | Трапезон, Кирило Олександрович | |
dc.contributor.author | Світловський, Євгеній Володимирович | |
dc.date.accessioned | 2025-06-11T13:04:39Z | |
dc.date.available | 2025-06-11T13:04:39Z | |
dc.date.issued | 2025 | |
dc.description.abstract | Світловський Є.В. Оброблення, запис та передавання засобами IoT мовного аудіосигналу з дефектами. – Кваліфікаційна робота на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 171 «Електроніка». – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», МОН України, Київ, 2025. Дисертаційна робота присвячена дослідженню підходів обробки та передачі засобами IoT мовного сигналу з дефектами з можливістю додавання додаткової інформації на основі методу найменшого біта. Зміст дисертаційного дослідження викладено в шістьох розділах, де представлено та обґрунтовано основні результати роботи. Актуальність дисертаційної роботи обґрунтовано у вступі, де сформульовано мету та задачі дослідження, описано методи дослідження, надано інформацію про наукову новизну та практичне значення одержаних результатів. Системи IoT, що працюють з мовними сигналами, так або інакше стикаються з проблемами зниження шумового забруднення, компенсації дефектів мовлення та необхідності адаптивної обробки самих сигналів з можливістю за потреби додаткової передачі інформації. Під час процесів оброблення необхідно зберегти якість звуку без додавання нових шумів та артефактів. Додатково, має бути можливість і ефективно знижувати вже присутній рівень шуму в оригінальному сигналі, враховуючи збереження розбірливості мовлення записаного в аудіосигналі. Сучасні методи обробки орієнтовані переважно на іноземні мови і не мають на жаль якісних адаптацій для української мови, що у підсумку при розробленні пристроїв IoT може бути причиною некоректної обробки, неправильної інтерпретації команд або контексту повідомлення. Для вирішення цих завдань необхідно розробити нові алгоритми, які не лише покращують співвідношення сигнал/шум, а й підвищують розбірливість мовлення та мінімізують втрати інформації під час обробки чи передачі, враховуючи при цьому специфіку української мови. Крім того, обмежені обчислювальні ресурси та пропускна здатність пристроїв вимагають створення рішень, здатних ефективно працювати в умовах низької якості обладнання та недостатньої шумоізоляції. Актуальність даного дослідження полягає у необхідності розробки нових рішень для оброблення та передачі дефектних аудіо фрагментів українською мовою з можливістю дублювання та передачі мовного сигналу стеганографічним методом без втрати якості для подальшого декодування та зчитування інформації. Отримані результати можуть знайти практичне застосування в різних сферах, зокрема в системах "розумного будинку", при автоматизованому записі та аналізі онлайнлекцій, забезпечуючи при цьому новий рівень ефективності та інтерактивності. У першому розділі визначено основні недоліки існуючих рішень по обробці мовних аудіо сигналів в умовах зашумлення засобами IoT, досліджено основні чинники, які слід враховувати при проведенні якісного запису мовної інформації. Наведено вимоги до вибору приміщень щодо проведення запису мовних аудіосигналів. Зазначено ключові моменти, які сприяють покращенню розбірливості мовлення та зниженню впливу фізичних і електронних шумів. У другому розділі наведені дані щодо підготовчих кроків до проведення частотного аналізу мовного сигналу. Зокрема, зазначено про такі базові процедури підготовки: розбиття сигналу на сегменти, ідентифікація максимумів та аналіз формант, аналіз фундаментальної частоти. В третьому розділі дослідження наведено основні принципи кодування текстової інформації за форматами UTF-8 та ASCII та визначені основні етапи розпізнавання мовних сигналів. У четвертому розділі проведено порівняння характеристик мікрофонів та можливих умов їх застосування. Визначено оптимальну направленість мікрофону для дослідження та розробки алгоритму обробки звукового фрагменту з дефектами. Розглянуто пристрої та методи передачі інформації для реалізації розробленого алгоритму в середовищі Інтернету речей в умовах обмежених обчислювальних ресурсів. У п’ятому розділі роботи проведено практичний експеримент з підвищення якості та зниження рівня шумового забруднення записаного мовного сигналу українською мовою з наявними технічними дефектами. Зокрема, створено на основі мови програмування Python програмний алгоритм з елементами циклічності, де визначено окремі послідовні етапи обробки сигналу з урахуванням фундаментальної частоти, динамічних та частотних характеристик, рівня шумового забрудення. Досліджено основні підходи до зниження рівня шуму в сигналі, та контролю динамічної і частотної складової сигналу. Визначено міжнародні стандарти нормалізації для приведення звукового сигналу до необхідного рівня гучності. На основі отриманих експериментальних результатів визначено підходи оброблення аудіосигналів, які адаптовано для роботи з українською фонетичною групою. У шостому розділі наведено алгоритм визначення та кодування тексту з метою додавання супутньої прихованої інформації в аудіофайл. Так, на основі відкритої бібліотеки розпізнавання, вилучено з записаного сигналу текстові дані, і після їх корегування та представлення у необхідній формі, додано за допомогою стеганографічного методу LSB до вмісту аудіосигналу. Показано, що модифікований аудіосигнал практично не змінив свої характеристики у порівнянні з початковим сигналом. Представлені в дисертації нові практичні результати можуть бути рекомендовані до застосування в умовах дистанційного навчання для запису інформації, адаптивної обробки та передачі сигналів методами Інтернету речей із додаванням супутньої інформації. Наведені розробки можуть бути використані при розробленні складових в системах “розумного будинку” з підтримкою української локалізації. Технології обробки аудіо можуть бути адаптовані для допомоги людям з порушенням слуху методом декодування тексту в зручний формат. В дисертаційній роботі отримано наступні наукові результати: 1. Вперше досліджено та запропоновано алгоритм обробки аудіофайлу українською мовою в умовах зашумлення, адаптований до вимог середовища IoT, який складається з окремих етапів та має риси циклічності. 2. Уточнено алгоритм обробки мовного сигналу, який записано українською мовою, на основі аналізу частотної характеристики з урахуванням особливостей визначення фундаментальної частоти та адаптивних обробок. 3. Вперше розроблено алгоритм подвійної обробки аудіо сигналу з вмістом вимовлених слів українською мовою, який дозволяє реалізувати один з способів приховування потрібної інформації в структурі аудіофайлу зі збереженням якості та без значної зміни енергетичного вмісту останнього. Практичне значення отриманих результатів полягає у наступному. 1. Визначені підходи до вибору мікрофонного обладнання для запису аудіосигналів, що можуть бути використані при створенні звукових IoT-систем для забезпечення високої якості записаного мовного контенту. 2. Запропоновані ефективніші рішення щодо створення програм обробки аудіосигналів, які дозволяють ефективно очищувати аудіосигнали від шумів та підвищувати розбірливість мовлення, враховуючи спеціфіку середовища та АЧХ спікера, що сприяє підвищенню якості відтворення записаного контенту в IoTсистемах. 3. Використання методу LSB для приховування та передачі супутньої текстової інформації в аудіосигналі забезпечує можливість передачі додаткової інформації без збільшення обсягу даних та помітного впливу на якість звуку. | |
dc.description.abstractother | Svitlovskyi Y.V. Assessment of the Processing, Recording, and Transmitting Defective Speech Audio Signals Using IoT Technologies. – Qualifying thesis as a manuscript. Dissertation for the Doctor of Philosophy degree in Electronics. – National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute", Ministry of Education and Science of Ukraine, Kyiv, 2025. The dissertation is devoted to the study of approaches to processing and transmitting a speech signal with defects by IoT means with the possibility of adding additional information based on the least bit method. The content of the dissertation research is presented in six chapters, where the main results of the work are presented and substantiated. The relevance of the thesis is substantiated in the introduction, which formulates the purpose and objectives of the study, describes the research methods, and provides information on the scientific novelty and practical significance of the results. IoT systems that work with speech signals face the challenges of reducing noise pollution, compensating for speech defects, and the need for adaptive processing of the signals themselves with the ability to transmit additional information if necessary. During processing, it is necessary to preserve the sound quality without adding new noise and artifacts. Additionally, it should be possible and effective to reduce the noise level already present in the original signal, taking into account the preservation of speech intelligibility recorded in the audio signal. Modern processing methods are focused mainly on foreign languages and, unfortunately, do not have high-quality adaptations for the Ukrainian language, which, as a result, when developing IoT devices, can cause incorrect processing, misinterpretation of commands or message context. To solve these problems, it is necessary to develop new algorithms that not only improve the signal-to-noise ratio, but also increase speech intelligibility and minimize information loss during processing or transmission, while taking into account the specifics of the Ukrainian language. In addition, limited computing resources and bandwidth of devices require the creation of solutions that can work effectively in conditions of low quality equipment and insufficient noise insulation. The relevance of this study lies in the need to develop new solutions for processing and transmitting defective audio fragments in Ukrainian with the ability to duplicate and transmit the speech signal using the steganographic method without loss of quality for further decoding and reading information. The results obtained can find practical application in various fields, including smart home systems, automated recording and analysis of online lectures, while providing a new level of efficiency and interactivity. The first section identifies the main disadvantages of existing solutions for processing speech audio signals in conditions of noise by IoT, and investigates the main factors that should be taken into account when conducting high-quality recording of speech information. The requirements for the selection of premises for recording speech audio signals are presented. The key points that contribute to improving speech intelligibility and reducing the impact of physical and electronic noise are noted. The second section presents data on the preparatory steps for conducting frequency analysis of a speech signal. In particular, the following basic preparation procedures are described: splitting the signal into segments, identifying maxima and analyzing formants, and analyzing the fundamental frequency. The third section of the study presents the basic principles of encoding text information in UTF-8 and ASCII formats and identifies the main stages of speech signal recognition. Section 4 compares the characteristics of microphones and possible conditions of their use. The optimal microphone directionality for researching and developing an algorithm for processing a sound fragment with defects is determined. The devices and methods of information transmission for the implementation of the developed algorithm in the Internet of Things environment under conditions of limited computing resources are considered. In the fifth section of the work, a practical experiment was conducted to improve the quality and reduce the level of noise pollution of the recorded speech signal in Ukrainian with existing technical defects. In particular, a software algorithm with elements of 8 cyclicity was created on the basis of the Python programming language, which defines separate sequential stages of signal processing, taking into account the fundamental frequency, dynamic and frequency characteristics, and the level of noise pollution. The main approaches to reducing the noise level in the signal and controlling the dynamic and frequency components of the signal are investigated. International normalization standards for bringing the sound signal to the required volume level are determined. Based on the experimental results obtained, the approaches to audio signal processing are determined, which are adapted to work with the Ukrainian phonetic group. Section 6 presents an algorithm for detecting and encoding text in order to add related hidden information to an audio file. Thus, based on an open recognition library, text data is extracted from the recorded signal, and after its correction and presentation in the required form, it is added to the audio signal content using the LSB steganographic method. It is shown that the modified audio signal has practically not changed its characteristics compared to the original signal. The new practical results presented in this dissertation can be recommended for use in distance learning for recording information, adaptive processing and transmission of signals using the Internet of Things methods with the addition of related information. These developments can be used in the design of components in smart home systems with support for Ukrainian localization. Audio processing technologies can be adapted to help people with hearing impairments by decoding text into a convenient format. In the dissertation research, the following scientific results have been obtained: 1. For the first time, an algorithm for processing an audio file in Ukrainian under noise conditions, adapted to the requirements of the IoT environment, which consists of separate stages and has the features of cyclicity, is investigated and proposed. 2. The algorithm for processing a speech signal recorded in Ukrainian is refined based on the analysis of the frequency response, taking into account the peculiarities of determining the fundamental frequency and adaptive processing. 3. For the first time, an algorithm for double processing of an audio signal containing spoken words in Ukrainian was developed, which allows to implement one of 9 the ways to hide the necessary information in the structure of an audio file while maintaining quality and without significantly changing the energy content of the latter. The practical significance of the obtained results lies in the following: 1. The approaches to the selection of microphone equipment for recording audio signals that can be used in the creation of audio IoT systems to ensure high quality of recorded speech content are determined. 2. More effective solutions for creating audio signal processing programs are proposed that allow to effectively clean audio signals from noise and increase speech intelligibility, taking into account the specifics of the environment and the speaker's frequency response, which contributes to the quality of playback of recorded content in IoT systems. 3. Using the LSB method to hide and transmit accompanying textual information in the audio signal allows the transmission of additional information without increasing the amount of data and significantly affecting the sound quality. | |
dc.format.extent | 145 с. | |
dc.identifier.citation | Світловський, Є. В. Оброблення, запис та передавання засобами IoT мовного аудіосигналу з дефектами : дис. … д-ра філософії : 171 Електроніка / Світловський Євгеній Володимирович. – Київ, 2025. – 145 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/74200 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | акустичне поле | |
dc.subject | графіки спрямованості акустичного поля | |
dc.subject | звук | |
dc.subject | модель | |
dc.subject | контент | |
dc.subject | моделювання | |
dc.subject | процес | |
dc.subject | Інтернет речей | |
dc.subject | IoT | |
dc.subject | стеганографія | |
dc.subject | комп’ютерна система | |
dc.subject | рівень сигналу | |
dc.subject | спектр мови | |
dc.subject | якість мовлення | |
dc.subject | тестовий сигнал | |
dc.subject | розбірливість мовлення | |
dc.subject | acoustic field | |
dc.subject | acoustic field directivity graphs | |
dc.subject | sound | |
dc.subject | model | |
dc.subject | content | |
dc.subject | modeling | |
dc.subject | process | |
dc.subject | Internet of Things | |
dc.subject | steganography | |
dc.subject | computer system | |
dc.subject | signal strength | |
dc.subject | speech spectrum | |
dc.subject | speech quality | |
dc.subject | test signal | |
dc.subject | speech intelligibility | |
dc.subject.udc | 654.026 | |
dc.title | Оброблення, запис та передавання засобами IoT мовного аудіосигналу з дефектами | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Svitlovskyi_dys.pdf
- Розмір:
- 3.96 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: