Метод підвищення ефективності діагностичних систем в аналізі звуку на основі нейронних мереж

dc.contributor.advisorСтіренко, Сергій Григорович
dc.contributor.authorПанаскін, Денис Валентинович
dc.date.accessioned2025-07-14T08:30:46Z
dc.date.available2025-07-14T08:30:46Z
dc.date.issued2025
dc.description.abstractПанаскін Д.В. Метод підвищення ефективності діагностичних систем в аналізі звуку на основі нейронних мереж. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 121 – Інженерія програмного забезпечення та 12 – Інформаційні технології. – Національний Технічний Університет України «Київський Політехнічний Інститут імені Ігоря Сікорського», Київ, 2025. Метою дослідження було оцінити потенціал глибинного навчання для виявлення респіраторних захворювань у записах легеневих звуків (аускультація), а також вивчити можливість збільшення обсягу тренувальних даних шляхом генерації синтетичних спектральних репрезентацій. У роботі запропоновано NASCA-метод (Neural-Augmented Sound Classification for Auscultation), що поєднує обробку аудіозаписів, згорткові варіаційні автокодувальники (CVAE) для аугментації та класичну CNN-модель. Дослідження було проведено на основі набору даних ICBHI (Міжнародна конференція з біомедичної та медичної інформатики), який складався з 126 суб'єктів і загалом 920 звуків аускультації легень, серед яких 810 із хронічними захворюваннями, 75 з не хронічними захворюваннями та 35 без будь-яких патологій. На етапі попередньої обробки частота була знижена до 4 кГц і було відфільтровано неінформативні частотні діапазони. Кожен зразок був перетворений у частотний спектр, і були згенеровані мел-спектрограми. Для вирішення проблеми дисбалансу класів було згенеровано синтетичні спектрограми з використанням згорткових варіаційних автокудувальників. Для побудови моделі була використана класична згорткова нейронна мережа. Ефективність алгоритму оцінювали за допомогою перехресної валідації з 10-кратним поділом, а також через експерименти з розділенням аудіозаписів на навчальні та тестові набори на основі групування пацієнтів. Результати були оцінені за такими метриками, як чутливість, специфічність, F1-міра та коефіцієнт Каппа Коена, і досягли F1-міри в 98,45% для задачі класифікації на 5 класів. Дослідження підкреслює потенціал запропонованого методу для синтезу та збільшення чутливих медичних даних і визначає області для подальших досліджень у виявленні клінічних респіраторних захворювань. Запропонований підхід до синтезу даних має особливе значення в медичних дослідженнях, де часто бракує якісних і збалансованих записів. Застосування згорткових варіаційних автокодувальників для генерування синтетичних зразків істотно покращує якість навчання моделей, що, своєю чергою, позитивно впливає на точність класифікації та ранню діагностику респіраторних захворювань. Використання глибоких нейронних мереж для аналізу медичних аудіоданих відкриває нові перспективи автоматизації діагностичних процесів. Такий підхід може істотно скоротити час для первинної оцінки стану пацієнта, полегшити навантаження на медичних фахівців і підвищити ефективність лікування, даючи змогу зосередитися на критичних випадках. Подальші дослідження варто зосередити на кількох взаємопов’язаних напрямах. Насамперед, планується розширити NASCA-метод шляхом інтеграції ембеддингів легеневих звуків із великими мовними моделями (LLM) для мультимодального аналізу (текст + аудіо) з використанням GPT, BERT тощо. Актуальним є також включення до аналізу інших біомедичних сигналів, наприклад фонокардіограм, і їх комбіноване використання з легеневими шумами задля підвищення діагностичної специфічності. Крім того, суттєві перспективи відкриває розробка та валідація федеративного навчання (FL) для обробки розподілених клінічних баз з урахуванням вимог конфіденційності та захисту персональних даних. Поряд із цим, оптимізація архітектур глибинних мереж і вдосконалення методів генерації синтетичних даних залишаються важливими завданнями для ефективного подолання дисбалансу класів і забезпечення високої точності діагностики.
dc.description.abstractotherPanaskin D.V. A method of increasing the efficiency of diagnostic systems in sound analysis based on neural networks. Qualified scientific work on the rights of the manuscript. Dissertation for the degree of Doctor of Philosophy in the specialty 121 - Software Engineering and 12 - Information Technology. - National Technical University of Ukraine ”Igor Sikorsky Kyiv Polytechnic Institute Kyiv, 2025. This study aimed to assess the potential of deep learning for detecting respiratory diseases in lung auscultation recordings, as well as to explore the possibility of expanding the training dataset by generating synthetic spectral representations. The NASCA method (Neural-Augmented Sound Classification for Auscultation) is proposed, combining audio preprocessing, convolutional variational autoencoders (CVAE) for augmentation, and a classical CNN model. The research utilized the ICBHI (International Conference on Biomedical and Health Informatics) dataset,which consisted of 126 subjects and a total of 920 lung auscultation sounds, including 810 with chronic diseases, 75 with non-chronic diseases, and 35 without any pathology. The preprocessing stage involved reducing the frequency to 4kHz and filtering out non-informative frequency bands. Each sample was then transformed into a frequency spectrum and Melspectrograms were generated. To address the issue of class imbalance, synthetic spectrograms were generated using convolutional variational autoencoders. A classical convolutional neural network was employed to build the model. The performance of the algorithm was evaluated through 10-fold cross-validation, as well as through experiments that split the audio recordings into training and test sets based on patient grouping. The results were evaluated using metrics such as sensitivity, specificity, F1-score, and Cohen’s kappa, and achieved an F1-score of 98.45% for the 5-class classification problem. The study highlights the potential of the proposed method for synthesizing and augmenting sensitive medical data and identifies areas for further research in the detection of clinical respiratory diseases The proposed data synthesis approach is particularly significant in medical research settings, where access to high-quality and balanced datasets is often limited. The use of convolutional variational autoencoders to generate synthetic samples substantially improves model training quality, which in turn has a beneficial impact on classification accuracy and early detection of respiratory diseases. Employing deep neural networks for the analysis of medical audio data opens new prospects for automating diagnostic procedures. This approach can considerably reduce the time needed for initial patient assessment, lessen the workload on medical professionals, and enhance treatment efficiency by allowing specialists to focus more on critical cases. Future research should focus on several interrelated directions. First, it is planned to expand the NASCA method by integrating lung sound embeddings with large language models (LLMs) for multimodal analysis (text + audio) using GPT, BERT, etc. Additionally, the analysis of other biomedical signals, for instance phonocardiograms, and their combined use with lung sounds could enhance diagnostic specificity. Furthermore, there are substantial prospects in developing and validating federated learning (FL) for distributed clinical databases, taking confidentiality and data protection requirements into account. Alongside these efforts, optimizing deep neural network architectures and improving synthetic data generation methods remain crucial tasks for effectively addressing class imbalance and ensuring high diagnostic accuracy.
dc.format.extent191 с.
dc.identifier.citationПанаскін, Д. В. Метод підвищення ефективності діагностичних систем в аналізі звуку на основі нейронних мереж : дис. … д-ра філософії : 121 Інженерія програмного забезпечення / Панаскін Денис Валентинович. – Київ, 2025. – 191 c.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/74893
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectГлибоке навчання
dc.subjectдіагностика захворювань легень
dc.subjectаускультація
dc.subjectнейронні мережі
dc.subjectсинтез даних
dc.subjectмедичні дані
dc.subjectкласифікація звуків
dc.subjectмел-спектрограма
dc.subjectаудіоаналіз
dc.subjectвалідація моделі
dc.subjectDeep learning
dc.subjectrespiratory disease diagnosis
dc.subjectauscultation
dc.subjectneural networks
dc.subjectdata synthesis
dc.subjectmedical data
dc.subjectsound classification
dc.subjectmel-spectrogram
dc.subjectaudio analysis
dc.subjectmodel validation
dc.subject.udc004.93:616-073
dc.titleМетод підвищення ефективності діагностичних систем в аналізі звуку на основі нейронних мереж
dc.typeThesis Doctoral

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Panaskin_dys.pdf
Розмір:
7.35 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: