Автоматичне розпізнавання музичних жанрів глибокими згортковими нейронними мережами

dc.contributor.authorДорогий, Ярослав Юрійович
dc.contributor.authorЦуркан, Василь Васильович
dc.contributor.authorХапілін, Олександр Сергійович
dc.date.accessioned2020-05-19T06:42:11Z
dc.date.available2020-05-19T06:42:11Z
dc.date.issued2018
dc.description.abstractenFor the long time in computer vision and digital signal processing manually developed algorithms and filters were used. With the development of computers technics and constantly growing amount of available data samples, these algorithms became less accurate than modern machine learning approaches. The idea behind them is to construct useful representations based on data itself rather than on expert knowledge. Such approach allows machine learning algorithms to choose for themselves which parts of data more important. Today machine learning is successfully applied in such tasks as image recognition in Google image search and speech recognition in Google Now, Siri, Cortana. Nowadays best approaches are built upon different variations of neural network algorithms. One of the fields, where machine learning are successfully applied is music information retrieval, where musical genres classification is one of the main tasks and solving it efficiently can help automatically organize large collections of musical data which are available for now. As music genre aggregates a lot of song information, model for calculating music song similarities based on audio information can possibly be built on proposed model. In this article, the algorithms for automatic music genre recognition are discussed and usage of deep convolutional neural networks is proposed for this task. The network’s architecture is described and its quality evaluated on real-world data. In this work GTZAN dataset is used and classification problem for four and ten genres classification was examined using mel-frequency cepstral coefficients and waveform as features. The quality of proposed algorithm was evaluated on hold-out set for four and ten different genres and compared to using restricted Boltzmann machines for four genres classification. The resulting accuracy for our genres classification task is 76%, which is about 15% better than restricted Boltzmann machine approach. Though model overfits strongly on rather small dataset it can be fixed by using larger amount of data. The main differences between proposed neural network architecture and traditional convolutional neural networks are gated activations, dilated convolutions and residual connections. Gated activations allow the network to additionally weight and inhibit importance of intermediate features like it is done in recurrent neural networks. Dilated convolutions allow increasing receptive field of network’s filters while maintaining small number of trainable parameters. Residual connections are proven to be vital feature for very deep neural networks to prevent gradient degrading and neural networks with residual connections yields best classifications accuracy for image classifications task for now. The proposed neural network is used to classify musical genres, based on pure waveform or mel-frequency cepstral coefficients, which are well known to be good sound representation for speech recognition task.uk
dc.description.abstractruВ статье рассматриваются алгоритмы для автоматического распознавания музыкальных жанров и предлагается использование глубоких сверточных нейронных сетей для этой задачи. Архитектура сети описана и ее качество оценено на реальных данных. Работа выполнена с использованием дата-сета GTANZ. Были рассмотрены задачи классификации для четырех и десяти жанров с использованием мел-кепстральных коэффициентов и аудио волны в качестве признаков. Качество предложенного алгоритма было протестировано на отложенных данных для четырех и десяти разных жанров и сравнено с использованием ограниченной машины Больцмана для четырех жанров.uk
dc.description.abstractukВ статті розглядаються алгоритми для автоматичного розпізнавання музичних жанрів та пропонується використання глибоких згорткових нейронних мереж для цієї задачі. Спираючись на реальні дані, окреслено архітектуру мережі та оцінено її якість. Робота виконана з використанням дата-сету GTZAN. Було розглянуто задачу класифікації для чотирьох та десяти жанрів з використанням мел-кепстральних коефіцієнтів та аудіохвилі в якості ознак. Якість запропонованого алгоритму було протестовано на відкладених даних для чотирьох та десяти різних жанрів та порівняно з використанням обмеженої машини Больцмана для чотирьох жанрів.uk
dc.format.pagerangeС. 45-50uk
dc.identifier.citationДорогий, Я. Ю. Автоматичне розпізнавання музичних жанрів глибокими згортковими нейронними мережами / Дорогий Я. Ю., Цуркан В. В., Хапілін О. С. // Електронна та Акустична Інженерія : науково-технічний журнал. – 2018. – Т. 1, № 1. – С. 45–50. – Бібліогр.: 11 назв.uk
dc.identifier.doihttps://doi.org/10.20535/2617-0965.2018.1.1.105159
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/33621
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/uk
dc.sourceЕлектронна та Акустична Інженерія : науково-технічний журнал, 2018, Т. 1, № 1uk
dc.subjectглибокі нейронні мережіuk
dc.subjectзгорткові мережіuk
dc.subjectпошук музичної інформаціїuk
dc.subjectкласифікаціяuk
dc.subjectdeep neural networksuk
dc.subjectconvolutional networksuk
dc.subjectmusic information retrievaluk
dc.subjectclassificationuk
dc.subjectглубокие нейронные сетиuk
dc.subjectсверточные сетиuk
dc.subjectпоиск музыкальной информацииuk
dc.subjectклассификацияuk
dc.subject.udc004.89uk
dc.titleАвтоматичне розпізнавання музичних жанрів глибокими згортковими нейронними мережамиuk
dc.title.alternativeAutomatic musical genre recognition using deep convolutional neural networksuk
dc.title.alternativeАвтоматическое распознавание музыкальных жанров глубокими сверточными нейронными сетямиuk
dc.typeArticleuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
EAI2018_1-1_p45-50.pdf
Розмір:
558.07 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: