Розподілене глибинне навчання для інтелектуального аналізу відео

Вантажиться...
Ескіз

Дата

2018

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Загальний обсяг роботи: 127 сторінки, 19 ілюстрацій, 26 таблиць, перелік посилань із 57 найменувань, 1 додаток на 4 сторінках. Актуальність теми. Галузь аналізу графічних даних, і зокрема відео, стрімко розвивається, і є великий попит на їх автоматичний аналіз у галузях робототехніки, безпеки, модерації користувацького контенту тощо. Ці застосування вимагають розробки моделей машинного навчання, які повинні бути точними, стійкими до шуму та цілеспрямованих атак, та дозволяти виконувати їх розподілене навчання. Машинний аналіз відео є порівняно маловивченою галуззю через значну складність розпізнавання відео та необхідність виконання великої кількості обчислень. Однією з найважливіших задач аналізу відео є класифікація, і наразі наявно декілька підходів, які потребують дослідження та подальшого розвитку. Мета та задачі дослідження. Метою даної роботи є пошук шляхів удосконалення існуючих рішень аналізу відео із застосуванням нових або маловивчених підходів. Задачею дослідження є реалізація моделі машинного навчання для класифікації відео, що досягає кращих результатів, є більш ефективною, або має інші переваги перед відомими методами. Вирішення поставлених завдань та досягнуті результати. Було запропоновано архітектуру багатопотокової моделі для класифікації відео, що використовує двовимірні згорткові та рекурентні нейронні мережі, та враховує оптичні потоки і звукову доріжку. Окрім високої точності класифікації та ефективності, модель дозволяє обчислювати компактні представлення відео, що можуть застосовуватися як ознаки на вході інших моделей, для стиснення даних тощо. Як приклад застосування цих представлень було описано їх використання для виявлення аномалій. Модель було випробувано на наборі даних, що зображає людські дії. Також було проведено експеримент із її розподіленого навчання. Об’єкт дослідження. Згорткові та рекурентні нейромережі для класифікації відео. Предмет дослідження. Методи машинного навчання для аналізу відео, зокрема виконання класифікації. Методи дослідження. Досліджуються та застосовуються двовимірні та тривимірні згорткові, а також рекурентні нейронні мережі. Для передобробки даних і виділення ознак використовуються алгоритми обчислення оптичного потоку та частотного аналізу звукової доріжки. Розроблене рішення використовує сучасні моделі машинного навчання та підходи до розробки їх архітектур; методи та техніки навчання, покращення точності та стійкості; а також бібліотеки для їх реалізації та розподіленого тренування. Наукова новизна. Було запропоновано архітектуру моделі для класифікації відео, яка поглиблює використання ідей вивчення представлень та передавального навчання, тим самим усуваючи важливі недоліки існуючих рішень. Також було запропоновано методи вдосконалення навчання, точності та інтерпретації цієї моделі, зокрема, метод адаптивної вибірки тренувальних прикладів з урахуванням кількості інформації в сегменті відео відповідно до оптичних потоків між кадрами. Розроблена модель виконує класифікацію за вектором представлення відео, що характеризує всі потоки, за допомогою окремої моделі синтезу. Вона досягає кращих результатів класифікації, аніж відомі моделі з подібною архітектурою, і при цьому більш ефективно використовує тренувальні дані та обчислювальні ресурси. Практичне значення одержаних результатів. Розроблена модель дозволяє виконувати класифікацію, а також отримувати компактні вектори представлення відео, на основі яких може реалізовуватися вирішення інших задач, у тому числі більш високорівневих, які можуть виникати при розробці різноманітних автономних та автоматизованих методів аналізу графічних даних і керування системами.

Опис

Ключові слова

машинне навчання, нейронні мережі, класифікація відео, сенсорний синтез, згорткові нейронні мережі, рекурентні нейронні мережі, оптичний потік, вивчення представлень, передавальне навчання, розподілене тренування, distributed training, transfer learning, representation learning, optical flow, recurrent neural networks, convolutional neural networks, sensor fusion, video classification, neural networks, machine learning

Бібліографічний опис

Ткаченко, Д. А. Розподілене глибинне навчання для інтелектуального аналізу відео : магістерська дис. : 122 Комп’ютерні науки та інформаційні технології (Системне проектування сервісів) / Ткаченко Дмитро Анатолійович. – Київ, 2018. – 127 с.

ORCID

DOI