Засоби оптимізації використання обчислювальних ресурсів у операціях машинного навчання

Вантажиться...
Ескіз

Дата

2023

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Актуальність теми. Актуальність теми "Оптимізація використання обчислювальних ресурсів у операціях машинного навчання" не може бути переоцінена у сучасному світі швидкого розвитку технологій. У контексті стрімкого зростання обсягів даних та постійного ускладнення моделей машинного навчання, виникає нагальна потреба в ефективному використанні обчислювальних ресурсів. Оптимізація цих ресурсів є ключовим елементом для досягнення високої продуктивності, точності та економічної ефективності в процесах машинного навчання. З огляду на високі вимоги до обчислювальної потужності, необхідної для тренування та використання моделей машинного навчання, особливо актуальним стає питання оптимізації використання ресурсів для зниження вартості та збільшення ефективності обчислювальних процесів. Ця тема має велике значення для розробників, науковців, а також для комерційних організацій, які шукають способи максимально ефективного використання обчислювальних ресурсів. Враховуючи швидке зростання кількості даних та їх складності, а також постійне оновлення і вдосконалення технологій машинного навчання, оптимізація обчислювальних ресурсів є важливим напрямком у дослідженнях і практичних застосуваннях. Це не тільки сприяє підвищенню ефективності використання технологій, але й відкриває нові можливості для інноваційних рішень у галузі штучного інтелекту та машинного навчання. Об’єктом дослідження є операції машинного навчання. Предметом дослідження є оптимізація використання ресурсів, таких як обсяг сховища, утилізація GPU, кількість мережевого трафіку та швидкодія у операціях машинного навчання Мета роботи: аналіз існуючих програмних та інфраструктурних рішень до навчання моделей; виявлення їх переваг і недоліків; пошук вузьких місць; аналіз використання ресурсів; створення засобів для усунення вад існуючих рішень та покращення продуктивності; дослідження створених засобів у близькому до реального середовищі. Наукова новизна полягає в наступному: 1. Запропоновано стратегію оптимізації управління великими даними в операціях машинного навчання. 2. Розроблено спосіб оптимізації швидкості отримання напівструктурованих даних в операціях машинного навчання. Практична цінність виявляється в кількох ключових аспектах: 1. Покращення ефективності обробки даних: За допомогою оптимізованого управління великими даними забезпечується ефективніша обробка та аналіз даних, що є важливим для швидкого та точного отримання результатів у машинному навчанні. Це особливо важливо для проектів, які обробляють великі обсяги даних. 2. Зменшення часу навчання моделей: Оптимізація швидкості отримання напівструктурованих даних сприяє скороченню часу, необхідного для навчання моделей. Швидке завантаження та обробка даних веде до зниження загального часу витраченого на тренування та тестування моделей. 3. Зниження витрат на обчислювальні ресурси: Ефективне управління великими даними може призвести до зменшення навантаження на обчислювальні системи, що в свою чергу веде до оптимізації витрат. Це включає зменшення потреби у високопродуктивних обчислювальних ресурсах та зниження вартості зберігання даних. 4. Підвищення гнучкості та масштабованості: Запропоновані стратегії дозволяють підвищити гнучкість та масштабованість процесів машинного навчання, забезпечуючи можливість ефективно працювати з різними видами даних та в різних масштабах. 5. Поліпшення якості даних: Оптимізоване управління даними також сприяє підвищенню якості вхідних даних, що є критично важливим для точності моделей машинного навчання. Видалення шумів, непотрібних або дублюючих даних є ключовим для підвищення ефективності тренування моделей. Ці стратегії є надзвичайно важливими для розвитку машинного навчання, оскільки вони сприяють створенню більш потужних, точних та ефективних моделей, які можуть вирішувати складніші завдання з меншими витратами ресурсів. Апробація роботи. Основні положення і результати роботи були представлені та обговорювались на науковій конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» ПМК-2023 (Київ, 28-30 листопада 2023 р.). Структура та обсяг роботи. Магістерська дисертація складається з вступу, трьох розділів та висновків. У вступному розділі магістерської дисертації ретельно розглядається актуальність та важливість оптимізації використання обчислювальних ресурсів у сучасних процесах машинного навчання. Вступ підкреслює, що зі зростанням обсягів даних та складності моделей машинного навчання, ефективне управління обчислювальними ресурсами стає ключовим фактором для досягнення більшої ефективності, точності та економічної вигоди в цій галузі. У вступі також наголошується на зростаючому інтересі до цієї теми у науковій спільноті та необхідності розробки нових підходів та технік для вирішення актуальних викликів. У першому розділі проводиться глибокий аналіз проблематики, пов'язаної з використанням ресурсів у машинному навчанні та їх наслідків. Розділ починається з огляду основних понять, що стосуються операцій машинного навчання, включаючи їх складові, сфери застосування, та роль у економічному розвитку та суспільстві. Далі розглядаються конкретні проблеми, які виникають у процесі використання ресурсів, включаючи інфраструктурні складнощі та виклики, пов'язані з роботою з даними. Особлива увага приділяється аналізу використання ресурсів під час тренування моделей машинного навчання, а також засобам оцінювання та моніторингу цих процесів. Розділ завершується оглядом існуючих рішень для оптимізації використання обчислювальних ресурсів, включаючи апаратні, мережеві та програмні рішення, та розглядає негативні наслідки відсутності оптимізації. У другому розділі детально розглядаються засоби оптимізації, спрямовані на удосконалення процесів управління великими даними та підвищення ефективності отримання напівструктурованих даних. Розділ включає комплексний аналіз стратегій, які можуть бути застосовані для ефективного збереження, обробки та використання великих обсягів даних у машинному навчанні. Особливий акцент робиться на аспектах, які впливають на продуктивність обчислювальних систем, включаючи методи зменшення комунікаційних затримок та підходи до структуризації неструктурованих даних. Також у цьому розділі розглядаються інноваційні стратегії для створення масштабованої інфраструктури та ефективного використання ресурсів під час тренування моделей машинного навчання, що включає аналіз різних технічних та методологічних підходів. У третьому розділі здійснюється аналіз результатів, отриманих від застосування розроблених методів оптимізації. Розділ починається з опису проведених експериментів та методології вимірювання метрик, які використовуються для оцінки ефективності запропонованих рішень. Далі подається детальний опис компонентів та розроблених рішень, які були використані в ході експериментів. У цьому розділі також проводиться глибокий аналіз отриманих результатів, включаючи оцінку ефективності різних стратегій оптимізації. Особлива увага приділяється порівнянню запропонованих підходів із існуючими рішеннями, щоб визначити їх переваги та недоліки. Це включає аналіз впливу оптимізаційних стратегій на швидкість обробки даних, комунікаційні затримки, витрати на обчислювальні ресурси та інші критично важливі параметри. У висновках підсумована важливість та внесок проведеного дослідження в області оптимізації обчислювальних ресурсів машинного навчання. Робота представлена на 87 аркушах, містить посилання на список використаних літературних джерел. Ключові слова: операції машинного навчання, MLOps, великі дані, Big Data.

Опис

Ключові слова

Бібліографічний опис

Марченко, О. Б. Засоби оптимізації використання обчислювальних ресурсів у операціях машинного навчання : магістерська дис. : 123 Комп'ютерна інженерія / Марченко Олександр Борисович. – Київ, 2023. – 85 с.

DOI