Методи та програмні засоби багатовимірної поліноміальної регресії за надлишковим описом на основі побудови одновимірної регресії з використанням ортогональних поліномів Форсайта
Вантажиться...
Дата
2023
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Головченко М.М. Методи та програмні засоби багатовимірної поліноміальної регресії за надлишковим описом на основі побудови одновимірної регресії з використанням ортогональних поліномів Форсайта. – Кваліфікаційна наукова праця на правах рукопису.
Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 121 – Інженерія програмного забезпечення з галузі знань 12 – Інформаційні технології. – Національний Технічний Університет України «Київський Політехнічний Інститут імені Ігоря Сікорського», Київ, 2023.
Дисертаційна робота присвячена розробці універсального синтетичного методу оцінок коефіцієнтів багатовимірної поліноміальної регресії, заданої надлишковим описом та створенням оригінальних програмних засобів, що ефективно реалізують цей метод. У процесі розробки та дослідження ефективності синтетичного методу були отримані такі результати. Вперше розроблено синтетичний метод побудови багатовимірної поліноміальної регресії, заданої надлишковим описом, що відрізняється від існуючих тим, що органічно поєднує риси класичного методу (теоретично обґрунтовані випадки, в яких оцінка коефіцієнтів при нелінійних членах знаходиться з заданою точністю) з ефективністю евристичних методів (знаходження структури регресії з використанням перевірочної послідовності в модифікованому методі групового урахування аргументів, що входить в склад синтетичного методу), а також включає в себе метод побудови одновимірної поліноміальної регресії на основі довільного повторного активного експерименту з використанням лише одного набору нормованих ортогональних поліномів Форсайта, декомпозиційний метод оцінки коефіцієнтів при нелінійних членах багатовимірної поліноміальної регресії з наперед заданою точністю, що багатовимірну задачу зводить до послідовної побудови відповідних одновимірних поліноміальних регресій. Вперше обґрунтовано можливість знаходження нормованих ортогональних поліномів Форсайта з наперед заданою точністю, яка досягається за рахунок представлення даних у вигляді раціональних дробів та застосування до них символьних обчислень, що дозволяє отримати оцінки коефіцієнтів при нелінійних членах багатовимірної поліноміальної регресії, значення яких відповідають теоретично виведеним умовам. Вперше приведено теоретичне обґрунтування зменшення обчислювальної складності програмного забезпечення реалізації методу найменших квадратів на основі повторних експериментів, що полягає в заміні операцій з матрицями повного активного експерименту операціями з матрицями основного експерименту суттєво меншої розмірності. Вперше запропоновано архітектуру кросплатформної бібліотеки для реалізації синтетичного методу та його складових, яка дозволяє використовувати її компоненти, як окремо, так і в цілому для розв'язання прикладних задач побудови регресійних моделей. Проведено дослідження ефективності алгоритмів, що реалізують операції з матрицями в методі найменших квадратів, зокрема обґрунтовано можливість використання паралельних обчислень. Розглядаються матричні операції, які входять у формулу для знаходження оцінок коефіцієнтів багатовимірної поліноміальної регресії методом найменших квадратів як складової модифікованого методу групового урахування аргументів та можуть виконуватись ефективніше при застосуванні паралельних обчислень. Було виконано дослідження ефективності алгоритмів множення матриць та обернення матриць, як складових задачі знаходження оцінок коефіцієнтів багатовимірної поліноміальної регресії модифікованим методом групового урахування аргументів. Це дослідження ефективності алгоритмів виконувалось шляхом реалізації алгоритмів на базі 8-ми ядерного мікропроцесора Apple M1 та фіксації часу роботи різних алгоритмів для фіксованої кількості потоків та квадратних матриць заданої розмірності. Приведено обґрунтування можливості розпаралелювання обчислень в модифікованому методі групового урахування аргументів для знаходження оцінок коефіцієнтів часткових описів та залишкових сум квадратів. Реалізовано кросплатформну бібліотеку та її програмний інтерфейс для побудови регресійних моделей. Так, для користувачів, які володіють базовими навичками у області програмування і статистичного аналізу та бажають отримати розв’язок задачі побудови багатовимірної поліноміальної регресії достатньо у автоматизованому режимі підключити кросплатформну бібліотеку у власний застосунок та передати у її функції бібліотеки вхідні дані. В цьому випадку функції кросплатформної бібліотеки аналізують надлишковий опис і визначають, що він відноситься до класу, у якому всі лінійні системи мають лише одну змінну, якщо це не так, то задача розв’язується повністю модифікованим методом групового урахування аргументів. У протилежному випадку, програма аналізує можливості декомпозиційного методу та видає вимоги для проведення відповідної кількості повторних активних експериментів для побудови одновимірних поліноміальних регресій та множину коефіцієнтів, які будуть оцінені. Далі формується багатовимірна поліноміальна регресія задана надлишковим описом, яка буде розв’язана модифікованим методом групового урахування аргументів. Для користувачів, які володіють розширеними навичками у області програмування і статистичного аналізу та бажають отримати розв’язок задачі побудови багатовимірної поліноміальної регресії, повинні ознайомитись з детальною інструкцією по роботі з кросплатформною бібліотекою, у якій описані теоретичні положення та практичні рекомендації з використання синтетичного методу. Далі користувачі за допомогою функцій кросплатформної бібліотеки у частині декомпозиційного методу можуть запрограмувати індивідуальний алгоритм розв’язку задачі на основі теоретичних положень синтетичного методу. У частині модифікованого методу групового урахування аргументів все залишається без змін. За результатами виконання синтетичного методу користувачу буде виданий кінцевий результат, який містить структуру багатовимірної поліноміальної регресії, знайдені декомпозиційним методом оцінки коефіцієнтів багатовимірної поліноміальної регресії та їх дисперсії та оцінки коефіцієнтів багатовимірної поліноміальної регресії з оцінками їх дисперсій, знайдені за допомогою модифікованого методу групового урахування аргументів, з оцінкою результатів – має високу ступінь достовірності; задовільну ступінь достовірності; результат недостовірний. При розробці кросплатформної бібліотеки, що реалізує синтетичний метод, використовувались такі допоміжні засоби. В якості мови реалізації кросплатформної бібліотеки була обрана Python, оскільки дана мова програмування краще за інші підходить для реалізації data science та статистичних методів обробки даних. Крім того для мови Python існує великий набір високорівневих фреймворків різного призначення та програмних бібліотек, які можна використовувати у якості допоміжних засобів при розробці. Середовищем розробки кросплатформної бібліотеки було обрано IntelliJ IDEA через наявність безкоштовної експрес-версії та зручність встановлення допоміжних програмних пакетів та бібліотек. У якості архітектури кросплатформної бібліотеки було використано монолітну архітектуру, оскільки решта архітектур програмного забезпечення – багаторівнева, клієнт-серверна, мікросервісна, сервісно-орієнтована – не рекомендується для використання при розробці такого роду програмного забезпечення. Внутрішня логіка бібліотеки побудована з використанням компонентно-орієнтованого підходу, так як даний підхід добре себе зарекомендував при розробці програмного забезпечення цільового призначення, що використовується при розробці цільового прикладного програмного забезпечення. В якості пакету для паралельної реалізації деяких підалгоритмів було використано multiprocessing, а для реалізації символьних обчислень було використано бібліотеку SymPy. Для розгортання кросплатформної бібліотеки було використано систему управління пакетами pip. Це універсальна, зручна і найбільш популярна система управління пакетами, написаними для мови програмування Python. В результаті розгортання користувачі зможуть завантажувати і встановлювати бібліотеку для своїх потреб командою pip install regression_lib_mpr у своєму середовищі розробки. Дисертаційна робота складається зі вступу, чотирьох розділів, загальних висновків, списку використаних джерел із 84 найменувань на дев’яти сторінках та чотирьох додатків. Загальний обсяг дисертації становить 185 сторінок, з яких 128 сторінок основного тексту, містить 23 рисунки та 24 таблиці.
Опис
Ключові слова
багатовимірна поліноміальна регресія, математичні моделі об’єктів, ідентифікація, нейронні мережі, інтелектуальний аналіз, ефективність алгоритмів, оптимізація, алгоритми моделювання, розробка програмного забезпечення, засоби розробки, програмні бібліотеки, паралельні обчислення, багатопоточність, символьні обчислення, multivariate polynomial regression, mathematical models of objects, identification, neural networks, intelligent analysis, efficiency of algorithms, optimization, modeling algorithms, software development, software tools, software libraries, parallel computing, multithreading, symbolic computing
Бібліографічний опис
Головченко, М. М. Методи та програмні засоби багатовимірної поліноміальної регресії за надлишковим описом на основі побудови одновимірної регресії з використанням ортогональних поліномів Форсайта : дис. … д-ра філософії : 121 Інженерія програмного забезпечення / Головченко Максим Миколайович. – Київ, 2023. – 185 с.