Методи та програмні засоби багатовимірної поліноміальної регресії за надлишковим описом на основі побудови одновимірної регресії з використанням ортогональних поліномів Форсайта

dc.contributor.advisorПавлов, Олександр Анатолійович
dc.contributor.authorГоловченко, Максим Миколайович
dc.date.accessioned2024-02-19T09:44:25Z
dc.date.available2024-02-19T09:44:25Z
dc.date.issued2023
dc.description.abstractГоловченко М.М. Методи та програмні засоби багатовимірної поліноміальної регресії за надлишковим описом на основі побудови одновимірної регресії з використанням ортогональних поліномів Форсайта. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 121 – Інженерія програмного забезпечення з галузі знань 12 – Інформаційні технології. – Національний Технічний Університет України «Київський Політехнічний Інститут імені Ігоря Сікорського», Київ, 2023. Дисертаційна робота присвячена розробці універсального синтетичного методу оцінок коефіцієнтів багатовимірної поліноміальної регресії, заданої надлишковим описом та створенням оригінальних програмних засобів, що ефективно реалізують цей метод. У процесі розробки та дослідження ефективності синтетичного методу були отримані такі результати. Вперше розроблено синтетичний метод побудови багатовимірної поліноміальної регресії, заданої надлишковим описом, що відрізняється від існуючих тим, що органічно поєднує риси класичного методу (теоретично обґрунтовані випадки, в яких оцінка коефіцієнтів при нелінійних членах знаходиться з заданою точністю) з ефективністю евристичних методів (знаходження структури регресії з використанням перевірочної послідовності в модифікованому методі групового урахування аргументів, що входить в склад синтетичного методу), а також включає в себе метод побудови одновимірної поліноміальної регресії на основі довільного повторного активного експерименту з використанням лише одного набору нормованих ортогональних поліномів Форсайта, декомпозиційний метод оцінки коефіцієнтів при нелінійних членах багатовимірної поліноміальної регресії з наперед заданою точністю, що багатовимірну задачу зводить до послідовної побудови відповідних одновимірних поліноміальних регресій. Вперше обґрунтовано можливість знаходження нормованих ортогональних поліномів Форсайта з наперед заданою точністю, яка досягається за рахунок представлення даних у вигляді раціональних дробів та застосування до них символьних обчислень, що дозволяє отримати оцінки коефіцієнтів при нелінійних членах багатовимірної поліноміальної регресії, значення яких відповідають теоретично виведеним умовам. Вперше приведено теоретичне обґрунтування зменшення обчислювальної складності програмного забезпечення реалізації методу найменших квадратів на основі повторних експериментів, що полягає в заміні операцій з матрицями повного активного експерименту операціями з матрицями основного експерименту суттєво меншої розмірності. Вперше запропоновано архітектуру кросплатформної бібліотеки для реалізації синтетичного методу та його складових, яка дозволяє використовувати її компоненти, як окремо, так і в цілому для розв'язання прикладних задач побудови регресійних моделей. Проведено дослідження ефективності алгоритмів, що реалізують операції з матрицями в методі найменших квадратів, зокрема обґрунтовано можливість використання паралельних обчислень. Розглядаються матричні операції, які входять у формулу для знаходження оцінок коефіцієнтів багатовимірної поліноміальної регресії методом найменших квадратів як складової модифікованого методу групового урахування аргументів та можуть виконуватись ефективніше при застосуванні паралельних обчислень. Було виконано дослідження ефективності алгоритмів множення матриць та обернення матриць, як складових задачі знаходження оцінок коефіцієнтів багатовимірної поліноміальної регресії модифікованим методом групового урахування аргументів. Це дослідження ефективності алгоритмів виконувалось шляхом реалізації алгоритмів на базі 8-ми ядерного мікропроцесора Apple M1 та фіксації часу роботи різних алгоритмів для фіксованої кількості потоків та квадратних матриць заданої розмірності. Приведено обґрунтування можливості розпаралелювання обчислень в модифікованому методі групового урахування аргументів для знаходження оцінок коефіцієнтів часткових описів та залишкових сум квадратів. Реалізовано кросплатформну бібліотеку та її програмний інтерфейс для побудови регресійних моделей. Так, для користувачів, які володіють базовими навичками у області програмування і статистичного аналізу та бажають отримати розв’язок задачі побудови багатовимірної поліноміальної регресії достатньо у автоматизованому режимі підключити кросплатформну бібліотеку у власний застосунок та передати у її функції бібліотеки вхідні дані. В цьому випадку функції кросплатформної бібліотеки аналізують надлишковий опис і визначають, що він відноситься до класу, у якому всі лінійні системи мають лише одну змінну, якщо це не так, то задача розв’язується повністю модифікованим методом групового урахування аргументів. У протилежному випадку, програма аналізує можливості декомпозиційного методу та видає вимоги для проведення відповідної кількості повторних активних експериментів для побудови одновимірних поліноміальних регресій та множину коефіцієнтів, які будуть оцінені. Далі формується багатовимірна поліноміальна регресія задана надлишковим описом, яка буде розв’язана модифікованим методом групового урахування аргументів. Для користувачів, які володіють розширеними навичками у області програмування і статистичного аналізу та бажають отримати розв’язок задачі побудови багатовимірної поліноміальної регресії, повинні ознайомитись з детальною інструкцією по роботі з кросплатформною бібліотекою, у якій описані теоретичні положення та практичні рекомендації з використання синтетичного методу. Далі користувачі за допомогою функцій кросплатформної бібліотеки у частині декомпозиційного методу можуть запрограмувати індивідуальний алгоритм розв’язку задачі на основі теоретичних положень синтетичного методу. У частині модифікованого методу групового урахування аргументів все залишається без змін. За результатами виконання синтетичного методу користувачу буде виданий кінцевий результат, який містить структуру багатовимірної поліноміальної регресії, знайдені декомпозиційним методом оцінки коефіцієнтів багатовимірної поліноміальної регресії та їх дисперсії та оцінки коефіцієнтів багатовимірної поліноміальної регресії з оцінками їх дисперсій, знайдені за допомогою модифікованого методу групового урахування аргументів, з оцінкою результатів – має високу ступінь достовірності; задовільну ступінь достовірності; результат недостовірний. При розробці кросплатформної бібліотеки, що реалізує синтетичний метод, використовувались такі допоміжні засоби. В якості мови реалізації кросплатформної бібліотеки була обрана Python, оскільки дана мова програмування краще за інші підходить для реалізації data science та статистичних методів обробки даних. Крім того для мови Python існує великий набір високорівневих фреймворків різного призначення та програмних бібліотек, які можна використовувати у якості допоміжних засобів при розробці. Середовищем розробки кросплатформної бібліотеки було обрано IntelliJ IDEA через наявність безкоштовної експрес-версії та зручність встановлення допоміжних програмних пакетів та бібліотек. У якості архітектури кросплатформної бібліотеки було використано монолітну архітектуру, оскільки решта архітектур програмного забезпечення – багаторівнева, клієнт-серверна, мікросервісна, сервісно-орієнтована – не рекомендується для використання при розробці такого роду програмного забезпечення. Внутрішня логіка бібліотеки побудована з використанням компонентно-орієнтованого підходу, так як даний підхід добре себе зарекомендував при розробці програмного забезпечення цільового призначення, що використовується при розробці цільового прикладного програмного забезпечення. В якості пакету для паралельної реалізації деяких підалгоритмів було використано multiprocessing, а для реалізації символьних обчислень було використано бібліотеку SymPy. Для розгортання кросплатформної бібліотеки було використано систему управління пакетами pip. Це універсальна, зручна і найбільш популярна система управління пакетами, написаними для мови програмування Python. В результаті розгортання користувачі зможуть завантажувати і встановлювати бібліотеку для своїх потреб командою pip install regression_lib_mpr у своєму середовищі розробки. Дисертаційна робота складається зі вступу, чотирьох розділів, загальних висновків, списку використаних джерел із 84 найменувань на дев’яти сторінках та чотирьох додатків. Загальний обсяг дисертації становить 185 сторінок, з яких 128 сторінок основного тексту, містить 23 рисунки та 24 таблиці.
dc.description.abstractotherHolovchenko M.M. Methods and software tools for constructing a multivariate polynomial regression from a redundant representation based on the construction of univariate regression using orthogonal polynomials of Forsythe. Qualifying scientific work is presented on the rights of the manuscript. The philosophy doctor thesis is carried out in specialty 121 – Software Engineering, of the knowledge field 12 – Information Technologies. – National Technical University of Ukraine “Kyiv Polytechnic Institute”, Ministry of Education and Science of Ukraine, Kyiv, 2023. The thesis is devoted to the development of a universal synthetic method of estimating the coefficients of a multivariate polynomial regression given by a redundant representation and to the creation of original software tools that effectively implement this method. In the process of developing and researching the efficiency of the synthetic method, the following results were obtained. For the first time, a synthetic method of constructing a multivariate polynomial regression given by a redundant representation is developed. The method differs from the existing ones in that it organically combines the features of the classical method (theoretically substantiated cases in which the estimates of the coefficients at nonlinear terms are found with a given accuracy) with the efficiency of heuristic methods (finding the regression structure using a test sequence in the modified Group Method of Data Handling included in the synthetic method). The synthetic method also includes a method of constructing a univariate polynomial regression based on an arbitrary repeated active experiment using only a single set of normalized orthogonal polynomials of Forsythe, a decomposition method for estimating coefficients at nonlinear terms of the multivariate polynomial regression with predetermined accuracy that reduces the multivariate problem to the sequential construction of the corresponding univariate polynomial regressions. For the first time, the possibility of finding normalized orthogonal polynomials of Forsythe with a predetermined accuracy is substantiated. The accuracy is achieved by presenting data in the form of rational fractions and applying symbolic calculations to them. This makes it possible to estimate the coefficients at nonlinear terms of a multivariate polynomial regression, the values of which correspond to the theoretically derived conditions. For the first time, the theoretical substantiation is presented for reducing the computational complexity of the software that implements the least squares method based on repeated experiments. The reduction consists in replacing operations with matrices of the full active experiment by operations with matrices of the main experiment that are significantly smaller in dimensions. For the first time, the architecture of the cross-platform library for implementation of the synthetic method and its components is proposed. The library allows using its components, both individually and as a whole, to solve applied problems of regression models building. A study of the efficiency of algorithms that implement operations with matrices in the least squares method was conducted. In particular, the possibility of using parallel calculations was substantiated. Have been considered matrix operations included in the formula for finding estimates of the coefficients of a multivariate polynomial regression using the least squares method as a component of the Modified Group Method of Data Handling and can be performed more efficiently when using parallel calculations. A study of the efficiency of matrix multiplication and matrix inversion algorithms was conducted as they are components of the problem of a multivariate polynomial regression coefficients estimation using the Modified Group Method of Data Handling. The study was performed by implementing the algorithms based on an 8-core Apple M1 microprocessor and fixing the operating time of various algorithms for a fixed number of threads and square matrices of a given dimension. The substantiation for the possibility of parallelizing calculations in the Modified Group Method of Data Handling is given for the case of estimating the coefficients of partial representations and residual sums of squares. A cross-platform library and its software interface for constructing regression models have been implemented. Thus, for users who have basic skills in the field of programming and statistical analysis and want to get a solution to the problem of constructing a multivariate polynomial regression, it is enough to automatically connect the cross-platform library to their own application and transfer the input data to the library’s functions. In this case, the functions of the cross-platform library analyze the redundant representation and determine if it belongs to the class in which all linear systems have only a single variable. If this is not the case, then the problem is solved completely with the Modified Group Method of Data Handling. In the opposite case, the program analyzes the possibilities of the decomposition method and issues requirements for conducting the appropriate number of repeated active experiments to construct univariate polynomial regressions and the set of coefficients to be estimated. Next, a multivariate polynomial regression given by the redundant representation is formed, it will be solved by the Modified Group Method of Data Handling. For users who have advanced skills in programming and statistical analysis and wish to obtain a solution to the problem of the multivariate polynomial regression construction, they should read the detailed instructions for working with the cross-platform library, which describe the theoretical provisions and practical recommendations for using the synthetic method. Further, with the help of the cross-platform library functions in the decomposition method part, users can program an individual algorithm for the problem solving based on the theoretical provisions of the synthetic method. In the part of the Modified Group Method of Data Handling, everything remains unchanged. According to the results of the synthetic method, the user will be given the final result containing the structure of the multivariate polynomial regression, the estimates of the coefficients of the multivariate polynomial regression and their variances found by the decomposition method, and the estimates of the coefficients of the multivariate polynomial regression with the estimates of their variances found using the Modified Group Method of Data Handling, with the results evaluation: has a high degree of reliability; has a satisfactory degree of reliability; the result is unreliable. When developing a cross-platform library that implements the synthetic method, the following tools were used. Python was chosen as the implementation language of the cross-platform library, because this programming language is better than others for implementing data science and statistical methods of data processing. In addition, for the Python language, there is a large set of high-level frameworks for various purposes and software libraries that can be used as software development tools. IntelliJ IDEA was chosen as the cross-platform library development environment due to the availability of a free express version and the convenience of installing pre-intermediate software packages and libraries. A monolithic architecture was used as the architecture of the cross-platform library, since the rest of the software architectures – multi-level, client-server, microservice, serviceoriented – are not recommended for use in the development of this kind of software. The internal logic of the library is built using a component-oriented approach, as this approach has proven itself well in the development of target software, which is used in the development of target application software. Multiprocessing was used as a package for the parallel computing implementation of some sub-algorithms, and the SymPy library was used to implement symbolic computing. The package installer pip was used to deploy the cross-platform library. It is a universal, convenient, and most popular package management system written for the Python programming language. As a result of the deployment, users will be able to download and install the library for their needs with the pip install regression_lib_mpr command in their development environment. The thesis consists of an introduction, four chapters, general conclusions, the reference list with 84 references on nine pages, and four appendices. The total volume of the thesis is 185 pages, of which 128 pages are the main text, contains 23 figures and 24 tables.
dc.format.extent185 с.
dc.identifier.citationГоловченко, М. М. Методи та програмні засоби багатовимірної поліноміальної регресії за надлишковим описом на основі побудови одновимірної регресії з використанням ортогональних поліномів Форсайта : дис. … д-ра філософії : 121 Інженерія програмного забезпечення / Головченко Максим Миколайович. – Київ, 2023. – 185 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/64675
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectбагатовимірна поліноміальна регресія
dc.subjectматематичні моделі об’єктів
dc.subjectідентифікація
dc.subjectнейронні мережі
dc.subjectінтелектуальний аналіз
dc.subjectефективність алгоритмів
dc.subjectоптимізація
dc.subjectалгоритми моделювання
dc.subjectрозробка програмного забезпечення
dc.subjectзасоби розробки
dc.subjectпрограмні бібліотеки
dc.subjectпаралельні обчислення
dc.subjectбагатопоточність
dc.subjectсимвольні обчислення
dc.subjectmultivariate polynomial regression
dc.subjectmathematical models of objects
dc.subjectidentification
dc.subjectneural networks
dc.subjectintelligent analysis
dc.subjectefficiency of algorithms
dc.subjectoptimization
dc.subjectmodeling algorithms
dc.subjectsoftware development
dc.subjectsoftware tools
dc.subjectsoftware libraries
dc.subjectparallel computing
dc.subjectmultithreading
dc.subjectsymbolic computing
dc.subject.udc004.42:519.237
dc.titleМетоди та програмні засоби багатовимірної поліноміальної регресії за надлишковим описом на основі побудови одновимірної регресії з використанням ортогональних поліномів Форсайта
dc.typeThesis Doctoral

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Holovchenko_dys.pdf
Розмір:
2.97 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: