Моделі і методи інтелектуального аналізу даних для прогнозування нелінійних нестаціонарних процесів

dc.contributor.advisorБідюк, Петро Іванович
dc.contributor.authorБелас, Андрій Олегович
dc.date.accessioned2023-02-23T13:52:48Z
dc.date.available2023-02-23T13:52:48Z
dc.date.issued2022
dc.description.abstractenBelas A. Models and methods of intellectual data analysis for forecasting nonlinear nonstationary processes. − Qualifying scientific work, the manuscript. PhD thesis in the field of knowledge 12 Information Technology in specialty 122 Computer Science. – National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Kyiv, 2022. Nonlinear nonstationary processes, represented in the form of time series data, can describe the dynamics of processes in technical, economic, and other systems and have numerous applications in various industries. The task of modeling and forecasting nonlinear nonstationary financial and economic processes is critically important for every enterprise engaged in trading or investment activities since it is an integral part of procurement planning, resource usage, and strategic decision-making. Now approaches to solving this problem using intellectual data analysis or machine learning are in a state of active research, and there is no generally accepted methodology for their practical implementation. The aim of the thesis is to increase the adequacy of models of nonlinear nonstationary financial and economic processes and the accuracy of forecasts of their development by applying modern methods of intellectual data analysis and combining them with regression models. In the thesis the following new scientific results were obtained: 1. For the first time, a general methodology for modeling and forecasting nonlinear nonstationary processes based on mathematical models of intellectual data analysis using statistical data was proposed, formulated, and described, including a criterion base, methods of data processing and preparation for modeling and forecasting, which is the basis for creating a decision support system for the analysis of nonlinear nonstationary processes. 2. For the first time, a method of building models of nonlinear processes is proposed, which is characterized by the use of separate procedures for optimizing the structure of linear and nonlinear components of the model with their subsequent additive combination into a single model, which ensures an increase in the adequacy of the model and the accuracy of forecast estimates as a whole. 3. For the first time, the use of new models for the selected type of processes and their modifications based on the methods of intellectual data analysis, namely convolutional neural networks, was proposed for the formal description and forecasting of NNP, and corresponding new models and forecasts were built. 4. The existing approach using classical statistical models based on the regression approach has been improved by combining them with methods of intellectual data analysis; 5. The method of estimating the parameters of linear models for adaptation based on the Monte Carlo method for Markov chains has been improved. The results of the work are implemented and were used in the educational process of the Institute for Applied System Analysis at the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute". All the results of the dissertation research were brought to a high practical engineering level and implemented in JSC "FUIB" in order to improve decisionmaking processes and build development strategies. A decision-making support system has been created, which is built on the basis of forecast assessments using the developed general methodology using methods of intellectual data analysis. With the help of the developed system and methodology, FUIB specialists build models and forecasts for financial and economic processes based on the analysis of econometric data that the bank has in its systems. All theoretical and practical results of the dissertation work have been fully published in specialized domestic and foreign scientific publications that are included in the corresponding established list, and they have also been properly approved at international scientific conferences and seminars. In the dissertation study, the problem of increasing the adequacy of mathematical models of nonlinear nonstationary financial and economic processes and the accuracy of corresponding forecasts is solved by applying modern methods of intellectual data analysis to statistical data presented in the form of time series. In the work, the classes of nonlinear nonstationary processes used for modeling and forecasting was selected, considered, and described, as well as a description of mathematical models and approaches that are used to describe their dynamics based on statistical data in the form of time series. Types of processes are selected for research, such as integrated, heteroskedastic processes, Levy processes, processes with a stochastic trend, and logistic-type processes. In the work, a class of financial and economic processes was selected, and the problem of their forecasting was formulated. However, the developed methodology can be applied in other systems (technical, medical, etc.) with the corresponding defined dynamics. For forecasting, the approach of predictive analytics using methods of machine learning is considered. The methodological basis of the work is the modern analytical methodology of SEMMA. Collected statistical data for experiments based on sales of the Walmart store, sales of antidiabetic drugs in Australia, and sales of fuel in the USA to apply the developed methodology to real statistical data. For exploratory data analysis, statistical and graphical analysis approaches, as well as statistical tests for determining process nonlinearity and nonstationarity were proposed: White's test for nonlinearity and KPSS test for nonstationarity were chosen as the main ones. Methods for the detection and processing of anomalies and missing values were considered. To extract the noise component from the time series, the Kalman filter and the exponential smoothing method were considered. Digital filtering approaches should be used carefully, not always as a necessary stage of the model building process, but as a possible option, necessarily checking at the end of the modeling process the quality of the obtained forecasts with and without the use of preliminary filtering. The thesis proposes a method of building models of nonlinear processes, which is distinguished by the use of separate procedures for optimizing the structure of linear and nonlinear components of the model with their subsequent additive combination into a single model, which ensures an increase in the adequacy of the model and the accuracy of forecasts in general. Different methods of combining estimates of forecasts of different models were considered, and the boosting method was chosen as the main one for use in the work. An approach for the selection and modeling of the linear component of the process based on regression models was described, as well as an approach for using the obtained AR model to form forecast estimates, criterion for assessing the adequacy of the obtained models, such as BIC, was considered and selected. A criterion base based on the MSE, MAE, and RMSLE was built to assess the quality of forecasts. To describe the nonlinear component, an autoregressive approach based on ARIMA, with an algorithm for automatic model building, as well as approaches based on recurrent (RNN) and convolutional (CNN) neural networks were considered, and their advantages and disadvantages were analyzed. For neural networks, approaches to optimization of model parameters were analyzed, and the Adam algorithm was proposed as the most effective. Different approaches for multistep forecasting using neural networks were considered, and the approach using multi-output networks was chosen as the main one. The need for adaptive construction of models for forecasting nonlinear nonstationary processes, the main principles of adaptation of such models were considered. Appropriate approaches to adaptation for both linear models and neural networks were considered. To adapt linear models, the parameter estimation method based on the Monte Carlo method for Markov chains has been improved. A comparative analysis of the obtained forecasts with the results of the use of known approaches and methods was carried out. According to the results of all practical experiments, it was shown that the use of the developed AR-CNN approach allows for obtaining adequate models and accurate forecasts with relative ease of construction and small computational losses.uk
dc.description.abstractukБелас А. О. Моделі і методи інтелектуального аналізу даних для прогнозування нелінійних нестаціонарних процесів. - Кваліфікаційна праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії з галузі знань 12 Інформаційні технології за спеціальністю 122 Комп’ютерні науки. – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2022. Нелінійні нестаціонарні процеси, представлені у вигляді часових рядів, можуть описувати динаміку процесів в технічних, економічних та інших системах та мати численні застосування в різних галузях. Задача моделювання та прогнозування нелінійних нестаціонарних фінансово-економічних процесів є критично важливою для кожного підприємства, що здійснює торгівельну або інвестиційну діяльність, оскільки є невід’ємною частиною планування закупівель, використання ресурсів, прийняття стратегічних рішень. На сьогодні підходи до вирішення поставленої задачі методами інтелектуального аналізу даних перебувають у стані активного дослідження, а загальноприйнятої методики їх практичного застосування немає. Метою дисертаційного дослідження є підвищення адекватності моделей нелінійних нестаціонарних фінансово-економічних процесів і точності прогнозів їх розвитку шляхом застосування сучасних методів інтелектуального аналізу даних та їх комбінуванням з регресійними моделями. В дисертації отримані такі наукові результати: 1. Вперше запропоновано, сформульовано і описано загальну методику для моделювання і прогнозування нелінійних нестаціонарних процесів на основі математичних моделей інтелектуального аналізу даних з використанням статистичних даних, в тому числі критеріальну базу, методи обробки і підготовки даних до моделювання і прогнозування, що є основою для створення системи підтримки прийняття рішень для аналізу нелінійних нестаціонарних процесів. 2. Вперше запропоновано метод побудови моделей нелінійних процесів, який відрізняється застосуванням окремих процедур для оптимізації структури лінійної та нелінійної складових моделі з їх наступним адитивним об’єднанням в єдину модель, що забезпечує підвищення адекватності моделі і точності оцінок прогнозів у цілому. 3. Вперше запропоновано використання нових для вибраного типу процесів моделей та їх модифікацій на основі методів інтелектуального аналізу даних, а саме згорткових нейронних мереж, для формального опису і прогнозування ННП, побудовано відповідні нові моделі та прогнози. 4. Удосконалено існуючий підхід з використанням класичних статистичних моделей на основі регресійного підходу шляхом комбінування їх з методами інтелектуального аналізу даних; 5. Удосконалено метод оцінювання параметрів лінійних моделей для адаптації на основі методу Монте-Карло для марківських ланцюгів. Практична цінність дисертаційної роботи полягає в тому, що: розроблено моделі і методи інтелектуального аналізу даних для прогнозування нелінійних нестаціонарних процесів. Результати роботи впроваджено у навчальний процес інституту прикладного системного аналізу НТУУ «КПІ імені Ігоря Сікорського». Всі результати дисертаційного дослідження доведено до високого практичного інженерного рівня та впроваджено у АТ «ПУМБ» з метою покращення процесів прийняття рішень та побудови стратегій розвитку. Створено систему підтримки прийняття рішень, що побудована на основі оцінок прогнозів за допомогою розробленої загальної методики з використанням методів інтелектуального аналізу даних. За допомогою розробленої системи і методики фахівці ПУМБ будують моделі і прогнози для фінансово-економічних процесів на основі аналізу економетричних даних, якими володіє банк в своїх системах. Всі теоретичні і практичні результати дисертаційної роботи у повній мірі опубліковано у фахових вітчизняних та закордонних наукових виданнях, що входять до відповідного встановленого переліку, а також виконано їх належну апробацію на міжнародних наукових конференціях і семінарах. У дисертаційному дослідженні розв’язана задача підвищення адекватності математичних моделей нелінійних нестаціонарних фінансовоекономічних процесів та точності відповідних прогнозів, шляхом застосування сучасних методів інтелектуального аналізу даних до статистичних даних, представлених у вигляді часових рядів. В роботі вибрано, розглянуто і описано класи нелінійних нестаціонарних процесів, що використані для моделювання та прогнозування, а також виконано опис математичних моделей та підходів, що на базі статистичних даних у вигляді часових рядів, використовуються для опису їх динаміки. Вибрано типи процесів для дослідження, такі як: інтегровані, гетероскедастичні процеси, процеси Леві, процеси зі стохастичним трендом, процеси логістичного типу. В роботі вибрано клас фінансово-економічних процесів, сформульовано задачу їх прогнозування. Однак розроблену методику можливо застосовувати і в інших системах (технічних, медичних, тощо) з відповідною визначеною динамікою. Для прогнозування розглянуто підхід предиктивної аналітики з використанням методів інтелектуального аналізу даних. Методологічною основою роботи є сучасна аналітична методологія SEMMA. Зібрано статистичні дані для експериментів на базі продажів магазину Walmart, продажів протидіабетичних препаратів в Австралії, продажу пального в США для застосування розробленої методики на реальних статистичних даних. Для первинного аналізу даних запропоновано підходи статистичного та графічного аналізу, а також статистичні тести для визначення нелінійності та нестаціонарності процесу: вибрано тест Уайта для перевірки на нелінійність та тест KPSS для перевірки на нестаціонарність як основні. Розглянуто методи для виявлення та обробки аномальних та пропущених значень. Для виділення шумової складової з часового ряду розглянуто фільтр Калмана та метод експонеційного згладжування. Підходи цифрової фільтрації варто застосовувати обережно, не завжди як необхідний етап процесу побудови моделі, а як можливий варіант, обов’язково перевіряючи в кінці процесу моделювання якість отриманих прогнозів з та без використання попередньої фільтрації. В роботі запропоновано метод побудови моделей нелінійних процесів, що відрізняється застосуванням окремих процедур для оптимізації структури лінійної та нелінійної складових моделі з їх наступним адитивним об’єднанням в єдину модель, що забезпечує підвищення адекватності моделі і точності прогнозів у цілому. Розглянуто різні методи комбінування оцінок прогнозів різних моделей, вибрано метод бустінгу як основний для використання в роботі. Описано підхід для виділення та моделювання лінійної складової процесу на базі регресійних моделей, а також підхід з використання отриманої моделі AR для формування оцінок прогнозів, розглянуто і вибрано критерії для оцінки адекватності отриманих моделей, такі як BIC. Для оцінок якості прогнозів побудовано критеріальну базу на базі критеріїв MSE, MAE, RMSLE. Для опису нелінійної складової розглянуто авторегресивний підхід на базі ARIMA, з алгоритмом автоматичної побудови моделі, а також підходи на базі рекурентних (RNN) і згорткових (СNN) нейронних мереж, проаналізовано їх переваги та недоліки. Для нейронних мереж проаналізовано підходи до оптимізації параметрів моделі, запропоновано алгоритм Adam, як найбільш ефективний. Розглянуто різні підходи для багатокрокового прогнозування за допомогою нейронних мереж, вибрано підхід із застосуванням multi-output мереж як основний. Розглянуто необхідність адаптивної побудови моделей для прогнозування нелінійних нестаціонарних процесів, основні принципи адаптації таких моделей. Розглянуто відповідні підходи до адаптації як для лінійних моделей, так і для нейронних мереж. Для адаптації лінійних моделей удосконалено метод оцінювання параметрів на основі методу Монте-Карло для марківських ланцюгів. Проведено порівняльний аналіз отриманих прогнозів з результатами використання відомих підходів та методів. За результатами всіх практичних експериментів було показано, що використання розробленого підходу ARCNN дозволяє отримувати адекватні моделі та точні прогнози при відносній простоті побудові та невеликих обчислювальних втратах. За матеріалами дисертації опубліковано 8 робіт, з яких 5 – це статті у журналах і збірниках наукових праць, що входять до переліку фахових видань затверджених МОН України за спеціальністю дисертації або у періодичних виданнях іноземних держав (2 з них включені до міжнародної наукометричної бази Scopus), та 3 – публікації у матеріалах конференцій (у тому числі, міжнародних).uk
dc.format.page224 с.uk
dc.identifier.citationБелас, А. О. Моделі і методи інтелектуального аналізу даних для прогнозування нелінійних нестаціонарних процесів : дис. … д-ра філософії : 122 – Комп’ютерні науки / Белас Андрій Олегович. – Київ, 2022. – 224 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/52983
dc.language.isoukuk
dc.publisher.placeКиївuk
dc.subjectматематичне моделюванняuk
dc.subjectпрогнозуванняuk
dc.subjectінтелектуальний аналіз данихuk
dc.subjectфінансово-економічні процесиuk
dc.subjectнелінійні процесиuk
dc.subjectнестаціонарні процесиuk
dc.subjectчасові рядиuk
dc.subjectзнаходження аномалійuk
dc.subjectфільтраціяuk
dc.subjectрегресійні моделіuk
dc.subjectнейронні мережіuk
dc.subjectрекурентні нейронні мережіuk
dc.subjectзгорткові нейронні мережіuk
dc.subjectсистемний аналізuk
dc.subjectадаптивне моделюванняuk
dc.subjectmathematical modelinguk
dc.subjectforecastinguk
dc.subjectintellectual data analysisuk
dc.subjectmachine learninguk
dc.subjectfinancial and economic processesuk
dc.subjectnonlinear processesuk
dc.subjectnonstationary processesuk
dc.subjecttime seriesuk
dc.subjectanomaly detectionuk
dc.subjectfilteringuk
dc.subjectregression modelsuk
dc.subjectneural networksuk
dc.subjectrecurrent neural networksuk
dc.subjectconvolutional neural networksuk
dc.subjectsystem analysisuk
dc.subjectadaptive modelinguk
dc.subject.udc004.942:519.216.3uk
dc.titleМоделі і методи інтелектуального аналізу даних для прогнозування нелінійних нестаціонарних процесівuk
dc.typeThesis Doctoraluk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Belas_dys.pdf
Розмір:
5.53 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: