Методи і програмні засоби підвищення ефективності виконання запитів у високонавантажених системах

dc.contributor.advisorКрилов, Євген Володимирович
dc.contributor.authorБелоус, Роман Володимирович
dc.date.accessioned2025-03-14T14:31:24Z
dc.date.available2025-03-14T14:31:24Z
dc.date.issued2025
dc.description.abstractАктуальність дослідження обумовлена стрімким зростанням обсягів даних та кількості запитів, що обробляються сучасними розподіленими інформаційними системами. Високонавантажені розподілені бази даних забезпечують обробку інформації в режимі реального часу, підтримуючи роботу широкого спектра застосувань – від соціальних мереж до корпоративних хмарних платформ. Однак, збільшення кількості та складності запитів створює значні труднощі у підтримці високої продуктивності та надійності. Зокрема, істотний вплив на ефективність мають мережеві затрати при передаванні даних між вузлами, коректне підтримання узгодженості даних та оптимальне розподілення навантаження. У дисертаційній роботі запропоновано науково-обґрунтовані методи та програмні засоби, що спрямовані на підвищення ефективності виконання запитів у високонавантажених розподілених системах. Для досягнення цієї мети було враховано потребу в оптимізації мережевого трафіку, вдосконаленні механізмів узгодженості даних та ефективному ребалансуванні ресурсів. Особливу увагу приділено оптимізації поведінки розподілених систем, що використовують алгоритми консенсусу Raft, оскільки саме в цих підходах закладено основу для надійного оновлення та синхронізації даних між множиною вузлів. Оптимізація Raft та пов’язаних з ним процесів передачі та узгодження даних дозволяє суттєво покращити час відгуку системи та знизити мережеве навантаження, що є критичним для стабільного функціонування високонавантажених застосувань. Вперше розроблено метод мінімізації обсягу мережевого трафіку у Raft Consensus Algorithm розподілених базах даних , який базується на поєднанні принципів, притаманних як Raft, так і Leaderless Replication та ґрунтується на 3 попередньому обміні метаданими між вузлами та в подальшому збережені отриманих результатів. Суть методу полягає в тому, що перед початком передавання основних даних, вузли спочатку обмінюються метаданими, які містять інформацію про стан кардинальності та вектори даних. Це дозволяє зменшити обсяг даних, що передаються через мережу, оскільки вузли можуть узгодити лише ті зміни, які дійсно потребують синхронізації. Після цього, на основі отриманих метаданих, відбувається локальне збереження результатів, що мінімізує кількість переданих даних, знижуючи тим самим навантаження на мережу та підвищуючи ефективність роботи алгоритму Raft у розподілених базах даних. Удосконалено метод оптимізації запитів у розподілених базах даних шляхом удосконалення ребалансування даних за допомогою генетичних алгоритмів з елітарністю та адаптивним схрещенням. Цей підхід дозволяє ефективніше розподіляти дані між вузлами системи, що зменшує час виконання запитів. Використання елітарності забезпечує збереження найкращих рішень на кожному етапі алгоритму, а адаптивне схрещення підвищує різноманітність рішень та прискорює конвергенцію до оптимального. У результаті, модифікований метод ребалансування сприяє підвищенню ефективності виконання запитів у розподілених базах даних, особливо в умовах високих навантажень. Удосконалено метод узгодженості даних у розподілених базах даних на основі методу Левенштейна, який відрізняється від існуючих підходів і мінімізує обсяг мережевого трафіку під час процесу узгодження даних, особливо при частих і малих змінах. Цей метод використовує вдосконалений метод Левенштейна, що дозволяє передавати тільки зміни замість повних копій даних. Завдяки цьому, значно зменшується кількість переданих даних по мережі, що особливо важливо в умовах частих оновлень і модифікацій невеликих обсягів текстов даних, забезпечуючи ефективну синхронізацію реплік і підтримуючи високу продуктивність системи. Для дослідження отриманих наукових результатів було розроблено спеціалізоване програмне забезпечення, яке являє собою електронний онлайнжурнал для студентів, викладачів, батьків та адміністрації навчальних закладів. 4 Цей програмний продукт дозволяє вчителям виставляти оцінки, створювати та призначати домашні завдання, а також вести звітність щодо успішності студентів. Студенти мають доступ до персонального кабінету, де відображається їхня академічна успішність, а батьки можуть отримувати доступ до інформації, що стосується їхньої дитини, включаючи оцінки та завдання. Адміністрація навчального закладу, у свою чергу, може генерувати різноманітні звіти та статистику щодо успішності студентів та інших показників. Для забезпечення ефективності, надійності та масштабованості застосунок було побудовано на основі Raft¬архітектури, яка гарантує узгодженість даних у розподіленій системі. Застосунок реалізовано з використанням сучасного стека технологій, включаючи Docker, Laravel та Vue.js. Застосування цих технологій дозволило створити гнучку, стійку до помилок і легко масштабовану систему, яка ефективно підтримує всі необхідні функції та забезпечує можливість дослідження і аналізу наукових результатів у контексті роботи розподілених систем. Дисертаційна робота складається зі вступу, 5 розділів, загальних висновків, списку використаних джерел із 47 найменувань та 2 додатків. Загальний обсяг дисертації становить 152 сторінок, з яких 126 сторінки основного тексту, містить 45 рисунків та 6 таблиць.
dc.description.abstractotherThe relevance of this research is driven by the rapid growth in data volumes and the increasing number of queries processed by modern distributed information systems. High­load distributed databases provide real­time information processing, supporting a wide range of applications—from social networks to enterprise cloud platforms. However, the increasing number and complexity of queries pose significant challenges in maintaining high performance and reliability. Notably, network costs during data transmission between nodes, proper data consistency, and optimal load distribution significantly impact the overall efficiency of these systems. This dissertation proposes scientifically grounded methods and software tools aimed at improving query performance in high­load distributed systems. To achieve this goal, the research focuses on optimizing network traffic, enhancing data consistency mechanisms, and implementing efficient resource rebalancing. Special attention is paid to optimizing the behavior of distributed systems that utilize the Raft consensus algorithm, as these approaches form the foundation for reliable data updates and synchronization across multiple nodes. The optimization of Raft and its related processes for data transmission and consistency allows for a significant reduction in response time and network load, which is critical for the stable operation of high­load applications. For the first time, a method for minimizing network traffic volume in the Raft Consensus Algorithm for distributed databases has been developed. This method combines principles inherent to both Raft and leaderless replication, based on the preliminary exchange of metadata between nodes and subsequent result caching. The essence of the method lies in the initial exchange of metadata containing information on cardinality and data vectors before transmitting primary data. This approach reduces the volume of data transmitted over the network, as nodes can synchronize only the changes that require updates. Following this metadata exchange, local caching of the results occurs, minimizing the amount of transmitted data and consequently reducing network load while enhancing the efficiency of the Raft algorithm in distributed databases. The method for query optimization in distributed databases has been improved by enhancing data rebalancing using genetic algorithms with elitism and adaptive crossover. This approach enables more efficient data distribution across system nodes, reducing query execution time. The inclusion of elitism ensures that the best solutions are preserved at each stage of the algorithm, while adaptive crossover increases solution diversity and accelerates convergence toward the optimal solution. As a result, the modified rebalancing method improves query performance in distributed databases, especially under high­load conditions. Additionally, a data consistency method for distributed databases has been enhanced using the Levenshtein­based approach. Unlike existing methods, this approach minimizes network traffic during the data consistency process, particularly in scenarios involving frequent and minor changes. The method employs an advanced version of the Levenshtein algorithm to accurately identify minimal differences between data versions, allowing for the transmission of only the changes rather than full data copies. Consequently, the volume of transmitted data is significantly reduced, which is particularly important in environments with frequent updates and modifications of small data volumes. This ensures efficient replica synchronization while maintaining high system performance. A specialized software system was developed to investigate the scientific results obtained. The software represents an electronic online journal for students, teachers, parents, and school administration. This product enables teachers to assign grades, cre ate and manage homework, and generate performance reports for students. Students can access a personal dashboard displaying their academic performance, while parents can obtain information related to their child's grades and assignments. The school administration can generate various reports and statistics on student performance and other metrics. To ensure efficiency, reliability, and scalability, the application was built based on Raft architecture, which guarantees data consistency in the distributed system. The application is implemented using a modern technology stack, including Docker for containerization and deployment management, Laravel for backend development following MVC principles, and Vue.js for building a dynamic and responsive user interface. These technologies allowed for the creation of a flexible, fault­tolerant, and easily scalable system that effectively supports all necessary functions and enables the research and analysis of scientific results within the context of distributed systems. The dissertation consists of an introduction, 5 chapters, general conclusions, a list of sources used with 47 names and 2 appendices. The total volume of the dissertation is 152 pages, of which 126 pages are the main text, contains 45 figures and 6 tables
dc.format.extent142 с.
dc.identifier.citationБелоус, Р. В. Методи і програмні засоби підвищення ефективності виконання запитів у високонавантажених системах : дис. … д-ра філософії : 12 Інформаційні технології / Белоус Роман Володимирович. – Київ, 2025. – 142 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/72929
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectбази даних
dc.subjectрозподілені системи
dc.subjectрозподілені бази даних
dc.subjectребалансування
dc.subjectузгодженість
dc.subjectнереляційні бази даних
dc.subjectNoSQL
dc.subjectінформаційні системи
dc.subjectсистема управління
dc.subjectархітектура програмного забезпечення
dc.subjectінформаційні технології
dc.subjectпрограмне забезпечення
dc.subjectRaft
dc.subjectмережевий трафік
dc.subjectцілісність
dc.subjectдоступність
dc.subjectінженерія програмного забезпечення
dc.subjectdatabases
dc.subjectdistributed systems
dc.subjectdistributed databases
dc.subjectrebalancing
dc.subjectconsistency
dc.subjectnon­relational databases
dc.subjectinformation systems
dc.subjectmanagement system
dc.subjectsoftware architecture
dc.subjectinformation technology
dc.subjectsoftware
dc.subjectnetwork traffic
dc.subjectintegrity
dc.subjectavailability
dc.subjectsoftware engineering
dc.subject.udc004.65
dc.titleМетоди і програмні засоби підвищення ефективності виконання запитів у високонавантажених системах
dc.typeThesis Doctoral

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Belous_dys.pdf
Розмір:
4.79 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: