Методи підвищення ефективності узгодженості даних в інформаційних системах

dc.contributor.advisorКрилов, Євген Володимирович
dc.contributor.authorНікітін, Валерій Андрійович
dc.date.accessioned2024-06-18T09:24:42Z
dc.date.available2024-06-18T09:24:42Z
dc.date.issued2024
dc.description.abstractНікітін В. А. Методи підвищення ефективності узгодженості даних в інформаційних системах. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 126 – Інформаційні системи та технології в галузі знань 12 – Інформаційні технології. – Національний Технічний Університет України «Київський Політехнічний Інститут імені Ігоря Сікорського», Київ, 2024. Дисертаційна робота присвячена розробці методів для розподілених документоорієнтованих баз даних, які дозволяють пришвидшити узгодження даних та покращити колізійну стійкість в процесі пошуку неузгоджених даних в різноманітних мережевих інформаційних системах, таких як, IoT, гетерогенні мультикомп’ютерні системи, аналітичні системи органів адміністративного управління, фінансові системи, дослідження екологічної безпеки та природокористування та інші. Також, було реалізовано спеціальне програмне забезпечення для проведення дослідів. В результаті виконання дисертаційної роботи було отримано такі результати. Розроблено метод забезпечення узгодженості даних у розподілених нереляційних документо-орієнтованих базах даних з використанням транзакційного годинника. Він отримує транзакції від клієнтських додатків та зберігає їх у відповідних чергах. Черги опрацьовуюються в залежності від пріоритету транзакції. При найвищому пріоритеті черга опрацьовується раніше, в порівнянні з тими, які мають нижчий пріоритет. Це дозволяє виділяти критично важливі дані (такі, як фінансові транзакції), які мають бути опрацьовані першочергово. При опрацюванні черги, транзакційний годинник об’єднує транзакції в результуючу транзакцію. Для цього він використовує час створення транзакції, що дозволяє глобально впорядковувати та об’єднувати їх в тому порядку, в якому вони були створені, а не отримані годинником. Після отримання результуючої транзакції, вона передається іншим реплікам, на яких відбувається запис. Слід зазначити, що при використанні транзакційного годинника, операції читання відбуваються напряму з реплік, що дозволяє зменшити навантаження на хостову машину. Удосконалено метод активної антиентропії з використанням спектрального фільтру Блума та алгоритму хешування замість дерева Меркла. Його створення обумовлено тим, що класичний механізм активної антиентропії використовує багато затратних операцій хешування. Також, при хешуванні великої кількості даних збільшується вірогідність колізій, яка може вплинути на вчасну ідентифікацію неузгодженості. Якщо таке буде відбуватися, то система може знаходитись у неузгодженому стані через те, що запуск процедури узгодження розпочнеться пізніше. Тому, для розподілених нереляційних документо-орієнтованих баз даних було вирішено використати протокол пліток, який полягає у децентралізованому способі взаємодії вузлів. Це забезпечує надійність, в порівнянні з централізованим підходом, оскільки виведення з ладу одного вузла не вплине на доступність системи. Проблема використання централізованого підходу полягає в тому, що виведення головного вузла з ладу вимагає певної затримки через використання консенсусного протоколу, який використовується для обрання нового головного вузла з існуючих реплік. Децентралізований підхід дозволяє інформаційній системі бути доступною для операцій запису, хоча це ускладнює підтримку узгодженості. Для пошуку неузгодженостей використовується певний знімок, який складається зі спектрального фільтру Блума та хеш-значення. Спеціально для розробленого методу активної антиентропії було модифіковано алгоритм формування спектрального фільтру Блума, який дозволяє пришвидшити ідентифікування неузгодженісті даних в методі активної антиентропії. Швидкість формування спектрального фільтру Блума було збільшено через використання алгоритму на основі простих чисел замість використання хеш-функцій. Результати дослідів показують, що розроблений алгоритм має вищу колізійну стійкість, ніж при використанні однієї хеш-функції та вищу швидкодію у порівнянні з використанням декількох функцій хешування. Також, спеціально для розробленого методу активної антиентропії було розроблено спосіб хешування, який стійкий до колізій. Його мета полягає у зменшенні кількості колізій при хешуванні даних, які відрізняються за розміром. Це є дуже важлим для активної антиентропії, оскільки дозволяє вчасно знайти неузгодженість. Реалізовано спеціальний сервіс транзакційного годинника із власним програмним інтерфейсом для можливості застосування в інформаційних системах розробленого методу забезпечення узгодженості з використанням транзакційного годинника з розподіленою базою даних MongoDB. Реалізовано спеціальний сервіс активної антиентропії із власним програмним інтерфейсом для використання в інформаційних системах розробленого методу активної антиентропії з розподіленою базою даних MongoDB. Реалізовано прототип фінансової інформаційної системи, в якій розподілена база даних складається з восьми вузлів. З її використанням були отримані результати дослідження розроблених методів забезпечення узгодженості даних. Програмний інтерфейс було реалізовано з використанням мови програмування Python3. Для створення тестового середовища використовувався Docker та docker-compose для оркестрації необхідними компонентами. Дисертаційна робота складається зі вступу, 3 розділів, загальних висновків, списку використаних джерел із 49 найменувань та 6 додатків. Загальний обсяг дисертації становить 165 сторінок, з яких 133 сторінки основного тексту, містить 76 рисунків та 5 таблиць.
dc.description.abstractotherNikitin V. A. Methods of increasing the efficiency of data consistency in information systems. - Qualifying scientific work is presented on the rights of the manuscript. The philosophy doctor thesis is carried out in specialty 126 – Information Systems and Technologies, of the knowledge field 12 – Information Technologies. – National Technical University of Ukraine “Kyiv Polytechnic Institute”, Ministry of Education and Science of Ukraine, Kyiv, 2024. The dissertation work is devoted to the development of methods for distributed document-oriented databases that allow speeding up data reconciliation and improving collision resistance in the process of searching for inconsistent data in various network information systems, such as IoT, heterogeneous multicomputer systems, analytical systems of administrative management, financial systems, research on environmental safety and nature management, and others. Also, special software for conducting experiments was implemented. The following results were obtained as a result of the dissertation work. A method of ensuring data consistency in distributed NoSQL document-oriented databases using a transactional clock has been developed. It receives transactions from client applications and stores them in appropriate queues. Queues are processed depending on the priority of the transaction. With the highest priority, the queue is processed earlier, compared to those with a lower priority. This allows you to figure out critical data (for example, transmitting financial transactions) that should be processed first. When the queue is processed, the transaction clock merges the transactions into a resulting transaction. To do this, it uses the creation time of the transaction, which allows them to be globally ordered and merged in the order in which they were created, rather than received by the transactional clock. After receiving the resulting transaction, it is transmitted to other replicas on which writing takes place. It should be noted that when using a transactional clock, read operations take place directly from replicas, which allows to reduce the load on the host machine. The active anti-entropy method has been improved using a Bloom spectral filter and a hashing algorithm instead of a Merkle tree. Its creation is due to the fact that the classical mechanism of active anti-entropy uses many expensive hashing operations. Also, when hashing a large amount of data, the probability of collisions increases, which can affect the timely identification of inconsistencies. If this happens, the system may be in an inconsistent state because the start of the reconciliation procedure will occur later. Therefore, for distributed NoSQL document-oriented databases, it was decided to use the gossip protocol, which consists in a decentralized method of node interaction. This provides reliability, compared to a centralized approach, because the failure of one node will not affect the availability of the system. The problem with using a centralized approach is that failing a master requires some latency due to the consensus protocol used to elect a new master from existing replicas. A decentralized approach allows the information system to be available for record operations, although this makes it difficult to maintain consistency. To search for inconsistencies, a certain snapshot is used, which consists of a spectral Bloom filter and a hash value. The algorithm to produce the Bloom spectral filter was modified specifically for the developed method of active anti-entropy, which makes it possible to speed up the identification of data inconsistencies in the method of active anti-entropy. The speed of forming the spectral Bloom filter has been increased by using an algorithm based on prime numbers instead of using hash functions. The results of the experiments show that the developed algorithm has higher collision resistance comparing to single hash function and higher speed comparing to usage of a several hashing functions. Also, a collision-resistant hashing method was developed specifically for the developed active anti-entropy method. Its purpose is to reduce the number of collisions when hashing data that differs in size. This is very important for active antientropy, as it allows early mismatch detection. A special transaction clock service with its own application programming interface has been implemented for the possibility of using the developed method of ensuring consistency using a transaction clock with a distributed MongoDB database in information systems. A special service of active antientropy with its own application programming interface has been implemented for the use in information systems of the developed method of active antientropy with the MongoDB distributed database. A prototype of the financial information system was implemented, in which the distributed database consists of eight nodes. With its use, the results of the study of the developed methods of ensuring data consistency were obtained. The application programming interface was implemented using the Python3 programming language. Docker and docker-compose were used to create test environment and orchestrate the necessary components. The thesis consists of an introduction, four chapters, general conclusions, the reference list with 49 references and 6 appendices. The total volume of the thesis is 165 pages, of which 133 pages are the main text, contains 76 figures and 5 tables.
dc.format.extent165 с.
dc.identifier.citationНікітін, В. А. Методи підвищення ефективності узгодженості даних в інформаційних системах : дис. … д-ра філософії : 126 Інформаційні системи та технології / Нікітін Валерій Андрійович. – Київ, 2024. – 165 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/67224
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectбаза даних
dc.subjectІнтернет речей
dc.subjectканали комунікації
dc.subjectкритичні інформаційні ресурси
dc.subjectсистема управління
dc.subjectматематична модель
dc.subjectгетерогенні мультикомп’ютерні системи
dc.subjectпотоки текстових даних
dc.subjectстиснення даних
dc.subjectінформаційні технології
dc.subjectдостовірність передачі інформації
dc.subjectпроблеми оптимізації
dc.subjectцілісність
dc.subjectвідмовостійкість
dc.subjectалгоритми консенсусу
dc.subjectdatabase
dc.subjectIoT
dc.subjectCommunication channels
dc.subjectcritical informational resources
dc.subjectcontrol system
dc.subjectmathematical model
dc.subjectheterogeneous multicomputer systems
dc.subjectstreams of text data
dc.subjectdata reduction
dc.subjectinformation technologies
dc.subjectthe reliability of information transmission
dc.subjectoptimization problems
dc.subjectconsistency
dc.subjectfault tolerance
dc.subjectconsensus algorithms
dc.subject.udc004.65
dc.titleМетоди підвищення ефективності узгодженості даних в інформаційних системах
dc.typeThesis Doctoral

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Nikitin_dys.pdf
Розмір:
2.73 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: