Методи ідентифікації дублювання даних у галузево-розподілених інформаційних системах на основі онтологій та аналізу структурних залежностей

Вантажиться...
Ескіз

Дата

2026

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Власюк Є.Р. Методи ідентифікації дублювання даних у галузево-розподілених інформаційних системах на основі онтологій та аналізу структурних залежностей. – Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії за спеціальністю 126 – Інформаційні системи та технології в галузі знань 12 – Інформаційні технології. – Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2026. Дисертаційна робота присвячена вирішенню проблеми ідентифікації дублювання даних в галузево-розподілених інформаційних системах. Галузево-розподілені інформаційні системи оброблення та аналізу даних застосовуються компаніями за потреби оброки та аналізу даних, які мають різну природу, походження, відносяться до різних сфер та галузей. Для оброблення, аналізу та оцінки якості, різних за своєю суттю, даних, потрібні спеціалізовані правила і політики, які враховують специфіку даних. Необхідність в поєднанні доменних правил оцінки та оброблення даних з глобальними політиками, що мають виконуватись незалежно від специфіки даних, забезпечується федеративною моделлю управління галузево-розподіленими системами. Існуючі методи оцінки якості даних і зокрема, ідентифікації дублювання даних, потребують адаптації і оптимізації до федеративної моделі, яка застосовується в галузево-розподілених інформаційних системах оброблення та аналізу даних. Проведено аналіз існуючих методів оцінки унікальності та дублювання даних. Досліджено метод зіставлення сутностей і його застосування в галузево-розподілених системах оброблення і аналізу даних, в яких часто проявляється явище синонімії по відношенню до об’єктів зберігання оригінальних даних, отриманих від програмних систем джерел даних. Це явище призводить до зменшення ефективності існуючих методів ідентифікації дублювання даних, а також до підвищення їх рівня складності і, як наслідок, часу виконання. Для забезпечення підвищення ефективності ідентифікації дублювання даних, в роботі запропоновано метод ідентифікації дублювання об’єктів даних з використанням онтологій. Створено математичну модель методу з використанням описових, структурних атрибутів онтології, а також методу з комбінуванням описових і структурних атрибутів. Розроблено модель онтології галузі інформаційно-сервісного бізнесу. Для оцінки якості онтології створена онтологія порівняна з існуючою онтологією з відкритим кодом. Якісні характеристики онтології є достатніми для проведення експериментального дослідження методу ідентифікації дублювання об’єктів даних з використанням онтології. Моделювання методу ідентифікації дублювання об’єктів даних з використанням онтології довело доцільність комбінування описових і структурних атрибутів онтології при визначенні дублювання об’єктів даних. Описові атрибути дозволяють врахувати семантичну схожість об’єктів даних, а структурні атрибути використовуються для: ідентифікації схожості об’єктів даних по критерію спільного батьківського класу; врахування ієрархічності і наслідування сутностей; визначення наявності зв’язку з однаковою сутністю; врахування лінійних і структурних зв’язків. Запропонований комбінований метод щонайменше на 25% кращий за методи з використанням лише описових або лише структурних атрибутів онтології при умові використання онтології, якісні характеристики якої не поступаються відповідним характеристикам розробленої онтології. Для комплексного вирішення питання ідентифікації дублювання даних в галузево-розподілених системах оброблення та аналізу даних розглянуто і вирішено проблему ідентифікації дублювання продуктів даних. На відміну від оригінальних даних, отриманих з систем джерел даних, продукти даних представляють собою набори даних, що створені шляхом трансформації даних в рамках галузево-розподілених систем оброблення даних. Саме продукти даних використовуються кінцевими користувачами, а тому недостатній рівень якості цих даних безпосередньо вплине на сприйняття даних і правильність прийняття бізнес-рішень. Для вирішення задачі виявлення дублювання продуктів даних запропоновано метод ідентифікації дублювання продуктів даних на основі аналізу структурних задежностей. Розроблено математичну модель цього методу, яка базується на математичному апараті теорії графів. Процес виявлення дублювання продуктів даних складається з етапу побудови графів залежностей продуктів даних і етапу порівняння графів залежностей продуктів даних. Проаналізовано методи збору метаданих для побудови графів залежностей продуктів даних, зокрема метод на основі журналів повідомлень. Виявлений недолік даного методу, який полягає в низькій точності побудови графів залежностей при використанні недостатнього проміжку часу для аналізу журналів повідомлень. Для вирішення виявленого недоліку запропоновано метод побудови графів залежностей продуктів даних на основі синтаксичних дерев коду. Запропонований метод відрізняється від існуючого побудовою синтаксичних дерев коду на основі вихідного програмного коду застосунків обро даних і ідентифікацією залежних об’єктів зберігання даних, що дає змогу не використовувати журнал повідомлень і уникнути проблеми низької точності графів залежностей при використанні недостатньої кількості записів журналів повідомлень. Експериментальні дослідження запропонованого методу побудови графів залежностей на основі синтаксичних дерев коду демонструють точність побудови графів залежностей на рівні 90% з можливістю подальшого збільшення за рахунок покращення програмного модуля аналізатора коду. Для оцінки дублювання продуктів даних, проаналізовано існуючі методи порівняння направлених ациклічних графів, як представляють залежності між застосунками оброблення даних і об’єктами зберігання даних. Виявлено недолік існуючого методу, що полягає в погіршенні точності порівняння графів за умови великої кількості залежних об’єктів, що мають однакові імена, але є різними сутностями. Для покращення точності порівняння направлених ациклічних графів продуктів даних в середовищі галузево-розподілених систем оброблення та аналізу даних, де існує велика кількість об’єктів даних з однаковими іменами, які представляють різні сутності, запропоновано комбінований метод порівняння направлених ациклічних графів залежностей продуктів даних. Розроблений метод відрізняється від існуючого інтеграцією з методом ідентифікації дублювання об’єктів даних, а саме використанням списку дубльованих об’єктів даних при порівнянні відповідних вершин графів залежностей продуктів даних, а також врахуванням рівня вершини. Це дозволяє досягти на 6% кращої ефективності в порівнянні з існуючим методом порівняння направлених ациклічних графів залежностей продуктів даних. Розроблені методи ідентифікації дублювання об’єктів даних і продуктів даних використано при розробленні інформаційної технології оцінки якості даних в галузево-розподілених системах оброблення та аналізу даних. Запропонована інформаційна технологія використана при побудові галузево-розподіленої інформаційної системи управління процесом оброблення та аналізу даних компанії інформаційно-сервісного бізнесу. Розроблено функціональні та структурні схеми такої системи. Розглянуто процес модернізації системи від монолітної і централізованої до галузево-розподіленої і федеративної. Визначені деталі реалізації основних підсистем продуктового і операційного рівнів системи, а також створені програмні модулі для інтеграції онтології, побудови синтаксичних дерев коду, оброблення та аналізу даних, з використанням хмарного середовища, платформи управління даними і брокером повідомлень. Розроблена інформаційна система дозволяє комплексно оцінювати якість даних і виявляти дублювання первинних даних, а також продуктів даних, при цьому використовуючи виключно метадані без використання даних бізнес-користувачів. Це дає змогу застосовувати розроблену інформаційну систему в середовищі жорского контролю доступу до даних, а також забезпечувати процес оцінки якості великого об’єму даних. Запропоновані методи та розроблена інформаційна галузево-розподілена система оброблення та аналізу даних можуть бути використані для забезпечення управління життєвим циклом даних, створення продуктів даних, покращення якості оригінальних даних і аналітичних продуктів даних.

Опис

Ключові слова

інформаційні системи, децентралізовані платформи даних, інформаційна технологія, онтології, математична модель, направлений ациклічний граф, моделі якості даних, метадані, база даних, система збереження даних, information systems, decentralized data processing systems, information technology, ontologies, mathematical model, directed acyclic graph, data quality models, metadata, database, data storage system

Бібліографічний опис

Власюк, Є. Р. Методи ідентифікації дублювання даних у галузево-розподілених інформаційних системах на основі онтологій та аналізу структурних залежностей : дис. … д-ра філософії : 126 Інформаційні системи та технології / Власюк Євгеній Романович. – Київ, 2026. – 160 с.

ORCID

DOI