Математичне моделювання та аналіз продуктивності OLAP-операцій у багатовимірних моделях даних
Вантажиться...
Дата
2026
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Статтю присвячено чисельному оцінюванню ефективності двох моделей даних, що застосовуються в аналітичних системах управління даними: «зірка» та «сніжинка». Представлено результати проєктування цих моделей із детальним описом їхньої структури, включаючи виміри, факти та значення. Для досягнення мети дослідження виконано такі завдання: проєктування моделей даних у межах вибраної предметної області; їхнє розгортання у вигляді OLAP-гіперкуба; реалізація основних аналітичних операцій багатовимірного аналізу даних із фіксацією швидкодії; проведення порівняльного аналізу отриманих результатів і формулювання висновків щодо ефективності кожної моделі. Для проведення чисельного дослідження використовувався масив результатів складання Національного мультипредметного тесту України за 2022---2024 роки, оскільки ці дані мають багатовимірну природу, поєднуючи атрибути з різних незалежних сутностей предметної області. Для чисельного оцінювання застосовувалися такі метрики: швидкодія виконання запитів, надмірність даних та ефективність використання пам'яті. В роботі оцінено швидкодію виконання базових аналітичних операцій -- зрізу, створення підкубу, агрегації, деталізації, та обертання -- шляхом автоматизованого вимірювання часу обробки запитів у середовищі SQL Server Profiler. Для кожної операції надано результати тестування та приклади трьох виконаних запитів. Аналіз даних щодо швидкодії моделей показав, що операція зрізу виконувалася на 2,86% повільніше на моделі «сніжинка», тоді як створення підкубів і обертання --- на 37% та 16,37% відповідно. Найбільша різниця у швидкодії у 70,47% зафіксована для операції деталізації. Єдина операція, де модель «сніжинка» переважала за швидкодією, --- агрегація (2,39% швидше), що пояснюється її нормалізованою структурою та меншою надмірністю даних. Отримані результати представлено у вигляді гістограм. Надмірність даних визначалася за метрикою Data Storage Overhead. Попри збільшення кількості таблиць у 1,83 рази, модель «сніжинка» містила лише на 0,5% більше записів завдяки її нормалізованій структурі. Водночас значення DSO для моделі «зірка» склала 33%, що пояснюється значним дублюванням даних у ненормалізованих таблицях вимірів.
Опис
Ключові слова
багатовимірні моделі даних, аналіз даних, OLAP-запити
Бібліографічний опис
Ісмаілов, В. В. Математичне моделювання та аналіз продуктивності OLAP-операцій у багатовимірних моделях даних / В. В. Ісмаілов, К. М. Ялова // Теоретичні і прикладні проблеми фізики, математики та інформатики : матеріали XXIV Всеукраїнської науково-практичної конференції студентів, аспірантів та молодих вчених, [Київ], 13–16 травня 2026 р. / КПІ ім. Ігоря Сікорського. – Київ, 2026. – С. 326-330.