Самоналагоджувальна індексна структура бази для діапазонного пошуку за допомогою підходів машинного навчання

dc.contributor.advisorПетренко, Анатолій Іванович
dc.contributor.authorКруш, Ігор Володимирович
dc.date.accessioned2019-03-27T16:56:30Z
dc.date.available2019-03-27T16:56:30Z
dc.date.issued2018
dc.description.abstractenThe thesis contains 103 pages, 30 figures, 31 tables, 30 references. Relevance. Due to an extreme growth of data on the Internet, traditional approaches for data queries are getting more inefficient. The main issue of those structures is that they do not count real data distribution. They were work as the data has the worst data distribution and we measure their efficiency by asymptotic estimation. The subject of this work is an application of machine learning techniques for creating a new type of index structures for range queries, which will take into account data patterns. This approach allows reducing memory consumption as well as decrease query time to make it asymptotically constant independently of the amount of data. Purpose. This work aims to find ways of building more efficient index structures using machine learning approaches. The research objective is to implement a self-tuned index structure for range queries that counts distribution of data and works in constant time. Results. Index structures developed in this work show more efficient memory usage with constant query time. Therefore, deeper research of the topic should lead to database integration of these index structures. Object of research. Database index structures. Subject of research. Machine learning techniques for building self-tuned index structures for range queries Research methods. Neural networks and support vectore machine methods are studied and applied to solve learning data distribution problem for numerical and string data. The developed solution uses modern machine learning methods as well as mixture of models approach to increase accuracy of models built and applied with modern frameworks to models training and inference. Scientific novelty. Comparing to previous works, which investigated static choise of a model architecture, the accent of current work shifts emphasis on building simplified hierarchical and flat models such as shallow neural networks and support vector machine regression method which are tuned with Bayesian optimization approach aiming to obtain more efficient model architecture in terms of memory usage and speed. The results could be used to build indexes in real-world databases. Practical value. Developed index structures show more efficient memory usage as well as they reduce asymptotic work time to constant. The result of experiments proves expediency of machine learning usage in building indexes which can replace classical index structures. Therefore, they have a big potential of integrations into modern databases,uk
dc.description.abstractukЗагальний обсяг роботи: 103 сторінки, 30 ілюстрацій, 31 таблиця, 1 перелік посилань із 30 найменувань. Актуальність теми. У зв’язку зі стрімким зростанням кількості даних у мережі Інтернет традиційні підходи до пошуку інформації стають дедалі більш неефективними. Основною їх проблемою лишається те, що вони не враховують реальний розподіл даних та діють з точки зору найгіршого ймовірно розподілу, а їх ефективність вимірюється асимптотичною оцінкою. Темою дослідження є застосування підходів машинного навчання для побудови нового класу індексних структур для діапазонного пошуку, що будуть враховувати специфіку конкретних даних, на яких будується індекс. Такий підхід дозволяє зменшити використання пам’яті, а також звести час пошуку інформації до константного в незалежності від кількості даних. Мета та задачі дослідження Метою даної роботи є пошук шляхів побудови більш ефективних індексних структур за допомогою підходів машинного навчання. Задачею дослідження є реалізація самоналагоджувальної індексної структури для діапазонного пошуку, що враховує розподіл даних та працює за константний час в незалежності від кількості даних та їх природи зростання. Вирішення поставлених завдань та досягнуті результати Було перевірено підхід побудови самоналагоджувальних індексних структур за допомогою методів машинного навчання з використанням повновз’язних нейронних мереж та методу опорних векторів з використаням техніки гурту експертів. Роботу зазначених навчених індексних структур було апробовано на двох типах наборів даних – числових та строкових. Експерименти показали, що цей підхід має право на життя, і структури доволі успішно вивчили розподіл даних будь-якого типу, однак зі строковими даними результати були кращими. Об’єкт дослідження. Індексні структури в базах даних. Предмет дослідження. Методи машинного навчання для побудови самоналагоджувальних індексних структур для діапазонного пошуку Методи дослідження. Досліджується використання нейронних мереж та методу опорних векторів для вирішення задачі вивчення розподілу чисельних та строкових даних. Розроблене рішення використовує сучасні підходи машинного навчання, методи покращення точності у вигляді гурту експертів, а також бібліотеки для тренування і застосування моделей. Наукова новизна. На відміну від попередніх робіт, які фактично стосувались статичного вибору архітектури, у даному дослідженні було зміщено акцент на побудову спрощених ієрархічних та плоских моделей - використання неглибоких нейронних мереж та методу опорних векторів, а також на використання методів Баєсівської оптимізації для підбору оптимальної по пам’яті та швидкості роботи архітектури моделі в залежності від розподілу реальних даних, що може бути корисним застосуванням для моделей у реальних базах даних. Практичне значення одержаних результатів. Розроблені індексні структури показують більш ефективне використання пам’яті та приведення часу виконання пошуку до константного, тому, за умови подальшого вдосконалення, вони можуть бути інтегровані у сучасні бази даних. Крім цього, отримані результати підтверджують загальну ідею доцільності використання машинного навчання для заміни класичних індексних структур.uk
dc.format.page103 c.uk
dc.identifier.citationКруш, І. В. Самоналагоджувальна індексна структура бази для діапазонного пошуку за допомогою підходів машинного навчання : магістерська дис. : 122 Комп’ютерні науки та інформаційні технології (Системне проектування сервісів) / Круш Ігор Володимирович. – Київ, 2018. – 103 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/26950
dc.language.isoukuk
dc.publisher.placeКиївuk
dc.subjectіндексні структуриuk
dc.subjectB-treeuk
dc.subjectБайєсівська оптимізація гіперпараметрівuk
dc.subjectгурт експертівuk
dc.subjectметод опорних векторівuk
dc.subjectнейронні мережіuk
dc.subjectфункція розподілуuk
dc.subjectмашинне навчанняuk
dc.subjectIndex structuresuk
dc.subjectBayesian optimization of hyperparametersuk
dc.subjectmixture of expertsuk
dc.subjectsupport vector machineuk
dc.subjectneural networksuk
dc.subjectdistribution functionuk
dc.subjectmachine learninguk
dc.subject.udc004.453uk
dc.titleСамоналагоджувальна індексна структура бази для діапазонного пошуку за допомогою підходів машинного навчанняuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Krush_magistr.pdf
Розмір:
2.32 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.18 KB
Формат:
Item-specific license agreed upon to submission
Опис: