Адаптивна індексна структура бази даних для точкового пошуку за допомогою підходів машинного навчання

dc.contributor.advisorПетренко, Анатолій Іванович
dc.contributor.authorМихалько, Віталій Геннадійович
dc.date.accessioned2019-03-25T17:12:43Z
dc.date.available2019-03-25T17:12:43Z
dc.date.issued2018
dc.description.abstractenThe thesis contains 82 pages, 16 figures, 30 tables, and 31 references. Relevance. Due to the rapid growth of data volumes, usage of traditional approaches for retrieving information in this data becomes inefficient. Most of the existing index structures were developed a long time ago and they do not take advantage of real world data patterns. The subject of this work is usage of machine learning techniques for creating a new class of index structures for point queries, which will take into account data patterns. Given that such structures are adaptive, they can be much more efficient in terms of memory usage. Purpose. This work aims to find new ways of building more efficient index structures using machine learning approaches. The research objective is to implement an adaptive index structure for point search that takes into account the distribution of data and shows more efficient memory usage comparing to traditional index structures. Results. Two types of adaptive index structures for point queries were proposed. Both of them use machine learning techniques. One of them works using linear regression, and the other is based on a neural network with one hidden layer. Proposed adaptive index structures were tested against two different datasets. Both index structures showed more efficient memory usage on first dataset comparing to traditional alternatives. On the other hand, proposed index structures showed less efficient memory usage on second dataset. Object of research. Database index structures. Subject of research. Machine learning techniques for building adaptive index structures for point queries. Research methods. Linear regression and neural network models are studied and applied for learning cumulative distribution function of data. The developed solution uses modern machine learning techniques, methods for improving accuracy and common libraries for model trainings and applications. Scientific novelty. Comparing to previous works, this one uses another machine learning models to build adaptive index structures. Proposed models are simpler and more efficient in terms of computing. In particular, linear regression and neural network with one hidden layer were used in this work. In general, adaptive index structures based on these models are more efficient due to their simplicity. On the other hand, proposed models do not work well on all datasets. Practical value. The developed index structures show more efficient memory usage on some datasets. In case of further improvements, they can be integrated into modern database systems. In addition, the results of this work confirm feasibility of using machine learning techniques to replace traditional index structures.uk
dc.description.abstractruОбщий объем работы: 82 страницы, 16 иллюстраций, 30 таблиц, перечень ссылок из 31 наименования. Актуальность темы. Вследствие стремительного роста объемов данных, использование традиционных подходов для поиска информации в этих данных становится неэффективным. Большинство индексных структур, используемых для поиска, были разработаны довольно давно и не учитывают реальные распределения данных. Темой исследования является применение методов машинного обучения для построения нового класса индексных структур для точечного поиска, которые будут учитывать особенности данных. Учитывая то, что такие структуры являются адаптивными, они могут быть значительно эффективнее с точки зрения использования памяти. Цель и задачи исследования. Целью данной работы является поиск путей построения более эффективных индексных структур с помощью подходов машинного обучения. Задачей исследования является реализация адаптивной индексной структуры для точечного поиска, которая учитывает распределение данных и показывает лучшие результаты по использованию памяти по сравнению с традиционными индексными структурами. Решение поставленных задач и достигнутые результаты. Было предложено два типа адаптивных индексных структур для точечного поиска с использованием подходов машинного обучения. Одна из них работает на основе линейной регрессии, а другая на основе нейронной сети с одним скрытым слоем. Работа указанных адаптивных индексных структур была апробирована на двух наборах данных. На одном из них они показали значительно лучшие результаты по эффективности использования памяти по сравнению с традиционными альтернативами, а на втором наборе результаты оказались несколько хуже. Объект исследования. Индексные структуры в базах данных. Предмет исследования. Методы машинного обучения для построения адаптивных индексных структур для точечного поиска. Методы исследования. Исследуется использование линейной регрессии и нейронных сетей для решения задачи изучения распределения данных. Разработанное решение использует современные подходы машинного обучения, методы улучшения точности, а также библиотеки для тренировки и применения моделей. Научная новизна. В данной работе, в отличие от предыдущих, для построения адаптивных индексных структур были использованы другие модели машинного обучения, которые являются более простыми и эффективными в плане вычислений. В частности, были использованы линейная регрессия и нейронная сеть с одним скрытым слоем. В целом, адаптивные индексные структуры, построенные на базе этих моделей, являются более эффективными в результате меньшей степени сложности. Но, с другой стороны, они хорошо работают не на всех распределениях данных. Практическое значение полученных результатов. Разработанные индексные структуры показывают более эффективное использование памяти на некоторых наборах данных, поэтому, при условии дальнейшего совершенствования, они могут быть интегрированы в современные базы данных. Кроме этого, полученные результаты подтверждают общую идею целесообразности использования машинного обучения для замены классических индексных структур.uk
dc.description.abstractukЗагальний обсяг роботи: 82 сторінки, 16 ілюстрацій, 30 таблиць, перелік посилань із 31 найменування. Актуальність теми. Внаслідок стрімкого зростання обсягів даних, використання традиційних підходів для пошуку інформації у цих даних стає неефективним. Більшість індексних структур, які використовуються для пошуку, були розроблені доволі давно та не враховують реальні розподіли даних. Темою дослідження є застосування методів машинного навчання для побудови нового класу індексних структур для точкового пошуку, що будуть враховувати особливості даних. Зважаючи на те, що такі структури є адаптивними, вони можуть бути значно ефективнішими з точки зору використання пам’яті. Мета та задачі дослідження. Метою даної роботи є пошук шляхів побудови більш ефективних індексних структур за допомогою підходів машинного навчання. Задачею дослідження є реалізація адаптивної індексної структури для точкового пошуку, що враховує розподіл даних та показує кращі результати по використанню пам’яті в порівнянні з класичними індексними структурами. Вирішення поставлених завдань та досягнуті результати Було запропоновано два типи адаптивних індексних структур для точкового пошуку з використанням підходів машинного навчання. Одна з них працює на основі лінійної регресії, а інша на основі нейронної мережі з одним прихованим шаром. Роботу зазначених адаптивних індексних структур було апробовано на двох наборах даних. На одному з них вони показали значно кращі результати по ефективності використання пам’яті в порівнянні з класичними альтернативами, а другому наборі результати виявились дещо гіршими. Об’єкт дослідження. Індексні структури в базах даних. Предмет дослідження. Методи машинного навчання для побудови адаптивних індексних структур для точкового пошуку. Методи дослідження. Досліджується використання лінійної регресії та нейронних мереж для вирішення задачі вивчення розподілу даних. Розроблене рішення використовує сучасні підходи машинного навчання, методи покращення точності, а також бібліотеки для тренування і застосування моделей. Наукова новизна. В даній роботі, на відміну від попередніх, для побудови адаптивних індексних структур були використані інші моделі машинного навчання, які є більш простими та ефективними в плані обчислень. Зокрема, були використані лінійна регресія та нейронна мережа з одним прихованим шаром. В цілому, адаптивні індексні структури, побудовані на базі цих моделей моделей, є більш ефективними внаслідок меншого ступеня складності. Але, з іншого боку, вони гарно працюють не на всіх розподілах даних. Практичне значення одержаних результатів. Розроблені індексні структури показують більш ефективне використання пам’яті на деяких наборах даних, тому, за умови подальшого вдосконалення, вони можуть бути інтегровані у сучасні бази даних. Крім цього, отримані результати підтверджують загальну ідею доцільності використання машинного навчання для заміни класичних індексних структур.uk
dc.format.page82 c.uk
dc.identifier.citationМихалько, В. Г. Адаптивна індексна структура бази даних для точкового пошуку за допомогою підходів машинного навчання : магістерська дис. : 122 Комп’ютерні науки та інформаційні технології (Системне проектування сервісів) / Михалько Віталій Геннадійович. – Київ, 2018. – 82 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/26900
dc.language.isoukuk
dc.publisher.placeКиївuk
dc.subjectіндексні структуриuk
dc.subjectхеш-таблиціuk
dc.subjectмашинне навчанняuk
dc.subjectлінійна регресіяuk
dc.subjectнейронні мережіuk
dc.subjectфункція розподілуuk
dc.subjectcumulative distribution functionuk
dc.subjectneural networksuk
dc.subjectlinear regressionuk
dc.subjectmachine learninguk
dc.subjecthash tablesuk
dc.subjectindex structuresuk
dc.subject.udc004.021uk
dc.titleАдаптивна індексна структура бази даних для точкового пошуку за допомогою підходів машинного навчанняuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Mykhalko_magistr.pdf
Розмір:
1.36 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
1.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: