Методи та програмні засоби кластеризації даних на основі технології Nvidia Cuda

dc.contributor.advisorОлійник, Юрій Олександрович
dc.contributor.authorКіндзерський, Олександр Віталійович
dc.date.accessioned2018-07-09T08:53:58Z
dc.date.available2018-07-09T08:53:58Z
dc.date.issued2018
dc.description.abstractenMaster dissertation: 60 pages, 19 figures, 7 tables, 0 applications, 15 sources. The relevance. Global computerization and progress in microelectronic and information technology causes enlargement in information quantity. Total amount of data in 2012 is more than 1,8 zetabytes(1,8 trillion GB). International Data Corporation researched that this amount is doubled every two years[9]. Ninety percent of world data was created in recent two years. Every day we create approximately 2,5 milliards GB. Saving of such amount of information needs a lot of resources and efforts. However, the biggest problem is not saving but processing. IDC prognoses that in 2020 only 35% of world data will be useful. So we need a mechanism to make data simplification for further analysis. One of such methods is cluster analysis. Clasterization is used for data compression. We could cut down some data because objects inside each cluster is very similar so we could consider them like one object. So automation and high quality cluster analysis in acceptable time without previous structuring is the task that is worthy of attention and research. Dissertation is devoted of development of modification of known clasterization algorithms by using parallel calculation on graphical processor unit. Purpose and objectives of the study. The goal is development of improved clasterization algorithms by using Nvidia Cuda parallel calculation to fasten them. To reach the goal it is needed to solve following tasks:  Analyze modern methods to work with big data and clasterization;  Analyze Nvidia CUDA technology for parallel computation on graphical processor units;  Develop improved clasterization algorithms by using Nvidia Cuda parallel calculation;  Develop application for data clasterization with implementation of chosen algorithms and their modifications;  Conduct research on the effectiveness of the algorithms by testing. The object of study is processes of data clasterization. The subject of study is performance and effectiveness of cluster analysis. Scientific novelty of the results is development and implementation of modification of known clasterization algorithms by using parallel calculation on Nvidia graphical processor unit. Publications. Work results are published in conference abstracts of «INFORMATICS AND COMPUTER TECHNOLOGY – ICT-2018» and «INTELECTUAL SYSTEM OF DECISION-MAKING AND PROBLEMS OF COMPUTATIONAL INTELLIGENCE ».uk
dc.description.abstractukМагістерська дисертація: 60 сторінок, 19 рисунків, 7 таблиць, 0 додатків, 15 джерел. Актуальність. Глобальна комп’ютеризація, прогрес в сфері мікроелектроніки та інформаційних технологій обумовлюють збільшення об’ємів інформації. Загальний об’єм даних на 2012 рік складав більше 1,8 зеттабайт (1,8 трлн Гб) та за дослідженнями IDC (International Data Corporation) ця цифра подвоюється кожні 2 роки[9]. Дев'яносто відсотків даних у світі сьогодні створено лише за останні два роки. Наш поточний вихід даних складає приблизно 2,5 мільярда Гб на день. Збереження такого об’єму інформації потребує немалих ресурсів та зусиль. Але найбільша проблема полягає не в збереженні даних, а в їх обробці - за прогнозами IDC в 2020 році з усіх об’ємів даних лише 35% будуть корисними. Таким чином потрібно механізм для спрощення даних для подальшого їх аналізу. Одним з таким методів є кластеризація даних. Кластеризація застосовується для того, щоб зробити так зване стиснення даних, тобто скоротити обсяг використовуваних даних за рахунок того, що всередині кластера об'єкти не розрізняються (розглядаються як один об'єкт). Тому задача автоматичної та якісної кластеризації даних за прийнятний час, без попереднього структурування та дослідження інформації, є задачею, яка варта уваги та досліджень. Робота присвячена розробці модифікації для існуючих алгоритмів кластерного аналізу шляхом застосування паралельних розрахунків на графічному процесорі. Мета і завдання дослідження. Метою є удосконалення існуючих методів кластеризації даних на основі технології паралельних обчислень Nvidia Cuda для прискорення їх роботи. Для досягнення мети необхідно вирішити наступні задачі:  дослідити предметну область сучасних методів для роботи з надвеликими масивами інформації і детально розглянути методи кластеризації даних;  аналіз технології паралельних обчислень Nvidia CUDA на графічних процесорах;  розробити удосконалені методи кластеризації на основі паралельних обчислень на графічному процесорі за допомогою технології Nvidia Cuda;  розробити програмний застосунок для кластеризації даних з реалізацією обраних методів та їх удосконалених варіантів;  виконати експериментальне дослідження розробленого алгоритму. Об’єктом дослідження є процеси кластеризації даних. Предметом дослідження є швидкодія та ефективність методів кластеризації даних. Зв'язок роботи з науковими програмами, планами і темами. Робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Методи та технології високопродуктивних обчислень та обробки надвеликих масивів даних». Державний реєстраційний номер 0117U000924. Наукова новизна отриманих результатів полягає в розробці та реалізації модифікованих методів кластеризації за допомогою паралельних обрахунків на графічному процесорі Nvidia. Публікації. Матеріали роботи опубліковані в тезах конференцій «ІНФОРМАТИКА ТА ОБЧИСЛЮВАЛЬНА ТЕХНІКА – ІОТ-2018» та «ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ ПРИЙНЯТТЯ РІШЕНЬ ТА ПРОБЛЕМИ ОБЧИСЛЮВАЛЬНОГО ІНТЕЛЕКТУ».uk
dc.format.page60 с.uk
dc.identifier.citationКіндзерський, О. В. Методи та програмні засоби кластеризації даних на основі технології Nvidia Cuda : магістерська дис. : 121 Інженерія програмного забезпечення / Кіндзерський Олександр Віталійович. – Київ, 2018. – 60 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/23820
dc.language.isoukuk
dc.publisher.placeКиїв.uk
dc.subjectкластерний аналізuk
dc.subjectпаралельні обчисленняuk
dc.subjectграфічний процесорuk
dc.subjectNvidia CUDAuk
dc.subjectclaster analysisuk
dc.subjectparallel calculationsuk
dc.subjectgraphical processor unituk
dc.subject.udc004.67uk
dc.titleМетоди та програмні засоби кластеризації даних на основі технології Nvidia Cudauk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
Kindzerskyi_magistr.docx
Розмір:
1.49 MB
Формат:
Microsoft Word XML
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
7.74 KB
Формат:
Item-specific license agreed upon to submission
Опис: