Дослідження систем аналізу великих масивів неструктурованих даних

dc.contributor.advisorЛісковський, Ігор Олегович
dc.contributor.authorБабич, Микола Валерійович
dc.date.accessioned2019-03-20T13:22:38Z
dc.date.available2019-03-20T13:22:38Z
dc.date.issued2018-05
dc.description.abstractenThe work contains 85 pages, 20 illustrations, 14 table, 6 formulas and … sources. Relevance of the topic. According to experts, more than 85% of data is formed in an unstructured form. Unstructured data can include text, multimedia (video, voice, image), it is data that does not have a predefined structure, or not organized in the prescribed manner. All this leads to difficulty in analysis, especially when using traditional software that is designed to work with structured data. At all times, it is possible to find more interesting and potentially more valuable expert assessments, conclusions in unstructured data. Especially we see the rapid development of gadgets and IoT that form huge traffic flows that need to be processed. The topic of the master's thesis is relevant, because despite the rapid development of Big Data, technology is only at the beginning of its development, and with each passing year the number of questions only increases. In the processing of unstructured data, primarily interested in business, as the development of social networks the amount of actual unstructured content increases and handled manual information is not feasible. That is why researchers are faced with the question of automatic processing and classification of the text. The purpose of the thesis is to develop the algorithms for analysis of unstructured and poorly structured information and to create a text classifier using the SPSS Modeler simulation environment. In accordance with the stated goal, the following objectives were formulated: - to consider the basic algorithms of analysis of unstructured and poorly structured data; - to develop criteria for evaluating algorithms of unstructured and poorly structured data; - develop a text classifier based on the CRISP-DM process; - to implement the text classifier in the SPSS Modeler simulation environment; - test the model work. The object of research is an unstructured data. The subject of research are algorithms for analysis of unstructured and poorly structured data. Research methods. In the course of the work were used: methods of theoretical research, empirical approach, methods of logical design and procedural algorithmization, techniques of dynamic programming. Approbation of the results of the dissertation. The main results of the dissertation research was published during the iternational scientific and practical conference "Science and education: key issues of our time", 2018. (Chernihiv)uk
dc.description.abstractukОбсяг магістерської дисертації складає 85 сторінок, зокрема 20 ілюстрації, 14 таблицю, 6 формул та … джерело інформації. Актуальність теми. За думкою експертів, більше ніж 85% даних формуються у неструктурованій формі. До неструктурованих даних можна віднести текст, мультимедія (відео, голос, зображення), тобто це дані, які не мають заздалегідь визначеної структури, або не організована у встановленому порядку. Це все призводить до труднощів аналізу, особливо у випадку використання традиційного програмного забезпечення, яке призначене для роботи зі структурованими даними. Повсякчас, у неструктурованих даних можливо знайти більш цікаві та потенційно більш ціні експертні оцінки, висновки. Особливо, якщо брати до уваги бурхливих розвиток гаджетів і IoT, які формують величезні потоки трафіку, які необхідно обробити. Тема магістерської дисертації є актуальною, тому що незважаючи на бурхливий розвиток Big Data, технологія тільки на початку свого розвитку і з кожним роком кількість питань тільки збільшується. В обробці неструктурованих даних, перш за все зацікавлений бізнес, тому що з розвитком соціальних мереж кількість актуального неструктурованого контенту зростає і обробляти інформацію вручну не під силу. Саме тому перед дослідниками постає питання автоматичної обробки та класифікації тексту. Метою випускної кваліфікованої роботи є дослідження алгоритмів аналізу неструктурованої та слабо структурованої інформації та створення класифікатору тексту за допомогою середовища моделювання SPSS Modeler. Відповідно до поставленої мети були сформульовані такі завдання: – розглянути основні алгоритми аналізу неструктурованої та слабоструктурованої інформації; – виробити критерії оцінки алгоритмів неструктурованої та слабоструктурованої інформації; – розробити класифікатор тексту на основі процесу CRISP-DM; – реалізувати класифікатор тексту у середовищі моделювання SPSS Modeler; – протестувати роботу моделі. Об’єктом дослідження є неструктуровані дані. Предметом дослідження є алгоритми аналізу неструктурованої та слабоструктурованої інформаціх. Методи дослідження. В ході роботи були використані: методи теоретичного дослідження, емпіричний підхід, методи логічного проектування та процедурної алгоритмізації, прийоми динамічного програмування. Апробація результатів дисертації. Основні результати дисертаційного дослідження оприлюднено в ході міжнародної науково-практичної конференції «Наука та освіта: ключові питання сучасності», 2018. (м. Чернігів) Публікації. Основні положення і результати дисертаційної роботи знайшли своє відображення на Міжнародній науково-практичній конференції «Наука та освіта: ключові питання сучасності», 2018. (м. Чернігів).uk
dc.format.page86 c.uk
dc.identifier.citationБабич, М. В. Дослідження систем аналізу великих масивів неструктурованих даних : магістерська дис. : 172 Телекомунікації та радіотехніка / Бабич Микола Валерійович. – Київ, 2018. – 86 с.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/26806
dc.language.isoukuk
dc.publisher.placeКиївuk
dc.subjectвеликі даніuk
dc.subjectнеструктуровані даніuk
dc.subjectкласифікатор текстуuk
dc.subjectSPSS Modeleruk
dc.subjectгенетичний алгоритмuk
dc.subjectBig datauk
dc.subjectunstructured datauk
dc.subjecttext classifieruk
dc.subjectgenetic algorithmuk
dc.subject.udc519.237.8uk
dc.titleДослідження систем аналізу великих масивів неструктурованих данихuk
dc.typeMaster Thesisuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Babich_magistr.pdf
Розмір:
1.61 MB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: