Дослідження систем аналізу великих масивів неструктурованих даних
dc.contributor.advisor | Лісковський, Ігор Олегович | |
dc.contributor.author | Бабич, Микола Валерійович | |
dc.date.accessioned | 2019-03-20T13:22:38Z | |
dc.date.available | 2019-03-20T13:22:38Z | |
dc.date.issued | 2018-05 | |
dc.description.abstracten | The work contains 85 pages, 20 illustrations, 14 table, 6 formulas and … sources. Relevance of the topic. According to experts, more than 85% of data is formed in an unstructured form. Unstructured data can include text, multimedia (video, voice, image), it is data that does not have a predefined structure, or not organized in the prescribed manner. All this leads to difficulty in analysis, especially when using traditional software that is designed to work with structured data. At all times, it is possible to find more interesting and potentially more valuable expert assessments, conclusions in unstructured data. Especially we see the rapid development of gadgets and IoT that form huge traffic flows that need to be processed. The topic of the master's thesis is relevant, because despite the rapid development of Big Data, technology is only at the beginning of its development, and with each passing year the number of questions only increases. In the processing of unstructured data, primarily interested in business, as the development of social networks the amount of actual unstructured content increases and handled manual information is not feasible. That is why researchers are faced with the question of automatic processing and classification of the text. The purpose of the thesis is to develop the algorithms for analysis of unstructured and poorly structured information and to create a text classifier using the SPSS Modeler simulation environment. In accordance with the stated goal, the following objectives were formulated: - to consider the basic algorithms of analysis of unstructured and poorly structured data; - to develop criteria for evaluating algorithms of unstructured and poorly structured data; - develop a text classifier based on the CRISP-DM process; - to implement the text classifier in the SPSS Modeler simulation environment; - test the model work. The object of research is an unstructured data. The subject of research are algorithms for analysis of unstructured and poorly structured data. Research methods. In the course of the work were used: methods of theoretical research, empirical approach, methods of logical design and procedural algorithmization, techniques of dynamic programming. Approbation of the results of the dissertation. The main results of the dissertation research was published during the iternational scientific and practical conference "Science and education: key issues of our time", 2018. (Chernihiv) | uk |
dc.description.abstractuk | Обсяг магістерської дисертації складає 85 сторінок, зокрема 20 ілюстрації, 14 таблицю, 6 формул та … джерело інформації. Актуальність теми. За думкою експертів, більше ніж 85% даних формуються у неструктурованій формі. До неструктурованих даних можна віднести текст, мультимедія (відео, голос, зображення), тобто це дані, які не мають заздалегідь визначеної структури, або не організована у встановленому порядку. Це все призводить до труднощів аналізу, особливо у випадку використання традиційного програмного забезпечення, яке призначене для роботи зі структурованими даними. Повсякчас, у неструктурованих даних можливо знайти більш цікаві та потенційно більш ціні експертні оцінки, висновки. Особливо, якщо брати до уваги бурхливих розвиток гаджетів і IoT, які формують величезні потоки трафіку, які необхідно обробити. Тема магістерської дисертації є актуальною, тому що незважаючи на бурхливий розвиток Big Data, технологія тільки на початку свого розвитку і з кожним роком кількість питань тільки збільшується. В обробці неструктурованих даних, перш за все зацікавлений бізнес, тому що з розвитком соціальних мереж кількість актуального неструктурованого контенту зростає і обробляти інформацію вручну не під силу. Саме тому перед дослідниками постає питання автоматичної обробки та класифікації тексту. Метою випускної кваліфікованої роботи є дослідження алгоритмів аналізу неструктурованої та слабо структурованої інформації та створення класифікатору тексту за допомогою середовища моделювання SPSS Modeler. Відповідно до поставленої мети були сформульовані такі завдання: – розглянути основні алгоритми аналізу неструктурованої та слабоструктурованої інформації; – виробити критерії оцінки алгоритмів неструктурованої та слабоструктурованої інформації; – розробити класифікатор тексту на основі процесу CRISP-DM; – реалізувати класифікатор тексту у середовищі моделювання SPSS Modeler; – протестувати роботу моделі. Об’єктом дослідження є неструктуровані дані. Предметом дослідження є алгоритми аналізу неструктурованої та слабоструктурованої інформаціх. Методи дослідження. В ході роботи були використані: методи теоретичного дослідження, емпіричний підхід, методи логічного проектування та процедурної алгоритмізації, прийоми динамічного програмування. Апробація результатів дисертації. Основні результати дисертаційного дослідження оприлюднено в ході міжнародної науково-практичної конференції «Наука та освіта: ключові питання сучасності», 2018. (м. Чернігів) Публікації. Основні положення і результати дисертаційної роботи знайшли своє відображення на Міжнародній науково-практичній конференції «Наука та освіта: ключові питання сучасності», 2018. (м. Чернігів). | uk |
dc.format.page | 86 c. | uk |
dc.identifier.citation | Бабич, М. В. Дослідження систем аналізу великих масивів неструктурованих даних : магістерська дис. : 172 Телекомунікації та радіотехніка / Бабич Микола Валерійович. – Київ, 2018. – 86 с. | uk |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/26806 | |
dc.language.iso | uk | uk |
dc.publisher.place | Київ | uk |
dc.subject | великі дані | uk |
dc.subject | неструктуровані дані | uk |
dc.subject | класифікатор тексту | uk |
dc.subject | SPSS Modeler | uk |
dc.subject | генетичний алгоритм | uk |
dc.subject | Big data | uk |
dc.subject | unstructured data | uk |
dc.subject | text classifier | uk |
dc.subject | genetic algorithm | uk |
dc.subject.udc | 519.237.8 | uk |
dc.title | Дослідження систем аналізу великих масивів неструктурованих даних | uk |
dc.type | Master Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Babich_magistr.pdf
- Розмір:
- 1.61 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: