Лісковський, Ігор ОлеговичБабич, Микола Валерійович2019-03-202019-03-202018-05Бабич, М. В. Дослідження систем аналізу великих масивів неструктурованих даних : магістерська дис. : 172 Телекомунікації та радіотехніка / Бабич Микола Валерійович. – Київ, 2018. – 86 с.https://ela.kpi.ua/handle/123456789/26806Обсяг магістерської дисертації складає 85 сторінок, зокрема 20 ілюстрації, 14 таблицю, 6 формул та … джерело інформації. Актуальність теми. За думкою експертів, більше ніж 85% даних формуються у неструктурованій формі. До неструктурованих даних можна віднести текст, мультимедія (відео, голос, зображення), тобто це дані, які не мають заздалегідь визначеної структури, або не організована у встановленому порядку. Це все призводить до труднощів аналізу, особливо у випадку використання традиційного програмного забезпечення, яке призначене для роботи зі структурованими даними. Повсякчас, у неструктурованих даних можливо знайти більш цікаві та потенційно більш ціні експертні оцінки, висновки. Особливо, якщо брати до уваги бурхливих розвиток гаджетів і IoT, які формують величезні потоки трафіку, які необхідно обробити. Тема магістерської дисертації є актуальною, тому що незважаючи на бурхливий розвиток Big Data, технологія тільки на початку свого розвитку і з кожним роком кількість питань тільки збільшується. В обробці неструктурованих даних, перш за все зацікавлений бізнес, тому що з розвитком соціальних мереж кількість актуального неструктурованого контенту зростає і обробляти інформацію вручну не під силу. Саме тому перед дослідниками постає питання автоматичної обробки та класифікації тексту. Метою випускної кваліфікованої роботи є дослідження алгоритмів аналізу неструктурованої та слабо структурованої інформації та створення класифікатору тексту за допомогою середовища моделювання SPSS Modeler. Відповідно до поставленої мети були сформульовані такі завдання: – розглянути основні алгоритми аналізу неструктурованої та слабоструктурованої інформації; – виробити критерії оцінки алгоритмів неструктурованої та слабоструктурованої інформації; – розробити класифікатор тексту на основі процесу CRISP-DM; – реалізувати класифікатор тексту у середовищі моделювання SPSS Modeler; – протестувати роботу моделі. Об’єктом дослідження є неструктуровані дані. Предметом дослідження є алгоритми аналізу неструктурованої та слабоструктурованої інформаціх. Методи дослідження. В ході роботи були використані: методи теоретичного дослідження, емпіричний підхід, методи логічного проектування та процедурної алгоритмізації, прийоми динамічного програмування. Апробація результатів дисертації. Основні результати дисертаційного дослідження оприлюднено в ході міжнародної науково-практичної конференції «Наука та освіта: ключові питання сучасності», 2018. (м. Чернігів) Публікації. Основні положення і результати дисертаційної роботи знайшли своє відображення на Міжнародній науково-практичній конференції «Наука та освіта: ключові питання сучасності», 2018. (м. Чернігів).ukвеликі данінеструктуровані данікласифікатор текстуSPSS Modelerгенетичний алгоритмBig dataunstructured datatext classifiergenetic algorithmДослідження систем аналізу великих масивів неструктурованих данихMaster Thesis86 c.519.237.8