Дослідження систем аналізу великих масивів неструктурованих даних
Вантажиться...
Дата
2018-05
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
Анотація
Обсяг магістерської дисертації складає 85 сторінок, зокрема 20 ілюстрації, 14 таблицю, 6 формул та … джерело інформації.
Актуальність теми. За думкою експертів, більше ніж 85% даних формуються у неструктурованій формі. До неструктурованих даних можна віднести текст, мультимедія (відео, голос, зображення), тобто це дані, які не мають заздалегідь визначеної структури, або не організована у встановленому порядку. Це все призводить до труднощів аналізу, особливо у випадку використання традиційного програмного забезпечення, яке призначене для роботи зі структурованими даними. Повсякчас, у неструктурованих даних можливо знайти більш цікаві та потенційно більш ціні експертні оцінки, висновки. Особливо, якщо брати до уваги бурхливих розвиток гаджетів і IoT, які формують величезні потоки трафіку, які необхідно обробити.
Тема магістерської дисертації є актуальною, тому що незважаючи на бурхливий розвиток Big Data, технологія тільки на початку свого розвитку і з кожним роком кількість питань тільки збільшується. В обробці неструктурованих даних, перш за все зацікавлений бізнес, тому що з розвитком соціальних мереж кількість актуального неструктурованого контенту зростає і обробляти інформацію вручну не під силу. Саме тому перед дослідниками постає питання автоматичної обробки та класифікації тексту.
Метою випускної кваліфікованої роботи є дослідження алгоритмів аналізу неструктурованої та слабо структурованої інформації та створення класифікатору тексту за допомогою середовища моделювання SPSS Modeler.
Відповідно до поставленої мети були сформульовані такі завдання:
– розглянути основні алгоритми аналізу неструктурованої та слабоструктурованої інформації;
– виробити критерії оцінки алгоритмів неструктурованої та слабоструктурованої інформації;
– розробити класифікатор тексту на основі процесу CRISP-DM;
– реалізувати класифікатор тексту у середовищі моделювання SPSS Modeler;
– протестувати роботу моделі.
Об’єктом дослідження є неструктуровані дані.
Предметом дослідження є алгоритми аналізу неструктурованої та слабоструктурованої інформаціх.
Методи дослідження. В ході роботи були використані: методи теоретичного дослідження, емпіричний підхід, методи логічного проектування та процедурної алгоритмізації, прийоми динамічного програмування.
Апробація результатів дисертації. Основні результати дисертаційного дослідження оприлюднено в ході міжнародної науково-практичної конференції «Наука та освіта: ключові питання сучасності», 2018. (м. Чернігів)
Публікації. Основні положення і результати дисертаційної роботи знайшли своє відображення на Міжнародній науково-практичній конференції «Наука та освіта: ключові питання сучасності», 2018. (м. Чернігів).
Опис
Ключові слова
великі дані, неструктуровані дані, класифікатор тексту, SPSS Modeler, генетичний алгоритм, Big data, unstructured data, text classifier, genetic algorithm
Бібліографічний опис
Бабич, М. В. Дослідження систем аналізу великих масивів неструктурованих даних : магістерська дис. : 172 Телекомунікації та радіотехніка / Бабич Микола Валерійович. – Київ, 2018. – 86 с.