Баклан, Ігор ВсеволодовичЛуцай, Катерина Андріївна2024-02-282024-02-282023Луцай, К. А. Алгоритми та програмне забезпечення для прогнозування геолокації у соціальних мережах за допомогою моделей на основі BERT : дипломний проєкт ... бакалавра : 121 Інженерія програмного забезпечення / Луцай Катерина Андріївна. - Київ, 2023. - 207 с.https://ela.kpi.ua/handle/123456789/65068Пояснювальна записка дипломного проєкту складається з чотирьох розділів, містить 30 таблиць, 15 рисунків та 46 джерел – загалом 105 сторінок. Дипломний проєкт присвячений аналізу великих масивів коротких текстових даних, таких як запису у соціальних мережах, для визначення місцезнаходження авторів. Мета цього проєкту – покращення точності прогнозування місцезнаходження за текстом та надання гнучкої методології для маркування датасетів іншим розробникам. Об'єкт дослідження: нейронні мережі сімейства представлення двонаправленого кодера у трансформерах (BERT) для аналізу натуральної мови (NLP). Предмет дослідження: система прогнозування місцезнаходження за текстом на базі даних Твіттера. У Розділі 1 розглянуто минулі роботи в предметній області дослідження нейронних мереж та алгоритмів машинного навчання для вирішення задачі регресії до чисельного представлення місцезнаходження автора. Описано вимоги до програмного забезпечення на базі аналізу минулих підходів з використанням BERT, та поставлено задачі даної роботи. Визначено основний функціонал та спеціальні вимоги до реалізації алгоритмів, архітектури, та допоміжних програмних засобів. Розділ 2 присвячений моделюванню архітектури нейронної мережі та конструюванню багатозадачних алгоритмів машинного навчання для обрахунки функцій втрат нестандартного вихідного формату. Описано архітектуру ПЗ Розробника та ПЗ Користувача у вигляді серверної частини Телеграм боту для демонстрації роботи найкращої з навчених моделей. Розглянуто розділення на класи модульної архітектури на мові Python та розподіл функціоналу за відповідними утилітами. Запропонований підхід використовує нейронні мережі для обробки природної мови (NLP) для оцінки місцезнаходження у вигляді пар координат (довгота, широта) та моделей сумісних двовимірних розподілів (GMM) з обмеженням вихідного параметра що відповідає за коефіцієнт сферичної матриці коваріації. У Розділі 3 розглянуто минулі роботи в предметній області дослідження з точки зору загальноприйнятий метрик ефективності (точності) прогнозування місцезнаходження. Показники ефективності показують, що середня похибка становить менше 30 км на світовому рівні і менше 15 км на рівні США для моделей, навчених і оцінених на текстових змінних контенту твітів (текст) і контексті їх метаданих (користувач, місце). Описано мануальне тестування навчання, оцінки та прогнозування місцезнаходження в ролях Розробника та Користувача. Нарешті, Розділ 4 присвячений лише розгортанню серверної частини Телеграм боту, оскільки ПЗ Розробника призначене до локального запуску. Програмне забезпечення впроваджено на високопродуктивному кластері на базі ОС з ядром Unix без графічного інтерфейсу користувача. Результати роботи пройшли апробацію на рівні директора департаменту European Laboratory for Learning and Intelligent Systems (ELLIS) Christroph H.Lampert’а та подані на публікацію в Journal of Spatial Information Science (JOSIS).207 c.ukпрогнозування місцезнаходженнятрансформеринабір даних твітермашинне навчаннязадача регресіїсумісна модель гаусабагатозадачне навчаннятелеграм ботаналіз данихобробка натуральної мовиgeolocation predictiontransformerstwitter datasetmachine learningregres- sion taskgaussian mixture modelmultitask learningtelegram botnumerical data analysisnatural language processingАлгоритми та програмне забезпечення для прогнозування геолокації у соціальних мережах за допомогою моделей на основі BERTBachelor Thesis