Алгоритми та програмне забезпечення для прогнозування геолокації у соціальних мережах за допомогою моделей на основі BERT
Вантажиться...
Дата
2023
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Пояснювальна записка дипломного проєкту складається з чотирьох розділів, містить 30 таблиць, 15 рисунків та 46 джерел – загалом 105 сторінок.
Дипломний проєкт присвячений аналізу великих масивів коротких текстових даних, таких як запису у соціальних мережах, для визначення місцезнаходження авторів.
Мета цього проєкту – покращення точності прогнозування місцезнаходження за текстом та надання гнучкої методології для маркування датасетів іншим розробникам.
Об'єкт дослідження: нейронні мережі сімейства представлення двонаправленого кодера у трансформерах (BERT) для аналізу натуральної мови (NLP).
Предмет дослідження: система прогнозування місцезнаходження за текстом на базі даних Твіттера.
У Розділі 1 розглянуто минулі роботи в предметній області дослідження нейронних мереж та алгоритмів машинного навчання для вирішення задачі регресії до чисельного представлення місцезнаходження автора. Описано
вимоги до програмного забезпечення на базі аналізу минулих підходів з використанням BERT, та поставлено задачі даної роботи. Визначено основний функціонал та спеціальні вимоги до реалізації алгоритмів, архітектури, та допоміжних програмних засобів.
Розділ 2 присвячений моделюванню архітектури нейронної мережі та конструюванню багатозадачних алгоритмів машинного навчання для обрахунки функцій втрат нестандартного вихідного формату. Описано архітектуру ПЗ Розробника та ПЗ Користувача у вигляді серверної частини Телеграм боту для демонстрації роботи найкращої з навчених моделей. Розглянуто розділення на класи модульної архітектури на мові Python та розподіл функціоналу за відповідними утилітами. Запропонований підхід використовує нейронні мережі для обробки природної мови (NLP) для оцінки місцезнаходження у вигляді пар координат (довгота, широта) та моделей
сумісних двовимірних розподілів (GMM) з обмеженням вихідного параметра що відповідає за коефіцієнт сферичної матриці коваріації.
У Розділі 3 розглянуто минулі роботи в предметній області дослідження з точки зору загальноприйнятий метрик ефективності (точності) прогнозування місцезнаходження. Показники ефективності показують, що середня похибка становить менше 30 км на світовому рівні і менше 15 км на рівні США для моделей, навчених і оцінених на текстових змінних контенту твітів (текст) і контексті їх метаданих (користувач, місце). Описано мануальне тестування навчання, оцінки та прогнозування місцезнаходження в ролях Розробника та Користувача.
Нарешті, Розділ 4 присвячений лише розгортанню серверної частини Телеграм боту, оскільки ПЗ Розробника призначене до локального запуску.
Програмне забезпечення впроваджено на високопродуктивному кластері на базі ОС з ядром Unix без графічного інтерфейсу користувача.
Результати роботи пройшли апробацію на рівні директора департаменту European Laboratory for Learning and Intelligent Systems (ELLIS) Christroph H.Lampert’а та подані на публікацію в Journal of Spatial Information Science
(JOSIS).
Опис
Ключові слова
прогнозування місцезнаходження, трансформери, набір даних твітер, машинне навчання, задача регресії, сумісна модель гауса, багатозадачне навчання, телеграм бот, аналіз даних, обробка натуральної мови, geolocation prediction, transformers, twitter dataset, machine learning, regres- sion task, gaussian mixture model, multitask learning, telegram bot, numerical data analysis, natural language processing
Бібліографічний опис
Луцай, К. А. Алгоритми та програмне забезпечення для прогнозування геолокації у соціальних мережах за допомогою моделей на основі BERT : дипломний проєкт ... бакалавра : 121 Інженерія програмного забезпечення / Луцай Катерина Андріївна. - Київ, 2023. - 207 с.