Алгоритми та програмне забезпечення для прогнозування геолокації у соціальних мережах за допомогою моделей на основі BERT
dc.contributor.advisor | Баклан, Ігор Всеволодович | |
dc.contributor.author | Луцай, Катерина Андріївна | |
dc.date.accessioned | 2024-02-28T14:36:29Z | |
dc.date.available | 2024-02-28T14:36:29Z | |
dc.date.issued | 2023 | |
dc.description.abstract | Пояснювальна записка дипломного проєкту складається з чотирьох розділів, містить 30 таблиць, 15 рисунків та 46 джерел – загалом 105 сторінок. Дипломний проєкт присвячений аналізу великих масивів коротких текстових даних, таких як запису у соціальних мережах, для визначення місцезнаходження авторів. Мета цього проєкту – покращення точності прогнозування місцезнаходження за текстом та надання гнучкої методології для маркування датасетів іншим розробникам. Об'єкт дослідження: нейронні мережі сімейства представлення двонаправленого кодера у трансформерах (BERT) для аналізу натуральної мови (NLP). Предмет дослідження: система прогнозування місцезнаходження за текстом на базі даних Твіттера. У Розділі 1 розглянуто минулі роботи в предметній області дослідження нейронних мереж та алгоритмів машинного навчання для вирішення задачі регресії до чисельного представлення місцезнаходження автора. Описано вимоги до програмного забезпечення на базі аналізу минулих підходів з використанням BERT, та поставлено задачі даної роботи. Визначено основний функціонал та спеціальні вимоги до реалізації алгоритмів, архітектури, та допоміжних програмних засобів. Розділ 2 присвячений моделюванню архітектури нейронної мережі та конструюванню багатозадачних алгоритмів машинного навчання для обрахунки функцій втрат нестандартного вихідного формату. Описано архітектуру ПЗ Розробника та ПЗ Користувача у вигляді серверної частини Телеграм боту для демонстрації роботи найкращої з навчених моделей. Розглянуто розділення на класи модульної архітектури на мові Python та розподіл функціоналу за відповідними утилітами. Запропонований підхід використовує нейронні мережі для обробки природної мови (NLP) для оцінки місцезнаходження у вигляді пар координат (довгота, широта) та моделей сумісних двовимірних розподілів (GMM) з обмеженням вихідного параметра що відповідає за коефіцієнт сферичної матриці коваріації. У Розділі 3 розглянуто минулі роботи в предметній області дослідження з точки зору загальноприйнятий метрик ефективності (точності) прогнозування місцезнаходження. Показники ефективності показують, що середня похибка становить менше 30 км на світовому рівні і менше 15 км на рівні США для моделей, навчених і оцінених на текстових змінних контенту твітів (текст) і контексті їх метаданих (користувач, місце). Описано мануальне тестування навчання, оцінки та прогнозування місцезнаходження в ролях Розробника та Користувача. Нарешті, Розділ 4 присвячений лише розгортанню серверної частини Телеграм боту, оскільки ПЗ Розробника призначене до локального запуску. Програмне забезпечення впроваджено на високопродуктивному кластері на базі ОС з ядром Unix без графічного інтерфейсу користувача. Результати роботи пройшли апробацію на рівні директора департаменту European Laboratory for Learning and Intelligent Systems (ELLIS) Christroph H.Lampert’а та подані на публікацію в Journal of Spatial Information Science (JOSIS). | |
dc.description.abstractother | The explanatory note of the diploma project consists of four sections, contains 30 tables, 15 figures and 46 sources – in total 105 pages. The purpose of the diploma project is providing software to analyze large amounts of short text data, such as social media posts, to predict the location of authors. The goal of this project is to improve the accuracy of geolocation prediction from text and provide a flexible methodology for labelling datasets for other developers. Object of research: neural networks of the Bidirectional Encoder Representation in Transformers (BERT) family for natural language processing (NLP). Subject of research: a text-based location prediction system based on custom Twitter data. Section 1 reviews past work in the subject area of neural networks and machine learning algorithms for solving the problem of regression to a numerical representation of the author's geolocation. The software requirements are described based on the analysis of past approaches using BERT, and the tasks of this work are set. The main functionality and special requirements for the implementation of algorithms, architecture, and auxiliary software tools are defined. Section 2 is devoted to modelling the neural network architecture and designing multitasking machine learning algorithms for calculating loss functions of non-standard output format. The architecture of the Developer's software and the User's software in the form of the Telegram bot server side is described to demonstrate the work of the best trained model. The division of the modular architecture into classes in Python and the distribution of functionality to the corresponding utilities are considered. The proposed approach uses natural language processing (NLP) neural networks to estimate location in the form of coordinate pairs (longitude, latitude) and joint Gaussian Mixture Models (GMMs) with a restriction of the output parameter responsible for the coefficient of the spherical covariance matrix. In Section 3, we review past work in the subject area in terms of commonly used metrics of location prediction performance (accuracy). The performance metrics show that the average error is less than 30 km at the global level and less than 15 km at the US level for models trained and evaluated on the textual variables of tweet content (text) and their metadata context (user, location). Manual testing of training, evaluation and location prediction in the roles of Developer and User is described. Finally, Section 4 is devoted only to the deployment of the server side of the Telegram bot, as the Developer's software is designed to run locally. The software was implemented on a high-performance cluster based on a Unixbased OS without a graphical user interface. The results of the work were tested at the level of the Director of the European Laboratory for Learning and Intelligent Systems (ELLIS) Christroph H. Lampert and submitted for publication in the Journal of Spatial Information Science (JOSIS). | |
dc.format.extent | 207 c. | uk |
dc.identifier.citation | Луцай, К. А. Алгоритми та програмне забезпечення для прогнозування геолокації у соціальних мережах за допомогою моделей на основі BERT : дипломний проєкт ... бакалавра : 121 Інженерія програмного забезпечення / Луцай Катерина Андріївна. - Київ, 2023. - 207 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/65068 | |
dc.language.iso | uk | uk |
dc.publisher | КПІ ім. Ігоря Сікорського | uk |
dc.publisher.place | Київ | |
dc.subject | прогнозування місцезнаходження | uk |
dc.subject | трансформери | uk |
dc.subject | набір даних твітер | uk |
dc.subject | машинне навчання | uk |
dc.subject | задача регресії | uk |
dc.subject | сумісна модель гауса | uk |
dc.subject | багатозадачне навчання | uk |
dc.subject | телеграм бот | uk |
dc.subject | аналіз даних | uk |
dc.subject | обробка натуральної мови | uk |
dc.subject | geolocation prediction | uk |
dc.subject | transformers | uk |
dc.subject | twitter dataset | uk |
dc.subject | machine learning | uk |
dc.subject | regres- sion task | uk |
dc.subject | gaussian mixture model | uk |
dc.subject | multitask learning | uk |
dc.subject | telegram bot | uk |
dc.subject | numerical data analysis | uk |
dc.subject | natural language processing | uk |
dc.title | Алгоритми та програмне забезпечення для прогнозування геолокації у соціальних мережах за допомогою моделей на основі BERT | |
dc.type | Bachelor Thesis | uk |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Lutsai_bakalavr.pdf
- Розмір:
- 16.08 MB
- Формат:
- Adobe Portable Document Format
- Опис:
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: