Застосування LLM для синтезу класифікатора та класифікації новин

Abstract

Квалiфiкацiйна робота мiстить: 99 стор., 26 рисунків, 9 таблиць, 23 джерела, 2 додатки. Дослідження присвячено визначенню можливостей застосування LLM (Large Language Model) для класифікації новин. Об'єктом дослідження є процедури класифікації новин, зокрема новин з області криптовалют за допомогою машинного навчання. Предметом дослідження є класифікатор, що використовує модель GPT за допомогою промтів та класифікатори, які синтезовані за допомогою LLM, а саме методи: опорних векторiв, логістичної регресії та наївний баєсовий метод. Мета роботи полягає в створенні класифікатора для криптоновин, використовуючи модель LLM, а також визначення найбільш точного методу для класифікації. Проведено дослідження, спрямоване на використання LLM з метою синтезу класифікатора та подальшої класифікації криптоновин. В ході виконання роботи було проведено аналіз різних методів машинного навчання та їх порівняльний аналіз. Детально описано процес обробки тексту, включаючи лексичний аналіз, видалення стоп-слів, стемінг, очищення тексту та токенізацію. Також було здійснено порівняння результатів класифікації, використовуючи класифікатори, створені з моделями, згенерованими за допомогою чату GPT, та класифікатор, що використовує модель GPT через API з використанням промтів.

Description

Keywords

машинне навчання, класифiкацiя, велика мовна модель, чат gpt, метод опорних векторiв, лінійна регресія, наївний баєсовий метод, python, machine learning, classification, large language model, chat gpt, support vector machines, logistic regression, naive bayes

Citation

Хоменко, М. О. Застосування LLM для синтезу класифікатора та класифікації новин : дипломна робота ... бакалавра : 124 Системний аналіз / Хоменко Марина Олексіївна. – Київ, 2023. – 99 с.

DOI