Мультимодальна мовна модель для генерації текстових описів по зображенню

Вантажиться...
Ескіз

Дата

2025

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Дипломна робота: 168 с., 34 рис., 7 табл., 2 додатки, 13 джерел. Об’єкт дослідження – генерація текстових описів зображень базуючихся на гібридному вхідному форматі даних. Предмет дослідження – модель PaliGemma, яка являє собою інноваційний підхід у сферах обробки природної мови та комп’ютерного зору, використовуючи технологію трансформерів, зокрема в контексті комбінованих запитів (текст та зображення). Мета роботи – побудувати архітектуру моделі PaliGemma і розробити застосунок для її інференсу через веб-інтерфейс для зручної взаємодії з користувачем. Мета дослідження – побудувати архітектуру моделі PaliGemma і розробити застосунок для її інференсу через веб-інтерфейс для зручної взаємодії з користувачем. Актуальність – з розвитком технологій у сфері нейронних мереж і штучного інтелекту, сфера генеративних мереж, яка може поєднувати обробку природної мови та комп'ютерний зір, стає все більш актуальною. Наразі LLM з гібридним форматом вхідних даних використовується повсюди: 1) у бізнес-сфері для вирішення побажань клієнтів, наприклад, інтеграція чат–ботів у програмне забезпечення; 2) в науковій сфері для вивчення та аналізу дослідницьких статей; 3) у сфері освіти, LLM використовуються для роз’яснення матеріалу, постановки завдань та їх швидкої перевірки; 4) у сфері медицини для виявлення по знімкам МРТ ракових пухлин. Результати роботи – у межах роботи було реалізовано модель генерації текстових описів за текстовим і растровим інпутом з використанням моделі PaliGemma. Шляхи подальшого розвитку предмета дослідження – в майбутньому можна ще більше розширити вхідні формати даних, щоб модель стала ще більш універсальною, також можна ще детренувати модель для покращення узагальнюючих здібностей моделі, і для більш зручного користувацького досвіду можна розробити мобільний застосунок.

Опис

Ключові слова

мультимодальна мовна модель, мовна модель, генерація тексту, опис зображень, комп’ютерний зір, текстова генерація, штучний інтелект, машинне навчання, обробка природної мови, multimodal language model, language model, text generation, image description, computer vision, textual generation, artificial intelligence, machine learning, natural language processing

Бібліографічний опис

Нечай, М. С. Мультимодальна мовна модель для генерації текстових описів по зображенню : дипломна робота ... бакалавра : 124 Системний аналіз / Нечай Микола Сергійович. - Київ, 2025. - 170 с.

ORCID

DOI