Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням

Вітенко, І. О.; Куссуль, Н. М.

Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням

Файли

(302-305)_SectionMMAD_Vitenko.pdf (2.01 MB)

Дата

2026

Автори

Вітенко, І. О.

Куссуль, Н. М.

Видавець

КПІ ім. Ігоря Сікорського

Анотація

У роботі досліджено задачу оптимізації процесу міркування у малих візуально-мовних моделях. Як базову модель використано SmolVLM-Instruct-2.2B, а експериментальні конфігурації побудовано на поєднанні керованого донавчання, низькорангової адаптації візуального кодувальника та GRPO-післятренування. Показано, що для компактної візуально-мовної моделі пряме перенесення рецептів, успішних для великих моделей міркування, не гарантує покращення загальної якості: жорстке форматування міркування спричиняє кругову аргументацію, а GRPO на вузьких математичних або геометричних наборах переважно посилює доменну спеціалізацію. Найстабільнішою виявилася конфігурація керованого донавчання на широкому мультимодальному наборі з ланцюгами міркування без спеціальних тегів міркування.

Ключові слова

візуально-мовні моделі, малі мовні моделі, міркування, навчання з підкріпленням, GRPO, LoRA, SmolVLM

Бібліографічний опис

Вітенко, І. О. Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням / І. О. Вітенко, Н. М. Куссуль // Теоретичні і прикладні проблеми фізики, математики та інформатики : матеріали XXIV Всеукраїнської науково-практичної конференції студентів, аспірантів та молодих вчених, [Київ], 13–16 травня 2026 р. / КПІ ім. Ігоря Сікорського. – Київ, 2026. – С. 302-305.

URI

https://ela.kpi.ua/handle/123456789/81218

Зібрання

Теоретичні і прикладні проблеми фізики, математики та інформатики (24 ; 2026 ; Київ)

Повна інформація про документ

Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання