Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням
Вантажиться...
Дата
2026
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
У роботі досліджено задачу оптимізації процесу міркування у малих візуально-мовних моделях. Як базову модель використано SmolVLM-Instruct-2.2B, а експериментальні конфігурації побудовано на поєднанні керованого донавчання, низькорангової адаптації візуального кодувальника та GRPO-післятренування. Показано, що для компактної візуально-мовної моделі пряме перенесення рецептів, успішних для великих моделей міркування, не гарантує покращення загальної якості: жорстке форматування міркування спричиняє кругову аргументацію, а GRPO на вузьких математичних або геометричних наборах переважно посилює доменну спеціалізацію. Найстабільнішою виявилася конфігурація керованого донавчання на широкому мультимодальному наборі з ланцюгами міркування без спеціальних тегів міркування.
Опис
Ключові слова
візуально-мовні моделі, малі мовні моделі, міркування, навчання з підкріпленням, GRPO, LoRA, SmolVLM
Бібліографічний опис
Вітенко, І. О. Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням / І. О. Вітенко, Н. М. Куссуль // Теоретичні і прикладні проблеми фізики, математики та інформатики : матеріали XXIV Всеукраїнської науково-практичної конференції студентів, аспірантів та молодих вчених, [Київ], 13–16 травня 2026 р. / КПІ ім. Ігоря Сікорського. – Київ, 2026. – С. 302-305.