Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням

Вантажиться...
Ескіз

Дата

2026

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

У роботі досліджено задачу оптимізації процесу міркування у малих візуально-мовних моделях. Як базову модель використано SmolVLM-Instruct-2.2B, а експериментальні конфігурації побудовано на поєднанні керованого донавчання, низькорангової адаптації візуального кодувальника та GRPO-післятренування. Показано, що для компактної візуально-мовної моделі пряме перенесення рецептів, успішних для великих моделей міркування, не гарантує покращення загальної якості: жорстке форматування міркування спричиняє кругову аргументацію, а GRPO на вузьких математичних або геометричних наборах переважно посилює доменну спеціалізацію. Найстабільнішою виявилася конфігурація керованого донавчання на широкому мультимодальному наборі з ланцюгами міркування без спеціальних тегів міркування.

Опис

Ключові слова

візуально-мовні моделі, малі мовні моделі, міркування, навчання з підкріпленням, GRPO, LoRA, SmolVLM

Бібліографічний опис

Вітенко, І. О. Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням / І. О. Вітенко, Н. М. Куссуль // Теоретичні і прикладні проблеми фізики, математики та інформатики : матеріали XXIV Всеукраїнської науково-практичної конференції студентів, аспірантів та молодих вчених, [Київ], 13–16 травня 2026 р. / КПІ ім. Ігоря Сікорського. – Київ, 2026. – С. 302-305.

ORCID

DOI