Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням

dc.contributor.authorВітенко, І. О.
dc.contributor.authorКуссуль, Н. М.
dc.date.accessioned2026-05-27T14:58:06Z
dc.date.available2026-05-27T14:58:06Z
dc.date.issued2026
dc.description.abstractУ роботі досліджено задачу оптимізації процесу міркування у малих візуально-мовних моделях. Як базову модель використано SmolVLM-Instruct-2.2B, а експериментальні конфігурації побудовано на поєднанні керованого донавчання, низькорангової адаптації візуального кодувальника та GRPO-післятренування. Показано, що для компактної візуально-мовної моделі пряме перенесення рецептів, успішних для великих моделей міркування, не гарантує покращення загальної якості: жорстке форматування міркування спричиняє кругову аргументацію, а GRPO на вузьких математичних або геометричних наборах переважно посилює доменну спеціалізацію. Найстабільнішою виявилася конфігурація керованого донавчання на широкому мультимодальному наборі з ланцюгами міркування без спеціальних тегів міркування.
dc.format.pagerangeС. 302-305
dc.identifier.citationВітенко, І. О. Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням / І. О. Вітенко, Н. М. Куссуль // Теоретичні і прикладні проблеми фізики, математики та інформатики : матеріали XXIV Всеукраїнської науково-практичної конференції студентів, аспірантів та молодих вчених, [Київ], 13–16 травня 2026 р. / КПІ ім. Ігоря Сікорського. – Київ, 2026. – С. 302-305.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/81218
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.relation.ispartofТеоретичні і прикладні проблеми фізики, математики та інформатики : матеріали XXIV Всеукраїнської науково-практичної конференції студентів, аспірантів та молодих вчених, 13–16 травня 2026 р., м. Київ, Україна
dc.subjectвізуально-мовні моделі
dc.subjectмалі мовні моделі
dc.subjectміркування
dc.subjectнавчання з підкріпленням
dc.subjectGRPO
dc.subjectLoRA
dc.subjectSmolVLM
dc.subject.udc004.8
dc.titleМетоди оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням
dc.typeArticle

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
(302-305)_SectionMMAD_Vitenko.pdf
Розмір:
2.01 MB
Формат:
Adobe Portable Document Format
Опис:
Full Text
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
479 B
Формат:
Plain Text
Опис: