Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням
| dc.contributor.author | Вітенко, І. О. | |
| dc.contributor.author | Куссуль, Н. М. | |
| dc.date.accessioned | 2026-05-27T14:58:06Z | |
| dc.date.available | 2026-05-27T14:58:06Z | |
| dc.date.issued | 2026 | |
| dc.description.abstract | У роботі досліджено задачу оптимізації процесу міркування у малих візуально-мовних моделях. Як базову модель використано SmolVLM-Instruct-2.2B, а експериментальні конфігурації побудовано на поєднанні керованого донавчання, низькорангової адаптації візуального кодувальника та GRPO-післятренування. Показано, що для компактної візуально-мовної моделі пряме перенесення рецептів, успішних для великих моделей міркування, не гарантує покращення загальної якості: жорстке форматування міркування спричиняє кругову аргументацію, а GRPO на вузьких математичних або геометричних наборах переважно посилює доменну спеціалізацію. Найстабільнішою виявилася конфігурація керованого донавчання на широкому мультимодальному наборі з ланцюгами міркування без спеціальних тегів міркування. | |
| dc.format.pagerange | С. 302-305 | |
| dc.identifier.citation | Вітенко, І. О. Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням / І. О. Вітенко, Н. М. Куссуль // Теоретичні і прикладні проблеми фізики, математики та інформатики : матеріали XXIV Всеукраїнської науково-практичної конференції студентів, аспірантів та молодих вчених, [Київ], 13–16 травня 2026 р. / КПІ ім. Ігоря Сікорського. – Київ, 2026. – С. 302-305. | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/81218 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.relation.ispartof | Теоретичні і прикладні проблеми фізики, математики та інформатики : матеріали XXIV Всеукраїнської науково-практичної конференції студентів, аспірантів та молодих вчених, 13–16 травня 2026 р., м. Київ, Україна | |
| dc.subject | візуально-мовні моделі | |
| dc.subject | малі мовні моделі | |
| dc.subject | міркування | |
| dc.subject | навчання з підкріпленням | |
| dc.subject | GRPO | |
| dc.subject | LoRA | |
| dc.subject | SmolVLM | |
| dc.subject.udc | 004.8 | |
| dc.title | Методи оптимізації процесу міркування у малих візуально-мовних моделях на основі навчання з підкріпленням | |
| dc.type | Article |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- (302-305)_SectionMMAD_Vitenko.pdf
- Розмір:
- 2.01 MB
- Формат:
- Adobe Portable Document Format
- Опис:
- Full Text
Ліцензійна угода
1 - 1 з 1