Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей
| dc.contributor.author | Швець, В. О. | |
| dc.contributor.author | Шаповал, Н. В. | |
| dc.date.accessioned | 2026-01-07T14:59:59Z | |
| dc.date.available | 2026-01-07T14:59:59Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | Метою дослідження є підвищення ефективності розгортання великих мовних моделей архітектури Transformer на ресурснообмежених пристроях шляхом розробки адаптивного методу структурного прунінгу. Запропоновано та реалізовано метод Adaptive 2SSP (Two-Stage Structured Pruning) Reversed, який поєднує повне видалення блоків уваги на основі метрики косинусу подібності та адаптивне стиснення шарів MLP з урахуванням їх індивідуальної надмірності. Експериментальна перевірка на моделі Llama-3.2-3B демонструє зменшення споживання відеопам'яті на 35.1% (з 5.98 GB до 3.88 GB) та прискорення генерації токенів на 34.8% (з 92 до 124 TPS) при коефіцієнті прунінгу 0.4 та покращення середньої точності на бенчмарках в порівнянні з іншими методами. Новизна полягає у розробці механізму динамічного розподілу коефіцієнтів стиснення між шарами на основі метрики Block Influence та зворотному порядку оптимізації компонентів моделі в порівнянні з оригінальним 2SSP. Результати можуть використовуватись для оптимізації розгортання LLM на споживчому обладнанні з обмеженими ресурсами. | |
| dc.format.pagerange | С. 343-347 | |
| dc.identifier.citation | Швець, В. О. Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей / Швець В. О., Шаповал Н. В. // Системні науки та інформатика : збірка доповідей ІV науково-практичної конференції, [Київ], 1–5 грудня 2025 р. / Навчально-науковий Інститут прикладного системного аналізу КПІ ім. Ігоря Сікорського. – Київ, 2025. – С. 343-347. | |
| dc.identifier.orcid | 0000-0002-8509-6886 | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/77967 | |
| dc.language.iso | uk | |
| dc.publisher | КПІ ім. Ігоря Сікорського | |
| dc.publisher.place | Київ | |
| dc.relation.ispartof | Системні науки та інформатика : збірка доповідей ІV науково-практичної конференції, 1–5 грудня 2025 року, м. Київ, Україна | |
| dc.subject | великі мовні моделі | |
| dc.subject | структурний прунінг | |
| dc.subject | оптимізація | |
| dc.subject | LLM | |
| dc.subject | адаптивний прунінг | |
| dc.title | Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей | |
| dc.type | Article |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- sni2025_P-343-347.pdf
- Розмір:
- 910.88 KB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: