Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей

Вантажиться...
Ескіз

Дата

2025

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Метою дослідження є підвищення ефективності розгортання великих мовних моделей архітектури Transformer на ресурснообмежених пристроях шляхом розробки адаптивного методу структурного прунінгу. Запропоновано та реалізовано метод Adaptive 2SSP (Two-Stage Structured Pruning) Reversed, який поєднує повне видалення блоків уваги на основі метрики косинусу подібності та адаптивне стиснення шарів MLP з урахуванням їх індивідуальної надмірності. Експериментальна перевірка на моделі Llama-3.2-3B демонструє зменшення споживання відеопам'яті на 35.1% (з 5.98 GB до 3.88 GB) та прискорення генерації токенів на 34.8% (з 92 до 124 TPS) при коефіцієнті прунінгу 0.4 та покращення середньої точності на бенчмарках в порівнянні з іншими методами. Новизна полягає у розробці механізму динамічного розподілу коефіцієнтів стиснення між шарами на основі метрики Block Influence та зворотному порядку оптимізації компонентів моделі в порівнянні з оригінальним 2SSP. Результати можуть використовуватись для оптимізації розгортання LLM на споживчому обладнанні з обмеженими ресурсами.

Опис

Ключові слова

великі мовні моделі, структурний прунінг, оптимізація, LLM, адаптивний прунінг

Бібліографічний опис

Швець, В. О. Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей / Швець В. О., Шаповал Н. В. // Системні науки та інформатика : збірка доповідей ІV науково-практичної конференції, [Київ], 1–5 грудня 2025 р. / Навчально-науковий Інститут прикладного системного аналізу КПІ ім. Ігоря Сікорського. – Київ, 2025. – С. 343-347.

ORCID

DOI