Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей

Швець, В. О.; Шаповал, Н. В.

Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей

Файли

sni2025_P-343-347.pdf (910.88 KB)

Дата

2025

Автори

Швець, В. О.

Шаповал, Н. В.

Видавець

КПІ ім. Ігоря Сікорського

Анотація

Метою дослідження є підвищення ефективності розгортання великих мовних моделей архітектури Transformer на ресурснообмежених пристроях шляхом розробки адаптивного методу структурного прунінгу. Запропоновано та реалізовано метод Adaptive 2SSP (Two-Stage Structured Pruning) Reversed, який поєднує повне видалення блоків уваги на основі метрики косинусу подібності та адаптивне стиснення шарів MLP з урахуванням їх індивідуальної надмірності. Експериментальна перевірка на моделі Llama-3.2-3B демонструє зменшення споживання відеопам'яті на 35.1% (з 5.98 GB до 3.88 GB) та прискорення генерації токенів на 34.8% (з 92 до 124 TPS) при коефіцієнті прунінгу 0.4 та покращення середньої точності на бенчмарках в порівнянні з іншими методами. Новизна полягає у розробці механізму динамічного розподілу коефіцієнтів стиснення між шарами на основі метрики Block Influence та зворотному порядку оптимізації компонентів моделі в порівнянні з оригінальним 2SSP. Результати можуть використовуватись для оптимізації розгортання LLM на споживчому обладнанні з обмеженими ресурсами.

Ключові слова

великі мовні моделі, структурний прунінг, оптимізація, LLM, адаптивний прунінг

Бібліографічний опис

Швець, В. О. Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей / Швець В. О., Шаповал Н. В. // Системні науки та інформатика : збірка доповідей ІV науково-практичної конференції, [Київ], 1–5 грудня 2025 р. / Навчально-науковий Інститут прикладного системного аналізу КПІ ім. Ігоря Сікорського. – Київ, 2025. – С. 343-347.

URI

https://ela.kpi.ua/handle/123456789/77967

Зібрання

Системні науки та інформатика (4 ; Київ ; 2025)

Повна інформація про документ

Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей

Файли

Дата

Автори

Науковий керівник

Назва журналу

Номер ISSN

Назва тому

Видавець

Анотація

Опис

Ключові слова

Бібліографічний опис

ORCID

URI

DOI

Зібрання