Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей

dc.contributor.authorШвець, В. О.
dc.contributor.authorШаповал, Н. В.
dc.date.accessioned2026-01-07T14:59:59Z
dc.date.available2026-01-07T14:59:59Z
dc.date.issued2025
dc.description.abstractМетою дослідження є підвищення ефективності розгортання великих мовних моделей архітектури Transformer на ресурснообмежених пристроях шляхом розробки адаптивного методу структурного прунінгу. Запропоновано та реалізовано метод Adaptive 2SSP (Two-Stage Structured Pruning) Reversed, який поєднує повне видалення блоків уваги на основі метрики косинусу подібності та адаптивне стиснення шарів MLP з урахуванням їх індивідуальної надмірності. Експериментальна перевірка на моделі Llama-3.2-3B демонструє зменшення споживання відеопам'яті на 35.1% (з 5.98 GB до 3.88 GB) та прискорення генерації токенів на 34.8% (з 92 до 124 TPS) при коефіцієнті прунінгу 0.4 та покращення середньої точності на бенчмарках в порівнянні з іншими методами. Новизна полягає у розробці механізму динамічного розподілу коефіцієнтів стиснення між шарами на основі метрики Block Influence та зворотному порядку оптимізації компонентів моделі в порівнянні з оригінальним 2SSP. Результати можуть використовуватись для оптимізації розгортання LLM на споживчому обладнанні з обмеженими ресурсами.
dc.format.pagerangeС. 343-347
dc.identifier.citationШвець, В. О. Адаптивний метод структурного прунінгу для оптимізації великих мовних моделей / Швець В. О., Шаповал Н. В. // Системні науки та інформатика : збірка доповідей ІV науково-практичної конференції, [Київ], 1–5 грудня 2025 р. / Навчально-науковий Інститут прикладного системного аналізу КПІ ім. Ігоря Сікорського. – Київ, 2025. – С. 343-347.
dc.identifier.orcid0000-0002-8509-6886
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/77967
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.relation.ispartofСистемні науки та інформатика : збірка доповідей ІV науково-практичної конференції, 1–5 грудня 2025 року, м. Київ, Україна
dc.subjectвеликі мовні моделі
dc.subjectструктурний прунінг
dc.subjectоптимізація
dc.subjectLLM
dc.subjectадаптивний прунінг
dc.titleАдаптивний метод структурного прунінгу для оптимізації великих мовних моделей
dc.typeArticle

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
sni2025_P-343-347.pdf
Розмір:
910.88 KB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: