Evaluation of the effectiveness of two approaches to building damage detection with satellite imagery
| dc.contributor.author | Oliinyk, Yurii | |
| dc.contributor.author | Rumiantsev, Oleksii | |
| dc.date.accessioned | 2026-02-06T13:23:00Z | |
| dc.date.available | 2026-02-06T13:23:00Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | This study addresses the approaches for satellite image analysis to assess infrastructure damage. Themain aim is to conduct a comprehensive comparative analysis of the effectiveness of two key machinelearning approaches: specialized semantic segmentation based on theU-Netarchitecture and generalizedvisual analysis using large vision-language models. The object of the research is the process of quantitativelybenchmarking these two distinct approaches to determine their practical applicability for multi-class damageclassification.The research material is the publicly availablexView2dataset. The methods involved two parallelexperiments. For the semantic segmentation approach, aU-Netmodel with anEfficientNet-B4encoderwas implemented and trained on 6-channel input data (”before” and ”after” images) using a combinedDiceandFocalloss function. For the vision-language models approach, the open-sourceLLaVA-1.5-7Bmodelwas evaluated in a zero-shot mode using advanced prompt engineering for an aggregative counting task.To enable a direct comparison, the standardJaccard indexwas calculated based on the aggregated objectcounts for each damage class.The results of the experiments revealed a significant performance disparity. The specializedU-Netmodeldemonstrated high effectiveness, achieving an intersection over union score of 0.6141 on the test set. Incontrast, theLLaVAmodel proved unsuitable for accurate quantitative analysis, yielding an extremely lowJaccard indexof approximately 0.063, primarily due to its systemic failure to correctly identify and countobjects (𝑅𝑒𝑐𝑎𝑙𝑙≈0.07). The scientific novelty lies in being the first study to quantitatively document thisorder-of-magnitude capability gap, confirming that for tasks requiring high-precision mapping, specializedsegmentation models remain the indispensable tool. | |
| dc.description.abstractother | У цьому дослідженні розглядаються підходи до аналізу супутникових знімків для оцінки пошкоджень інфраструктури. Основна мета — провести комплексний порівняльний аналіз ефективності двох ключових підходів машинного навчання: спеціалізованої семантичної сегментації на основі архітектури U-Net та узагальненого візуального аналізу з використанням великих зорово-мовних моделей. Об'єктом дослідження є процес кількісного порівняння цих двох різних підходів для визначення їхньої практичної придатності для багатокласової класифікації пошкоджень. Матеріалом для дослідження слугував загальнодоступний набір даних xView2. Методи включали два паралельні експерименти. Для підходу семантичної сегментації було реалізовано та навчено модель U-Net з енкодером EfficientNet-B4 на 6-канальних вхідних даних (зображення "до" та "після") з використанням комбінованої функції втрат Dice та Focal. Для підходу із зорово-мовними моделями, модель з відкритим кодом LLaVA-1.5-7B оцінювалася в режимі "zero-shot" з використанням передової інженерії запитів для задачі агрегованого підрахунку. Для прямого порівняння був розрахований стандартний індекс Жаккара на основі агрегованого підрахунку об'єктів для кожного класу пошкоджень. Результати експериментів виявили значну розбіжність у продуктивності. Спеціалізована модель U-Net продемонструвала високу ефективність, досягнувши показника IoU 0.6141 на тестовому наборі. На противагу цьому, модель LLaVA виявилася непридатною для точного кількісного аналізу, показавши надзвичайно низьке значення індексу Жаккара близько 0.063, переважно через її системну неспроможність коректно ідентифікувати та підраховувати об'єкти (повнота для розподілів ≈ 0.07). Наукова новизна полягає в тому, що це перше дослідження, яке кількісно задокументувало цей розрив у можливостях на порядок, підтверджуючи, що для завдань, які вимагають високоточного картографування, спеціалізовані моделі сегментації залишаються незамінним інструментом. | |
| dc.format.pagerange | P. 61-71 | |
| dc.identifier.citation | Oliinyk, Y. Evaluation of the effectiveness of two approaches to building damage detection with satellite imagery / Oleksii Rumiantsev, Yurii Oliinyk // Information, Computing and Intelligent systems. – 2025. – No. 7. – P. 61-71. – Bibliogr.: 15 ref. | |
| dc.identifier.doi | https://doi.org/10.20535/2786-8729.7.2025.341475 | |
| dc.identifier.orcid | 0000-0002-7408-4927 | |
| dc.identifier.orcid | 0009-0005-7223-3633 | |
| dc.identifier.uri | https://ela.kpi.ua/handle/123456789/78686 | |
| dc.language.iso | en | |
| dc.publisher | National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" | |
| dc.publisher.place | Kyiv | |
| dc.relation.ispartof | Information, Computing and Intelligent systems, No. 7, 2025 | |
| dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
| dc.subject | satellite image analysis | |
| dc.subject | damage detection | |
| dc.subject | semantic segmentation | |
| dc.subject | U-Net | |
| dc.subject | large vision-languagemodel | |
| dc.subject | аналіз супутникових знімків | |
| dc.subject | оцінка руйнувань | |
| dc.subject | семантична сегментація | |
| dc.subject | великі зорово-мовні моделі | |
| dc.subject.udc | 004.93 | |
| dc.title | Evaluation of the effectiveness of two approaches to building damage detection with satellite imagery | |
| dc.title.alternative | Оцінка ефективності двох підходів до виявлення руйнувань будівель за допомогою супутникових знімків | |
| dc.type | Article |
Файли
Контейнер файлів
1 - 1 з 1
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: