Методи заповнення пропущених значень в масивах даних
Вантажиться...
Дата
2024
Автори
Науковий керівник
Назва журналу
Номер ISSN
Назва тому
Видавець
КПІ ім. Ігоря Сікорського
Анотація
Магістерська дисертація містить 37 сторінок, 15 першоджерел та 22 слайди презентації. Структурно робота складається зі списку термінів, вступу, теоретичної частини, основної частини, висновків та переліку використаної літератури.
Відсутні значення є поширеною проблемою статистичних досліджень, дуже багато методів імпутації та їхніх модифікацій було розроблено для використання в медичній статистиці (як метод імпутації за допомогою алгоритму випадкового лісу) чи соціологічних опитуваннях (як метод швидкої заміни). Просте пропущені значення зустрічаються в найбільш різноманітних сферах, часто для адекватної оцінки ризиків збитків від природніх чи техногенних катастроф бракує інформації про суми, в яку оцінюється завдана шкода і кількість постраждалий, в нашому випадку для дослідження було обрано дані щодо техногенних і природних катастроф за останні 124 роки, статистику взято з сайту Центру досліджень епідеміології катастроф (CRED).
Метою роботи є дослідження методів заповнення пропусків в масивах даних та аналіз отриманих результатів для визначення переваг та недоліків кожного з методів та доцільність використання для обраного типу даних.
Опис
Ключові слова
імпутація, заміна пропущених даних, метод заміни середнім, метод заміни медіаною, метод швидкої заміни, метод k найближчих сусідів, метод випадкового лісу, метод максимального градієнтного підсилення, hot deck, kNN, Random Forest, MissForest, XGBoost, MCAR, MAR, MNAR, imputation, missing data, mean imputation, median imputation, hot deck imputation, k nearest neighbors imputation, random forest, eXtreme gradient boosting imputation
Бібліографічний опис
Оласюк, С. О. Методи заповнення пропущених значень в масивах даних : магістерська дис. : 111 «Математика» / Оласюк Світлана Олексіївна. – Київ, 2024. – 37 с.