Методи заповнення пропущених значень в масивах даних

dc.contributor.advisorРозора, Ірина Василівна
dc.contributor.authorОласюк, Світлана Олексіївна
dc.date.accessioned2024-06-24T13:43:12Z
dc.date.available2024-06-24T13:43:12Z
dc.date.issued2024
dc.description.abstractМагістерська дисертація містить 37 сторінок, 15 першоджерел та 22 слайди презентації. Структурно робота складається зі списку термінів, вступу, теоретичної частини, основної частини, висновків та переліку використаної літератури. Відсутні значення є поширеною проблемою статистичних досліджень, дуже багато методів імпутації та їхніх модифікацій було розроблено для використання в медичній статистиці (як метод імпутації за допомогою алгоритму випадкового лісу) чи соціологічних опитуваннях (як метод швидкої заміни). Просте пропущені значення зустрічаються в найбільш різноманітних сферах, часто для адекватної оцінки ризиків збитків від природніх чи техногенних катастроф бракує інформації про суми, в яку оцінюється завдана шкода і кількість постраждалий, в нашому випадку для дослідження було обрано дані щодо техногенних і природних катастроф за останні 124 роки, статистику взято з сайту Центру досліджень епідеміології катастроф (CRED). Метою роботи є дослідження методів заповнення пропусків в масивах даних та аналіз отриманих результатів для визначення переваг та недоліків кожного з методів та доцільність використання для обраного типу даних.
dc.description.abstractotherThe master's thesis: 37 pages, 15 primary sources and 22 presentation slides. The work consists of a list of terms, introduction, theoretical part, main part, conclusions and a list of primary sources. Missing values are a common problem in statistical research, and many imputation methods and their modifications have been developed for use in medical statistics (for example, random forest imputation) or sociological surveys (for example, hot deck). However, missing values happen almost everywhere. Often there is a lack of information about the amount of damage and the number of victims to assess the risk of damage from natural or man-made disasters. For the study, we chose data on disasters for the last 124 years; these statistics are taken from the website of the Center for Research on the Epidemiology of Disasters (CRED). The purpose of the paper is exploring the methods of filling missing values in datasets and analyzing the results to determine the advantages and disadvantages of each method and the feasibility of using it for our type of data.
dc.format.extent37 с.
dc.identifier.citationОласюк, С. О. Методи заповнення пропущених значень в масивах даних : магістерська дис. : 111 «Математика» / Оласюк Світлана Олексіївна. – Київ, 2024. – 37 с.
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/67388
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.subjectімпутація
dc.subjectзаміна пропущених даних
dc.subjectметод заміни середнім
dc.subjectметод заміни медіаною
dc.subjectметод швидкої заміни
dc.subjectметод k найближчих сусідів
dc.subjectметод випадкового лісу
dc.subjectметод максимального градієнтного підсилення
dc.subjecthot deck
dc.subjectkNN
dc.subjectRandom Forest
dc.subjectMissForest
dc.subjectXGBoost
dc.subjectMCAR
dc.subjectMAR
dc.subjectMNAR
dc.subjectimputation
dc.subjectmissing data
dc.subjectmean imputation
dc.subjectmedian imputation
dc.subjecthot deck imputation
dc.subjectk nearest neighbors imputation
dc.subjectrandom forest
dc.subjecteXtreme gradient boosting imputation
dc.subject.udc519.2
dc.titleМетоди заповнення пропущених значень в масивах даних
dc.typeMaster Thesis

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
Olasiuk_magistr.pdf
Розмір:
1.74 MB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: