Методи заповнення пропущених значень в масивах даних
dc.contributor.advisor | Розора, Ірина Василівна | |
dc.contributor.author | Оласюк, Світлана Олексіївна | |
dc.date.accessioned | 2024-06-24T13:43:12Z | |
dc.date.available | 2024-06-24T13:43:12Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Магістерська дисертація містить 37 сторінок, 15 першоджерел та 22 слайди презентації. Структурно робота складається зі списку термінів, вступу, теоретичної частини, основної частини, висновків та переліку використаної літератури. Відсутні значення є поширеною проблемою статистичних досліджень, дуже багато методів імпутації та їхніх модифікацій було розроблено для використання в медичній статистиці (як метод імпутації за допомогою алгоритму випадкового лісу) чи соціологічних опитуваннях (як метод швидкої заміни). Просте пропущені значення зустрічаються в найбільш різноманітних сферах, часто для адекватної оцінки ризиків збитків від природніх чи техногенних катастроф бракує інформації про суми, в яку оцінюється завдана шкода і кількість постраждалий, в нашому випадку для дослідження було обрано дані щодо техногенних і природних катастроф за останні 124 роки, статистику взято з сайту Центру досліджень епідеміології катастроф (CRED). Метою роботи є дослідження методів заповнення пропусків в масивах даних та аналіз отриманих результатів для визначення переваг та недоліків кожного з методів та доцільність використання для обраного типу даних. | |
dc.description.abstractother | The master's thesis: 37 pages, 15 primary sources and 22 presentation slides. The work consists of a list of terms, introduction, theoretical part, main part, conclusions and a list of primary sources. Missing values are a common problem in statistical research, and many imputation methods and their modifications have been developed for use in medical statistics (for example, random forest imputation) or sociological surveys (for example, hot deck). However, missing values happen almost everywhere. Often there is a lack of information about the amount of damage and the number of victims to assess the risk of damage from natural or man-made disasters. For the study, we chose data on disasters for the last 124 years; these statistics are taken from the website of the Center for Research on the Epidemiology of Disasters (CRED). The purpose of the paper is exploring the methods of filling missing values in datasets and analyzing the results to determine the advantages and disadvantages of each method and the feasibility of using it for our type of data. | |
dc.format.extent | 37 с. | |
dc.identifier.citation | Оласюк, С. О. Методи заповнення пропущених значень в масивах даних : магістерська дис. : 111 «Математика» / Оласюк Світлана Олексіївна. – Київ, 2024. – 37 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/67388 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | імпутація | |
dc.subject | заміна пропущених даних | |
dc.subject | метод заміни середнім | |
dc.subject | метод заміни медіаною | |
dc.subject | метод швидкої заміни | |
dc.subject | метод k найближчих сусідів | |
dc.subject | метод випадкового лісу | |
dc.subject | метод максимального градієнтного підсилення | |
dc.subject | hot deck | |
dc.subject | kNN | |
dc.subject | Random Forest | |
dc.subject | MissForest | |
dc.subject | XGBoost | |
dc.subject | MCAR | |
dc.subject | MAR | |
dc.subject | MNAR | |
dc.subject | imputation | |
dc.subject | missing data | |
dc.subject | mean imputation | |
dc.subject | median imputation | |
dc.subject | hot deck imputation | |
dc.subject | k nearest neighbors imputation | |
dc.subject | random forest | |
dc.subject | eXtreme gradient boosting imputation | |
dc.subject.udc | 519.2 | |
dc.title | Методи заповнення пропущених значень в масивах даних | |
dc.type | Master Thesis |
Файли
Контейнер файлів
1 - 1 з 1
Вантажиться...
- Назва:
- Olasiuk_magistr.pdf
- Розмір:
- 1.74 MB
- Формат:
- Adobe Portable Document Format
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: