Business Intelligence Techniques for Missing Data Imputations

Kuznietsova, N. V.; Bidyuk, P. I.; Кузнєцова, Наталія Володимирівна; Бідюк, Петро Іванович; Кузнецова, Н. В.; Бидюк, Петр Иванович

Business Intelligence Techniques for Missing Data Imputations

dc.contributor.author	Kuznietsova, N. V.	en
dc.contributor.author	Bidyuk, P. I.	en
dc.contributor.author	Кузнєцова, Наталія Володимирівна	uk
dc.contributor.author	Бідюк, Петро Іванович	uk
dc.contributor.author	Кузнецова, Н. В.	ru
dc.contributor.author	Бидюк, Петр Иванович	ru
dc.date.accessioned	2016-10-30T17:45:30Z
dc.date.available	2016-10-30T17:45:30Z
dc.date.issued	2015
dc.description.abstracten	Background. Properly constructed decision support systems (DSS) for modelling and forecasting behaviour of dynamic systems provide a possibility for taking into consideration uncertainties of probabilistic, statistical and structural types what results in higher quality of developed models and estimated forecasts. Objective. To consider general reasons for loosing (missing) data in statistical data analysis; to provide categorization of missing data into several groups, and identify the reasons for missing measurements; to provide stepwise system methodology for uncertainty analysis and selection of data imputation techniques; to give an insight into some popular missing values imputation techniques regarding their possible applications. Methods. To solve the problems mentioned the following methods have been used: data categorization approach from business or practical point of view that is necessary for discovering the reasons for availability of systemic and/or random missing values; the modern systemic methodology was hired for analysis of uncertainty causes and missing values imputation; the decision tree based imputation procedures; EM algorithm and regression model approach to forecasting missing data using forecasting functions. Results. The main results of the study are in categorization of the missing data into groups; development of systemic methodology for analysis of uncertainty causes and missing values imputation; providing an analysis for possibilities of missing values imputation with decision trees, EM algorithm and regression models; development of multistep forecasting functions on the basis of autoregression models; illustration of application of some selected perspective methods for missing data imputation. Conclusions. We proposed the six steps system methodology for data imputation which stresses that selection of correct method for imputation is tightly connected with the step-by-step analysis of the gaps causes and finding an appropriate technique for their imputation. The results of imputation sometimes are rather far from the existing data and should be smoothed or even broken from the sample due to their incorrectness. For such cases it should be proposed a new probabilistic-regression method which allows define parameters of the probability interval for the regression aiming missing data imputation. A series of computing experiments performed with EM algorithm, forecast regression based imputation technique and some other approaches shows that it is possible to reach high quality results regarding correct processing of data with missing values.	en
dc.description.abstractru	Проблематика. Системы поддержки принятия решений, спроектированные в соответствии с современными требованиями для решения задач моделирования и прогнозирования поведения динамических систем, дают возможность учета неопределенностей вероятностного, статистического и структурного типов. Это приводит к повышению качества разрабатываемых моделей и оценок прогнозов. Цель исследования. Рассмотреть общие причины потери данных при решении задач их статистического анализа; выполнить категоризацию пропусков данных на несколько групп и определить причины появления пропусков; предложить системную методологию анализа неопределенностей и выбора методов заполнения пропусков; рассмотреть некоторые популярные методы заполнения пропусков, а также возможности их применения. Методика реализации. Для решения поставленных задач использованы такие методы: подход к категоризации пропусков данных с практической и деловой точек зрения с целью выявления причин появления систематических или случайных потерь данных; современная методология системного анализа для установления причин появления неопределенностей и решения задачи заполнения пропусков; процедуры заполнения пропусков данных с помощью деревьев решений; алгоритм ЕМ и подход к заполнению пропусков с помощью функций прогнозирования, которые строятся на основе регрессионных моделей. Результаты исследования. Основными результатами исследования являются такие: категоризация пропущенных данных на группы; разработка системной методологии анализа причин появления неопределенностей и решение задачи заполнения пропусков; анализ процедур заполнения пропусков с помощью деревьев решений, алгоритма ЕМ и регрессионных моделей. Приведена иллюстрация применения некоторых перспективных методов заполнения пропусков. Выводы. Предложена методика заполнения пропусков данных с шести шагов, в которой подчеркивается, что выбор корректного метода заполнения тесно связан с углубленным анализом причин появления пропусков. Результаты заполнения пропусков иногда существенно отличаются от фактических данных, а потому их необходимо сглаживать или даже удалять с выборки из-за их некорректности. В таких случаях необходимо использовать вероятностно-регрессионные процедуры, которые дают возможность определять параметры вероятностных интервалов регрессии в процессе генерирования кандидатов на заполнение. Вычислительные эксперименты, выполненные с использованием алгоритма ЕМ, а также оценок прогнозов, полученных на основе регрессионных моделей и некоторых других методов, свидетельствуют о том, что существуют возможности для получения высококачественных результатов обработки данных с пропусками.	ru
dc.description.abstractuk	Проблематика. Належним чином спроектовані системи підтримки прийняття рішень для моделювання і прогнозування поведінки динамічних систем надають можливість врахування невизначеностей ймовірнісного, статистичного і структурного типів. Це сприяє підвищенню якості розроблюваних моделей та оцінок прогнозів. Мета дослідження. Розглянути загальні причини втрати даних при розв’язанні задач їх статистичного аналізу; виконати категоризацію пропусків даних на кілька груп та виявити причини появи пропусків; запропонувати системну методологію аналізу невизначеностей та вибору методів заповнення пропусків; розглянути деякі популярні методи заповнення пропусків та можливості їх застосування. Методика реалізації. Для розв’язання поставлених задач використано такі методи: підхід до категоризації пропусків даних з практичної та ділової точок зору з метою виявлення причин появи систематичних або випадкових втрат даних; сучасна методологія системного аналізу для встановлення причин появи невизначеностей та розв’язання задачі заповнення пропусків; процедури заповнення пропусків даних за допомогою дерев рішень; алгоритм ЕМ та підхід до заповнення пропусків за допомогою функцій прогнозування, що будуються на основі регресійних моделей. Результати дослідження. Основними результатами дослідження є такі: категоризація пропущених даних на групи; розробка системної методології аналізу причини появи невизначеностей та розв’язання задачі заповнення пропусків; аналіз процедур заповнення пропусків за допомогою дерев рішень, алгоритму ЕМ та регресійних моделей. Наведено ілюстрацію застосування деяких перспективних методів заповнення пропусків. Висновки. Запропоновано методику заповнення пропусків даних із шести кроків, яка підкреслює, що вибір коректного методу заповнення тісно пов’язаний із докладним аналізом причин появи пропусків. Результати заповнення пропусків іноді істотно відрізняються від фактичних даних, а тому їх необхідно згладжувати або навіть видаляти з вибірки внаслідок їх некоректності. У таких випадках необхідно використовувати ймовірнісно-регресійні процедури, які надають можливість визначати параметри ймовірнісних інтервалів регресії при генеруванні кандидатів на заповнення. Обчислювальні експерименти, виконані із застосуванням алгоритму ЕМ, оцінок прогнозів, отриманих на основі регресійних моделей та деяких інших методів, свідчать про те, що існують можливості для одержання високоякісних результатів обробки даних з пропусками.	uk
dc.format.pagerange	Pp. 47-56	uk
dc.identifier.citation	Kuznietsova N. V. Business Intelligence Techniques for Missing Data Imputations / N. V. Kuznietsova, P. I. Bidyuk // Наукові вісті НТУУ «КПІ» : науково-технічний журнал. – 2015. – № 5(103). – С. 47–56. – Бібліогр.: 8 назв.	uk
dc.identifier.uri	https://ela.kpi.ua/handle/123456789/17885
dc.language.iso	en	uk
dc.publisher	НТУУ «КПІ»	uk
dc.publisher.place	Київ	uk
dc.source.name	Наукові вісті НТУУ «КПІ»: науково-технічний журнал	uk
dc.status.pub	published	uk
dc.subject	uncertainties in data processing	en
dc.subject	imputation of missing data	en
dc.subject	systemic approach	en
dc.subject	decision support system	en
dc.subject	невизначеності, які трапляються в обробці даних	uk
dc.subject	заповнення пропусків	uk
dc.subject	системний підхід	uk
dc.subject	системи підтримки прийняття рішень	uk
dc.subject	неопределенности, встречающиеся в обработке данных	ru
dc.subject	заполнение пропусков	ru
dc.subject	системный подход	ru
dc.subject	системы поддержки принятия решений	ru
dc.subject.udc	004.6	uk
dc.title	Business Intelligence Techniques for Missing Data Imputations	en
dc.title.alternative	Технології інтелектуальних бізнес-платформ для заповнення пропусків даних	uk
dc.title.alternative	Технологии интеллектуальных бизнес-платформ для заполнения пропусков данных	ru
dc.type	Article	uk
thesis.degree.level	-	uk

Файли

Контейнер файлів

Зараз показуємо 1 - 1 з 1

Назва:: NV2015_5_6Kuznietsova.pdf
Розмір:: 254.8 KB
Формат:: Adobe Portable Document Format

Завантажити

Ліцензійна угода

Зараз показуємо 1 - 1 з 1

Назва:: license.txt
Розмір:: 7.71 KB
Формат:: Item-specific license agreed upon to submission
Опис:

Завантажити

Зібрання

Наукові вісті НТУУ «КПІ»: науково-технічний журнал, № 5(103)