Business Intelligence Techniques for Missing Data Imputations

dc.contributor.authorKuznietsova, N. V.en
dc.contributor.authorBidyuk, P. I.en
dc.contributor.authorКузнєцова, Наталія Володимирівнаuk
dc.contributor.authorБідюк, Петро Івановичuk
dc.contributor.authorКузнецова, Н. В.ru
dc.contributor.authorБидюк, Петр Ивановичru
dc.date.accessioned2016-10-30T17:45:30Z
dc.date.available2016-10-30T17:45:30Z
dc.date.issued2015
dc.description.abstractenBackground. Properly constructed decision support systems (DSS) for modelling and forecasting behaviour of dynamic systems provide a possibility for taking into consideration uncertainties of probabilistic, statistical and structural types what results in higher quality of developed models and estimated forecasts. Objective. To consider general reasons for loosing (missing) data in statistical data analysis; to provide categorization of missing data into several groups, and identify the reasons for missing measurements; to provide stepwise system methodology for uncertainty analysis and selection of data imputation techniques; to give an insight into some popular missing values imputation techniques regarding their possible applications. Methods. To solve the problems mentioned the following methods have been used: data categorization approach from business or practical point of view that is necessary for discovering the reasons for availability of systemic and/or random missing values; the modern systemic methodology was hired for analysis of uncertainty causes and missing values imputation; the decision tree based imputation procedures; EM algorithm and regression model approach to forecasting missing data using forecasting functions. Results. The main results of the study are in categorization of the missing data into groups; development of systemic methodology for analysis of uncertainty causes and missing values imputation; providing an analysis for possibilities of missing values imputation with decision trees, EM algorithm and regression models; development of multistep forecasting functions on the basis of autoregression models; illustration of application of some selected perspective methods for missing data imputation. Conclusions. We proposed the six steps system methodology for data imputation which stresses that selection of correct method for imputation is tightly connected with the step-by-step analysis of the gaps causes and finding an appropriate technique for their imputation. The results of imputation sometimes are rather far from the existing data and should be smoothed or even broken from the sample due to their incorrectness. For such cases it should be proposed a new probabilistic-regression method which allows define parameters of the probability interval for the regression aiming missing data imputation. A series of computing experiments performed with EM algorithm, forecast regression based imputation technique and some other approaches shows that it is possible to reach high quality results regarding correct processing of data with missing values.en
dc.description.abstractruПроблематика. Системы поддержки принятия решений, спроектированные в соответствии с современными требованиями для решения задач моделирования и прогнозирования поведения динамических систем, дают возможность учета неопределенностей вероятностного, статистического и структурного типов. Это приводит к повышению качества разрабатываемых моделей и оценок прогнозов. Цель исследования. Рассмотреть общие причины потери данных при решении задач их статистического анализа; выполнить категоризацию пропусков данных на несколько групп и определить причины появления пропусков; предложить системную методологию анализа неопределенностей и выбора методов заполнения пропусков; рассмотреть некоторые популярные методы заполнения пропусков, а также возможности их применения. Методика реализации. Для решения поставленных задач использованы такие методы: подход к категоризации пропусков данных с практической и деловой точек зрения с целью выявления причин появления систематических или случайных потерь данных; современная методология системного анализа для установления причин появления неопределенностей и решения задачи заполнения пропусков; процедуры заполнения пропусков данных с помощью деревьев решений; алгоритм ЕМ и подход к заполнению пропусков с помощью функций прогнозирования, которые строятся на основе регрессионных моделей. Результаты исследования. Основными результатами исследования являются такие: категоризация пропущенных данных на группы; разработка системной методологии анализа причин появления неопределенностей и решение задачи заполнения пропусков; анализ процедур заполнения пропусков с помощью деревьев решений, алгоритма ЕМ и регрессионных моделей. Приведена иллюстрация применения некоторых перспективных методов заполнения пропусков. Выводы. Предложена методика заполнения пропусков данных с шести шагов, в которой подчеркивается, что выбор корректного метода заполнения тесно связан с углубленным анализом причин появления пропусков. Результаты заполнения пропусков иногда существенно отличаются от фактических данных, а потому их необходимо сглаживать или даже удалять с выборки из-за их некорректности. В таких случаях необходимо использовать вероятностно-регрессионные процедуры, которые дают возможность определять параметры вероятностных интервалов регрессии в процессе генерирования кандидатов на заполнение. Вычислительные эксперименты, выполненные с использованием алгоритма ЕМ, а также оценок прогнозов, полученных на основе регрессионных моделей и некоторых других методов, свидетельствуют о том, что существуют возможности для получения высококачественных результатов обработки данных с пропусками.ru
dc.description.abstractukПроблематика. Належним чином спроектовані системи підтримки прийняття рішень для моделювання і прогнозування поведінки динамічних систем надають можливість врахування невизначеностей ймовірнісного, статистичного і структурного типів. Це сприяє підвищенню якості розроблюваних моделей та оцінок прогнозів. Мета дослідження. Розглянути загальні причини втрати даних при розв’язанні задач їх статистичного аналізу; виконати категоризацію пропусків даних на кілька груп та виявити причини появи пропусків; запропонувати системну методологію аналізу невизначеностей та вибору методів заповнення пропусків; розглянути деякі популярні методи заповнення пропусків та можливості їх застосування. Методика реалізації. Для розв’язання поставлених задач використано такі методи: підхід до категоризації пропусків даних з практичної та ділової точок зору з метою виявлення причин появи систематичних або випадкових втрат даних; сучасна методологія системного аналізу для встановлення причин появи невизначеностей та розв’язання задачі заповнення пропусків; процедури заповнення пропусків даних за допомогою дерев рішень; алгоритм ЕМ та підхід до заповнення пропусків за допомогою функцій прогнозування, що будуються на основі регресійних моделей. Результати дослідження. Основними результатами дослідження є такі: категоризація пропущених даних на групи; розробка системної методології аналізу причини появи невизначеностей та розв’язання задачі заповнення пропусків; аналіз процедур заповнення пропусків за допомогою дерев рішень, алгоритму ЕМ та регресійних моделей. Наведено ілюстрацію застосування деяких перспективних методів заповнення пропусків. Висновки. Запропоновано методику заповнення пропусків даних із шести кроків, яка підкреслює, що вибір коректного методу заповнення тісно пов’язаний із докладним аналізом причин появи пропусків. Результати заповнення пропусків іноді істотно відрізняються від фактичних даних, а тому їх необхідно згладжувати або навіть видаляти з вибірки внаслідок їх некоректності. У таких випадках необхідно використовувати ймовірнісно-регресійні процедури, які надають можливість визначати параметри ймовірнісних інтервалів регресії при генеруванні кандидатів на заповнення. Обчислювальні експерименти, виконані із застосуванням алгоритму ЕМ, оцінок прогнозів, отриманих на основі регресійних моделей та деяких інших методів, свідчать про те, що існують можливості для одержання високоякісних результатів обробки даних з пропусками.uk
dc.format.pagerangePp. 47-56uk
dc.identifier.citationKuznietsova N. V. Business Intelligence Techniques for Missing Data Imputations / N. V. Kuznietsova, P. I. Bidyuk // Наукові вісті НТУУ «КПІ» : науково-технічний журнал. – 2015. – № 5(103). – С. 47–56. – Бібліогр.: 8 назв.uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/17885
dc.language.isoenuk
dc.publisherНТУУ «КПІ»uk
dc.publisher.placeКиївuk
dc.source.nameНаукові вісті НТУУ «КПІ»: науково-технічний журналuk
dc.status.pubpublisheduk
dc.subjectuncertainties in data processingen
dc.subjectimputation of missing dataen
dc.subjectsystemic approachen
dc.subjectdecision support systemen
dc.subjectневизначеності, які трапляються в обробці данихuk
dc.subjectзаповнення пропусківuk
dc.subjectсистемний підхідuk
dc.subjectсистеми підтримки прийняття рішеньuk
dc.subjectнеопределенности, встречающиеся в обработке данныхru
dc.subjectзаполнение пропусковru
dc.subjectсистемный подходru
dc.subjectсистемы поддержки принятия решенийru
dc.subject.udc004.6uk
dc.titleBusiness Intelligence Techniques for Missing Data Imputationsen
dc.title.alternativeТехнології інтелектуальних бізнес-платформ для заповнення пропусків данихuk
dc.title.alternativeТехнологии интеллектуальных бизнес-платформ для заполнения пропусков данныхru
dc.typeArticleuk
thesis.degree.level-uk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
NV2015_5_6Kuznietsova.pdf
Розмір:
254.8 KB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
7.71 KB
Формат:
Item-specific license agreed upon to submission
Опис: