Algorithms of statistical anomalies clearing for data science applications

dc.contributor.authorPysarchuk, O.
dc.contributor.authorBaran, D.
dc.contributor.authorMironov, Yu.
dc.contributor.authorPysarchuk, I.
dc.date.accessioned2023-07-13T09:26:09Z
dc.date.available2023-07-13T09:26:09Z
dc.date.issued2023
dc.description.abstractThe paper considers the nature of input data used by Data Science algorithms of modern-day application domains. It then proposes three algorithms designed to remove statistical anomalies from datasets as a part of the Data Science pipeline. The main advantages of given algorithms are their relative simplicity and a small number of configurable parameters. Parameters are determined by machine learning with respect to the properties of input data. These algorithms are flexible and have no strict dependency on the nature and origin of data. The efficiency of the proposed approaches is verified with a modeling experiment conducted using algorithms implemented in Python. The results are illustrated with plots built using raw and processed datasets. The algorithms application is analyzed, and results are compared.uk
dc.description.abstractotherРозглянуто природу даних, що використовуються в задачах сучасних прикладних областей. Запропоновано декілька алгоритмів очищення статистичної вибірки від аномалій в конвеєрі задач Data Science. Відзнакою та перевагою запропонованих алгоритмів є їх відносна простота та обмежена кількість параметрів налаштувань, що визначаються за технологіями навчання відповідно до властивостей вхідних статистичних даних. Запропоновані алгоритми є достатньо гнучкими у використанні і не залежать від природи та походження даних. Результати модельного експерименту запропонованих підходів у вигляді скриптів мовою Python та базових бібліотек довели їх ефективність. Результати проілюстровано графіками, побудованими з використанням початкових даних та даних, що змінені за допомогою запропонованих алгоритмів. Застосування алгоритмів проаналізовано та порівняно результати виконання алгоритмів.uk
dc.format.pagerangePp. 78-84uk
dc.identifier.citationAlgorithms of statistical anomalies clearing for data science applications / Pysarchuk O., Baran D., Mironov Yu., Pysarchuk I. // Системні дослідження та інформаційні технології : міжнародний науково-технічний журнал. – 2023. – № 1. – С. 78-84. – Бібліогр.: 10 назв.uk
dc.identifier.doihttps://doi.org/10.20535/SRIT.2308-8893.2023.1.06
dc.identifier.issn1681–6048
dc.identifier.orcid0000-0001-5271-0248uk
dc.identifier.orcid0000-0002-3251-8897uk
dc.identifier.orcid0000-0002-2291-5864uk
dc.identifier.orcid0000-0003-4343-0142uk
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/58076
dc.language.isoenuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.relation.ispartofСистемні дослідження та інформаційні технології : міжнародний науково-технічний журнал, № 1uk
dc.subjectanomaly removaluk
dc.subjectanomaly detectionuk
dc.subjectnoise removaluk
dc.subjectstatistical techniquesuk
dc.subjectdata analysisuk
dc.subjectbig datauk
dc.subjectdata cleaninguk
dc.subjectочищення від аномалійuk
dc.subjectвиявлення аномалійuk
dc.subjectвидалення шумуuk
dc.subjectстатистичні методиuk
dc.subjectаналіз данихuk
dc.subjectвеликі даніuk
dc.subjectочищення данихuk
dc.subject.udc004.5uk
dc.titleAlgorithms of statistical anomalies clearing for data science applicationsuk
dc.title.alternativeАлгоритми очищення статистичної вибірки від аномалій Для задач data scienceuk
dc.typeArticleuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
260175-645054-1-10-20230520.pdf
Розмір:
280.81 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.1 KB
Формат:
Item-specific license agreed upon to submission
Опис: