Машинне навчання для прогнозування споживання та генерації електроенергії

dc.contributor.authorЗаруба, Дмитро Сергійович
dc.contributor.authorШвець, Михайло Юрійович
dc.contributor.authorХохлов, Юрій Віталійович
dc.date.accessioned2020-05-14T15:12:45Z
dc.date.available2020-05-14T15:12:45Z
dc.date.issued2019
dc.description.abstractenThe paper is devoted to the preparation and analysis of data sets in order to improve the prediction of the amount of consumed and generated electrical energy volumes using machine learning methods. The importance level and influence on predicting the time of day, month, year, temperature, humidity, atmospheric pressure, and other factors were determined. The dataset used in this article contains the data of smart house equipped by photovoltaic cells for the own generation of electrical energy that covers the part of house’s demand. There are following values in dataset: «time», consumed electrical energy («use [kW]»), generated electrical energy («gen [kW]»), «temperature», «humidity», «visibility», «pressure», «windSpeed», «cloudCover», «windBearing», the temperature as it felt by human «apparentTemperature», precipitation intensity «precipIntensity», «dewPoint», precipitation probability «precipProbability». The data was collected during 11 months with a data fixing period of 1 minute. Before the data analysis and further learning it’s necessary to execute preliminary processing. At first stage, it was investigated how large is the part of missed and zero values in dataset. The second stage includes elimination of outliers that are situated at anomaly distance from other values in random sample. These outliers could be caused by measurement errors, wrong measuring units use. Also, it could be correct but extremum values. The purification procedure includes defining the lower and the upper quartiles of existing data for the distribution of used energy. For effective learning of the model it is necessary to choose the values that are most important and suitable for training. Pearson’s correlation coefficient was used to estimate numerically the level and positivity of linear connections between the pairs of values as well as to estimate their influence to the used and generated energy. Among the values with the high level of correlation only one was chosen that helped increasing adequacy, generalization and results interpretation. As a result of correlation analysis three parameters were selected for the training - «apparentTemperature», «dewPoint» and «precipProbability». Use of proposed preprocessing methods allows increasing the predictions exactness by 25% for the used energy and by 2% for the generated energy. The initial dataset was divided as follows: 70% of values were considered as the training samples and 30% - as testing ones. To compare the training methods three models of machine learning from the library Scikit-learn in programming language Python were considered: «Linear», «Random forest», «k nearest neighbors». The determination coefficient R² was used as a metrics to estimate the exactness. The diagrams of numerical values of R² coefficient for the parameters of generation and consumption of electrical energy and for three considered models of machine learning were built. Among the tested model the best result was demonstrated for the “Random forest” model (84% for the used energy and by 95% for the generated energy). Additional exactness increasing could be reached by use of more amount of testing samples and parameters during the analysis and more time intervals of observation as well as additional methods of data preprocessing.uk
dc.description.abstractruСтатья посвящена подготовке и анализу данных для улучшения предсказаний количества использованной и генерируемой электроэнергии методами машинного обучения, а также определению степени важности и влияния на прогнозирование таких параметров, как время суток, месяц, год, температура, влажность воздуха, атмосферного давление и других факторов. Набор данных, используемый в данной статье, содержит сведения о потреблении и генерации электроэнергии, а также погодные показатели за 11 месяцев с периодом фиксации данных 1 минута. Обработка данных основывалась на статистических методах обработки информации, определении количества пропущенных данных, линейных зависимостях между признаками, совместимости типов данных. Для оценки точности предсказаний был использован коэффициент детерминации.uk
dc.description.abstractukСтаття присвячена підготовці і аналізу даних для покращення прогнозування кількості використаної та згенерованої електроенергії методами машинного навчання, а також оцінка важливості та впливу на прогнозування періоду доби, місяця, року, температури, вологості повітря, атмосферного тиску та інших ознак. Набір даних, що використовувався в даній статті, містить відомості про використання та генерацію електроенергії, а також погодні показники за 11 місяців з періодом фіксації даних 1 хвилина. Оброблення даних ґрунтувалось на статистичних методах обробки інформації, визначенні кількості пропущених даних, лінійних залежностях між ознаками, сумісності типів даних. Для оцінки точності прогнозування було використано коефіцієнт детермінації.uk
dc.format.pagerangeС. 17-21uk
dc.identifier.citationЗаруба, Д. С. Машинне навчання для прогнозування споживання та генерації електроенергії / Заруба Д. С., Швець М. Ю., Хохлов Ю. В. // Мікросистеми, Електроніка та Акустика : науково-технічний журнал. – 2019. – Т. 24, № 6(113). – С. 17–21. – Бібліогр.: 11 назв.uk
dc.identifier.doihttps://doi.org/10.20535/2523-4455.2019.24.6.186996
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/33449
dc.language.isoukuk
dc.publisherКПІ ім. Ігоря Сікорськогоuk
dc.publisher.placeКиївuk
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/uk
dc.sourceМікросистеми, Електроніка та Акустика : науково-технічний журнал, 2019, Т. 24, № 6(113)uk
dc.subjectмашинне навчанняuk
dc.subjectкоефіцієнт кореляції Пірсонаuk
dc.subjectкоефіцієнт детермінаціїuk
dc.subjectмодель «Випадковий ліс»uk
dc.subjectmachine learninguk
dc.subjectPearson correlation coefficientuk
dc.subjectdetermination coefficientuk
dc.subjectrandom forest modeluk
dc.subjectмашинное обучениеuk
dc.subjectкоэффициент корреляции Пирсонаuk
dc.subjectкоэффициент детерминацииuk
dc.subjectмодель «Случайный лес»uk
dc.subject.udc621.311.1uk
dc.titleМашинне навчання для прогнозування споживання та генерації електроенергіїuk
dc.title.alternativeMachine Learning for a Power Consumption and Generation Predictionuk
dc.title.alternativeМашинное обучение для прогнозирования потребления и генерации электроэнергииuk
dc.typeArticleuk

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
MEA2019_24-6_p17-21.pdf
Розмір:
881.97 KB
Формат:
Adobe Portable Document Format
Опис:
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
9.06 KB
Формат:
Item-specific license agreed upon to submission
Опис: