Прогнозування популярності онлайн-курсів на платформі Coursera

dc.contributor.authorАнтюк, Ю.
dc.contributor.authorЛіхоузова,Т.
dc.contributor.authorОлійник, Ю.
dc.date.accessioned2026-03-03T13:30:05Z
dc.date.available2026-03-03T13:30:05Z
dc.date.issued2026
dc.description.abstractРобота присвячена побудові та дослідженню моделей прогнозування кількості студентів за основі рейтингу, кількості модулів, тривалості, рівня складності та типу розкладу курсів за допомогою лінійної та поліноміальної множинної регресії, Random forest та XGBoost та задачу класифікації курсів на популярні (більше 20000 студентів) та непопулярні (до 20000 студентів) методами логістичної регресії, Decision tree, Random forest та SVM. Для моделей прогнозування найкращий баланс показників R², MAE, RMSE та MSE у нормалізованій вибірці (кількість студентів <= 40000). У цій вибірці дані мають меншу дисперсію, тому моделі можуть ефективно захопити закономірності. Поліноміальні та ансамблеві моделі показують помітно кращу якість. Цей датафрейм можна використовувати як основну підвибірку для розробки надійної моделі. В обох розглянутих випадках класифікації курсів на популярні та непопулярні, найкращі результати стабільно демонструє модель Random Forest. Вона забезпечує найвищий precision для популярних курсів — ключової метрики для даної задачі, адже помилкова класифікація непопулярного курсу як популярного може призвести до фінансових втрат. Random Forest також демонструє збалансовані значення recall, f1-міри та загальної точності accuracy як на повному датасеті, так і на датасеті із кількістю студентів до 40000. Дерево рішень також є простою й інтерпретованою моделлю з непоганою якістю, але поступається Random Forest. Моделі SVM і логістична регресія мають нижчі показники precision для класу "популярний" і менш стабільну ефективність. Результати роботи можуть бути корисними для людей, що шукають перевірені та популярні курси для навчання і для організацій, що є провайдерами курсів.
dc.description.abstractotherThe work is devoted to the construction and study of models for predicting the number of students based on the rating, number of modules, duration, level of complexity and type of course schedule using linear and polynomial multiple regression, Random forest and XGBoost and the problem of classifying courses into popular (more than 20,000 students) and unpopular (up to 20,000 students) using logistic regression, Decision tree, Random forest and SVM methods. For forecasting models, the best balance of R², MAE, RMSE and MSE indicators is in the normalized sample (number of students <= 40,000). In this sample, the data has less variance, so the models can effectively capture patterns. Polynomial and ensemble models show noticeably better quality. This data frame can be used as the main subsample for developing a reliable model. In both considered cases of classifying courses into popular and unpopular, the Random Forest model consistently demonstrates the best results. It provides the highest precision for popular courses — a key metric for this task, since misclassifying an unpopular course as popular can lead to financial losses. Random Forest also demonstrates balanced recall, f1-measure, and overall accuracy values both on the full dataset and on a dataset with up to 40,000 students. Decision Tree is also a simple and interpretable model with good quality, but is inferior to Random Forest. SVM and logistic regression models have lower precision for the "popular" class and less consistent performance. The results of the work can be useful for people looking for proven and popular courses for training and for organizations that are course providers.
dc.format.pagerangeС. 51-57
dc.identifier.citationАнтюк, Ю. Прогнозування популярності онлайн-курсів на платформі Coursera / Ю. Антюк, Т. Ліхоузова, Ю. Олійник // Адаптивні системи автоматичного управління : міжвідомчий науково-технічний збірник. – 2026. – № 1 (48). – С. 51-57. – Бібліогр.: 9 назв.
dc.identifier.doihttps://doi.org/10.20535/1560-8956.48.2026.351882
dc.identifier.urihttps://ela.kpi.ua/handle/123456789/79196
dc.language.isouk
dc.publisherКПІ ім. Ігоря Сікорського
dc.publisher.placeКиїв
dc.relation.ispartofАдаптивні системи автоматичного управління : міжвідомчий науково-технічний збірник, № 1 (48), 2026
dc.rights.urihttps://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectінтелектуальний аналіз даних
dc.subjectмодель прогнозування
dc.subjectмодель класифікації
dc.subjectdata mining
dc.subjectprediction model
dc.subjectclassification model
dc.subject.udc004.94
dc.titleПрогнозування популярності онлайн-курсів на платформі Coursera
dc.title.alternativeForecasting the popularity of online courses on the Coursera platform
dc.typeArticle

Файли

Контейнер файлів
Зараз показуємо 1 - 1 з 1
Вантажиться...
Ескіз
Назва:
51-57.pdf
Розмір:
681.1 KB
Формат:
Adobe Portable Document Format
Ліцензійна угода
Зараз показуємо 1 - 1 з 1
Ескіз недоступний
Назва:
license.txt
Розмір:
8.98 KB
Формат:
Item-specific license agreed upon to submission
Опис: