Чертов, Олег РомановичЖук, Іван Сергійович2024-02-052024-02-052023Жук, І. С. Математичні моделі і методи виявлення за публічно доступними даними підозрілих на фіксований результат футбольних матчів : дис. … д-ра філософії : 113 Прикладна математика / Жук Іван Сергійович. – Київ, 2023. – 187 с.https://ela.kpi.ua/handle/123456789/64301Жук І. С. Математичні моделі і методи виявлення за публічно доступними даними підозрілих на фіксований результат футбольних матчів. ― Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії з галузі знань 11 Математика та Статистика за спеціальністю 113 Прикладна математика. ― Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2023. Метою роботи є підвищення ефективності виявлення підозрілих на фіксований результат футбольних матчів на базі обробки виключно загальнодоступних публічних даних за результатами сезону футбольного турніру. Однією з найважливіших проблем футболу, що зіставна з проблемою допінгу, є договірні матчі. Результати таких матчів або певний перебіг подій в них є наперед визначеними, тобто фіксованими. У договірних матчах, пов’язаних з виграшом за ставками, завданням є отримання результату, відмінного від очікуваного. Тому такі результати можна розглядати як нетипові, аномальні. Для перевірки поточного матчу на фіксований результат використовують математичні методи футбольної аналітики, такі як: прогнозування результату матчу, аналіз ставок або дій учасників матчу протягом всієї гри. Їх перевагою є оперативність прийняття рішень, а недоліком ― необхідність використання дуже великої кількості даних, які, зазвичай, не є публічно доступними. Альтернативним може розглядатись підхід, коли рішення щодо фіксованості матчу приймається за результатами усього сезону. При цьому загально доступною є публічна інформація щодо результатів проведених ігор усіх команд, що дозволяє формалізувати пошук матчів, підозрілих на фіксований результат як задачу виявлення контекстуальних аномалій. Найбільш адекватними розглянутій задачі виявлення підозрілих на фіксований результат матчів на основі доступної публічної інформації є статистичні непараметричні гістограмні методи. Це обумовлено тим, що вхідні дані характеризуються малою кількістю дискретних числових значень і їх закони розподілу ймовірностей є невідомими. Водночас, ефективність використання цих методів залежить від об’єму вибірки. Разом з цим, перспективним є математичний апарат конформних предикторів та степеневих мартингалів, який не вимагає знання законів розподілу даних, використовує інформацію про міру неконформності даних та може бути використаний для вирішення задач класифікації даних. Тому актуальною науковою задачею є розробка методів виявлення підозрілих на фіксований результат матчів з використанням апарату конформних предикторів і степеневих мартингалів на базі обробки виключно загальнодоступних публічних даних за результатами сезону футбольного турніру. В першому розділі розглянуто проблематику договірних футбольних матчів і обґрунтовано актуальність досліджень, спрямованих на пошук матчів, потенційно підозрілих на фіксованість результату, на базі обробки виключно загальнодоступних публічних даних. Показано, що застосування математичних методів футбольної аналітики, таких як прогнозування результату матчу, аналізу ставок або дій учасників матчу протягом всієї гри щодо виявлення підозрілих на фіксований результат матчів вимагає великої кількості даних, які не завжди доступні для аналізу. Відмічено, що задача виявлення підозрілих щодо фіксованого результату матчів за результатами сезону футбольного турніру відноситься до класу задач виявлення контекстних аномалій, які вирішуються в області інтелектуального аналізу даних. Проведено аналіз статистичних методів, а також методів машинного навчання, які використовуються для виявлення аномалій. Особливу увагу присвячено методам класифікації на основі конформних предикторів, які запропоновано використати для підвищення ефективності виявлення потенційно підозрілих договірних матчів. Сформульовано мету і наукові завдання дисертаційного дослідження. Другий розділ присвячено розробці імітаційної моделі футбольного сезону з матчами з фіксованим результатом. Для визначення контекстуального атрибуту «сила команди» проведено групування команд методами K-середніх та Гаусівських сумішей за ознаками кількість очок та різницею між забитими і пропущеними м’ячами в одновимірному та двовимірному просторах. Визначено початкові дані, обмеження та формули розрахунку ймовірностей забиття голів командами під час гри на основі реальних даних сезону для побудови імітаційної моделі. Розроблено імітаційну модель футбольного сезону та проведено її аналіз шляхом статистичного моделювання. Розроблено алгоритм моделювання договірних матчів, пов’язаних із заробітком на ставках. Третій розділ присвячено розробці методів виявлення підозрілих щодо фіксованості результату футбольних матчів за наявності даних про весь сезон. Запропоновано міри неконформності поточного матчу. На основі аномального конформного детектору розроблено метод виявлення підозрілих щодо фіксованості результату футбольних матчів, в якому прийняття рішень відбувається за пороговим правилом. Проведено порівняльний аналіз методів виявлення матчів, підозрілих на фіксований результат на основі експертно визначеного порогу відхилення і конформного аномального детектору. З використанням степеневого і інтегрального мартингалів розроблено методи виявлення підозрілих щодо фіксованого результату футбольних матчів, в яких прийняття рішення відбувається при зростанні значення степеневого мартингалу для поточного спостереження по відношенню до значення цього ж мартингала для попереднього спостереження. В четвертому розділі шляхом імітаційного моделювання розглянуто аналіз особливостей розроблених методів за даними окремих класів модельного сезону. Проведено порівняльний аналіз розроблених методів та відомого гістограмного методу за даними модельного сезону з використанням метрики точності (precision, P), повноти (recall, R) і міри F1. Запропоновані методи також використано для виявлення матчів, які вважаються договірними, в сезоні 2014–2015 рр. Серії В Італії. Наукова новизна одержаних результатів полягає у наступному: 1. Розроблено новий метод виявлення підозрілих щодо фіксованості результату футбольних матчів, який відрізняється від відомих застосуванням конформного аномального детектора із запропонованою мірою неконформності поточного матчу, що забезпечує можливість визначення порогу прийняття рішення у відповідності до заданого значення апріорної ймовірності появи аномальних даних. 2. Розроблено новий метод виявлення підозрілих щодо фіксованості результату футбольних матчів, який відрізняється від відомих застосуванням степеневого мартингалу і правилом прийняття рішення на основі порівняння поточного значення степеневого мартингалу з попереднім, що дозволяє за рахунок зміни параметра чутливості налаштовувати степеневий мартингал на виявлення аномалій відповідного рівня і знаходити їх. 3. Розроблено новий метод виявлення підозрілих щодо фіксованості результату футбольних матчів, який відрізняється від відомих застосуванням інтегрального мартингалу і правилом прийняття рішення на основі порівняння поточного значення інтегрального мартингалу з попереднім, що дає змогу виявляти аномальні матчі без налаштування параметрів. 4. Доведені нові властивості степеневого мартингалу: - за яких завгодно малих значень ступеня конформності (p-value) поточного спостереження значення степеневого мартингала для поточного спостереження є більшим за значення цього ж мартингала для попереднього спостереження; - збільшення значення степеневого мартингала для поточного спостереження по відношенню до попереднього еквівалентно виконанню правила конформного аномального детектора зі значенням рівня аномальності, який дорівнює n 1 1−n, де n ― параметр чутливості степеневого мартингалу Mk (n) . 5. Отримала подальший розвиток імітаційна модель футбольного сезону, яка на відміну від існуючих враховує розбиття матчів на класи за контекстуальними атрибутами «сила команди» і «тип гри» ― домашня або виїзна, що забезпечує моделювання договірних матчів з фіксованим результатом, які мають аномальний характер. 6. Удосконалено метод кластеризації на основі Гаусівських сумішей в частині регуляризації недіагональних елементів коваріаційних матриць, що дало змогу зменшити чутливість до початкових умов і отримувати кластери еліпсоподібної форми, які враховують неочевидні зв’язки між точками набору даних. Практичне значення одержаних результатів полягає у тому, що: 1. Розроблена імітаційна модель футбольного сезону забезпечує подібність змодельованого сезону з реальним за типами результатів матчів як за всіма класами матчів, так і в цілому на рівні значущості 0,001 за критерієм Колмогорова-Смирнова. 2. Запропоновані методи виявлення на основі конформного аномального детектора, степеневого мартингалу й інтегрального мартингалу на модельних даних забезпечили підвищення ефективності виявлення підозрілих на фіксований результат футбольних матчів у порівнянні з відомим гістограмним методом на 3-13 % за метрикою точності, 11-30% ― за метрикою повноти і 10-18% ― за метрикою F1. 3. Запропоновані методи на основі конформного аномального детектора, степеневого мартингалу й інтегрального мартингалу виявили 4 з 5 матчів сезону 2014–2015 рр. Серії В Італії, які вважаються договірними за інформацією від офіційних правоохоронних органів Італії. Результати роботи впроваджено у навчальний процес кафедри прикладної математики Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» в рамках нормативної дисципліни «Машинне навчання». Розроблені методи також напряму можуть бути використані для виявлення підозрілих на фіксований результат матчів у змаганнях з інших видів спорту, таких як: хокей, волейбол, бейсбол, баскетбол, кіберспорт тощо. Більше того, за відповідного переформулювання і підбору адекватної міри неконфорності запропоновані в дисертаційному дослідженні методи можуть бути використані для пошуку широкого кола контекстних аномалій (нетипові транзакції по банківському рахунку, проникнення до закритої мережі, аномальна кількість повідомлень в соціальних мережах на певну тематику тощо).187 с.ukматематичне моделюванняймовірнісне моделюванняінтелектуальний аналіз данихмашинне навчаннясамоконтрольоване навчанняглибинне навчання з підкріпленнямштучний інтелектмультиагентна системакластерний аналізфункція відстанінайближчий сусідкласифікація данихрегресійна модельфакторний аналізметрикарегуляризаціяміра неконформностіконформний аномальний детектормартингалфункція ранжуванняспортивна подіяmathematical modelingprobabilistic modelingdata miningmachine learningself-supervised learningdeep reinforcement learningartificial intelligencemulti-agent systemcluster analysisdistance functionnearest neighbordata classificationregression modelfactor analysismetricregularizationnonconformity measureconformal anomaly detectormartingaleranking functionsports eventМатематичні моделі і методи виявлення за публічно доступними даними підозрілих на фіксований результат футбольних матчівThesis Doctoral004.852