Математичні моделі і методи виявлення за публічно доступними даними підозрілих на фіксований результат футбольних матчів
dc.contributor.advisor | Чертов, Олег Романович | |
dc.contributor.author | Жук, Іван Сергійович | |
dc.date.accessioned | 2024-02-05T11:38:06Z | |
dc.date.available | 2024-02-05T11:38:06Z | |
dc.date.issued | 2023 | |
dc.description.abstract | Жук І. С. Математичні моделі і методи виявлення за публічно доступними даними підозрілих на фіксований результат футбольних матчів. ― Кваліфікаційна наукова праця на правах рукопису. Дисертація на здобуття наукового ступеня доктора філософії з галузі знань 11 Математика та Статистика за спеціальністю 113 Прикладна математика. ― Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського», Київ, 2023. Метою роботи є підвищення ефективності виявлення підозрілих на фіксований результат футбольних матчів на базі обробки виключно загальнодоступних публічних даних за результатами сезону футбольного турніру. Однією з найважливіших проблем футболу, що зіставна з проблемою допінгу, є договірні матчі. Результати таких матчів або певний перебіг подій в них є наперед визначеними, тобто фіксованими. У договірних матчах, пов’язаних з виграшом за ставками, завданням є отримання результату, відмінного від очікуваного. Тому такі результати можна розглядати як нетипові, аномальні. Для перевірки поточного матчу на фіксований результат використовують математичні методи футбольної аналітики, такі як: прогнозування результату матчу, аналіз ставок або дій учасників матчу протягом всієї гри. Їх перевагою є оперативність прийняття рішень, а недоліком ― необхідність використання дуже великої кількості даних, які, зазвичай, не є публічно доступними. Альтернативним може розглядатись підхід, коли рішення щодо фіксованості матчу приймається за результатами усього сезону. При цьому загально доступною є публічна інформація щодо результатів проведених ігор усіх команд, що дозволяє формалізувати пошук матчів, підозрілих на фіксований результат як задачу виявлення контекстуальних аномалій. Найбільш адекватними розглянутій задачі виявлення підозрілих на фіксований результат матчів на основі доступної публічної інформації є статистичні непараметричні гістограмні методи. Це обумовлено тим, що вхідні дані характеризуються малою кількістю дискретних числових значень і їх закони розподілу ймовірностей є невідомими. Водночас, ефективність використання цих методів залежить від об’єму вибірки. Разом з цим, перспективним є математичний апарат конформних предикторів та степеневих мартингалів, який не вимагає знання законів розподілу даних, використовує інформацію про міру неконформності даних та може бути використаний для вирішення задач класифікації даних. Тому актуальною науковою задачею є розробка методів виявлення підозрілих на фіксований результат матчів з використанням апарату конформних предикторів і степеневих мартингалів на базі обробки виключно загальнодоступних публічних даних за результатами сезону футбольного турніру. В першому розділі розглянуто проблематику договірних футбольних матчів і обґрунтовано актуальність досліджень, спрямованих на пошук матчів, потенційно підозрілих на фіксованість результату, на базі обробки виключно загальнодоступних публічних даних. Показано, що застосування математичних методів футбольної аналітики, таких як прогнозування результату матчу, аналізу ставок або дій учасників матчу протягом всієї гри щодо виявлення підозрілих на фіксований результат матчів вимагає великої кількості даних, які не завжди доступні для аналізу. Відмічено, що задача виявлення підозрілих щодо фіксованого результату матчів за результатами сезону футбольного турніру відноситься до класу задач виявлення контекстних аномалій, які вирішуються в області інтелектуального аналізу даних. Проведено аналіз статистичних методів, а також методів машинного навчання, які використовуються для виявлення аномалій. Особливу увагу присвячено методам класифікації на основі конформних предикторів, які запропоновано використати для підвищення ефективності виявлення потенційно підозрілих договірних матчів. Сформульовано мету і наукові завдання дисертаційного дослідження. Другий розділ присвячено розробці імітаційної моделі футбольного сезону з матчами з фіксованим результатом. Для визначення контекстуального атрибуту «сила команди» проведено групування команд методами K-середніх та Гаусівських сумішей за ознаками кількість очок та різницею між забитими і пропущеними м’ячами в одновимірному та двовимірному просторах. Визначено початкові дані, обмеження та формули розрахунку ймовірностей забиття голів командами під час гри на основі реальних даних сезону для побудови імітаційної моделі. Розроблено імітаційну модель футбольного сезону та проведено її аналіз шляхом статистичного моделювання. Розроблено алгоритм моделювання договірних матчів, пов’язаних із заробітком на ставках. Третій розділ присвячено розробці методів виявлення підозрілих щодо фіксованості результату футбольних матчів за наявності даних про весь сезон. Запропоновано міри неконформності поточного матчу. На основі аномального конформного детектору розроблено метод виявлення підозрілих щодо фіксованості результату футбольних матчів, в якому прийняття рішень відбувається за пороговим правилом. Проведено порівняльний аналіз методів виявлення матчів, підозрілих на фіксований результат на основі експертно визначеного порогу відхилення і конформного аномального детектору. З використанням степеневого і інтегрального мартингалів розроблено методи виявлення підозрілих щодо фіксованого результату футбольних матчів, в яких прийняття рішення відбувається при зростанні значення степеневого мартингалу для поточного спостереження по відношенню до значення цього ж мартингала для попереднього спостереження. В четвертому розділі шляхом імітаційного моделювання розглянуто аналіз особливостей розроблених методів за даними окремих класів модельного сезону. Проведено порівняльний аналіз розроблених методів та відомого гістограмного методу за даними модельного сезону з використанням метрики точності (precision, P), повноти (recall, R) і міри F1. Запропоновані методи також використано для виявлення матчів, які вважаються договірними, в сезоні 2014–2015 рр. Серії В Італії. Наукова новизна одержаних результатів полягає у наступному: 1. Розроблено новий метод виявлення підозрілих щодо фіксованості результату футбольних матчів, який відрізняється від відомих застосуванням конформного аномального детектора із запропонованою мірою неконформності поточного матчу, що забезпечує можливість визначення порогу прийняття рішення у відповідності до заданого значення апріорної ймовірності появи аномальних даних. 2. Розроблено новий метод виявлення підозрілих щодо фіксованості результату футбольних матчів, який відрізняється від відомих застосуванням степеневого мартингалу і правилом прийняття рішення на основі порівняння поточного значення степеневого мартингалу з попереднім, що дозволяє за рахунок зміни параметра чутливості налаштовувати степеневий мартингал на виявлення аномалій відповідного рівня і знаходити їх. 3. Розроблено новий метод виявлення підозрілих щодо фіксованості результату футбольних матчів, який відрізняється від відомих застосуванням інтегрального мартингалу і правилом прийняття рішення на основі порівняння поточного значення інтегрального мартингалу з попереднім, що дає змогу виявляти аномальні матчі без налаштування параметрів. 4. Доведені нові властивості степеневого мартингалу: - за яких завгодно малих значень ступеня конформності (p-value) поточного спостереження значення степеневого мартингала для поточного спостереження є більшим за значення цього ж мартингала для попереднього спостереження; - збільшення значення степеневого мартингала для поточного спостереження по відношенню до попереднього еквівалентно виконанню правила конформного аномального детектора зі значенням рівня аномальності, який дорівнює n 1 1−n, де n ― параметр чутливості степеневого мартингалу Mk (n) . 5. Отримала подальший розвиток імітаційна модель футбольного сезону, яка на відміну від існуючих враховує розбиття матчів на класи за контекстуальними атрибутами «сила команди» і «тип гри» ― домашня або виїзна, що забезпечує моделювання договірних матчів з фіксованим результатом, які мають аномальний характер. 6. Удосконалено метод кластеризації на основі Гаусівських сумішей в частині регуляризації недіагональних елементів коваріаційних матриць, що дало змогу зменшити чутливість до початкових умов і отримувати кластери еліпсоподібної форми, які враховують неочевидні зв’язки між точками набору даних. Практичне значення одержаних результатів полягає у тому, що: 1. Розроблена імітаційна модель футбольного сезону забезпечує подібність змодельованого сезону з реальним за типами результатів матчів як за всіма класами матчів, так і в цілому на рівні значущості 0,001 за критерієм Колмогорова-Смирнова. 2. Запропоновані методи виявлення на основі конформного аномального детектора, степеневого мартингалу й інтегрального мартингалу на модельних даних забезпечили підвищення ефективності виявлення підозрілих на фіксований результат футбольних матчів у порівнянні з відомим гістограмним методом на 3-13 % за метрикою точності, 11-30% ― за метрикою повноти і 10-18% ― за метрикою F1. 3. Запропоновані методи на основі конформного аномального детектора, степеневого мартингалу й інтегрального мартингалу виявили 4 з 5 матчів сезону 2014–2015 рр. Серії В Італії, які вважаються договірними за інформацією від офіційних правоохоронних органів Італії. Результати роботи впроваджено у навчальний процес кафедри прикладної математики Національного технічного університету України «Київський політехнічний інститут імені Ігоря Сікорського» в рамках нормативної дисципліни «Машинне навчання». Розроблені методи також напряму можуть бути використані для виявлення підозрілих на фіксований результат матчів у змаганнях з інших видів спорту, таких як: хокей, волейбол, бейсбол, баскетбол, кіберспорт тощо. Більше того, за відповідного переформулювання і підбору адекватної міри неконфорності запропоновані в дисертаційному дослідженні методи можуть бути використані для пошуку широкого кола контекстних аномалій (нетипові транзакції по банківському рахунку, проникнення до закритої мережі, аномальна кількість повідомлень в соціальних мережах на певну тематику тощо). | |
dc.description.abstractother | Zhuk I. S. Mathematical models and methods for detecting football matchfixing using publicly available data. ― Qualifying scientific work, the manuscript. PhD thesis in the field of knowledge 11 Mathematics and Statistics in speciality 113 Applied Mathematics. ― National Technical University of Ukraine “Igor Sikorsky Kyiv Polytechnic Institute”, Kyiv, 2023. The aim of the thesis is to increase the efficiency of identifying suspects for fixed results of football matches based on the processing of exclusively publicly available public data based on the results of the football tournament season. One of the most important problems of football, comparable to the problem of doping, is fixed matches. The results of such matches or a certain sequence of events in them are predetermined, that is, fixed. In fixed matches related to winning bets, the task is to obtain a result that is different from the expected one. Therefore, such results can be considered atypical, or abnormal. Mathematical methods of football analytics are used to check the current match for a fixed result, such as prediction of the match result, and analysis of bets or actions of the match participants throughout the game. Their advantage is the promptness in decision-making, and their disadvantage is the need to use a very large amount of data, which, as a rule, is not publicly available. As alternative there can be considered an approach where the decision regarding the match fixedness is made based on the results of the whole season. At the same time, public information about the results of the games played by all teams is publicly available, which allows formalizing the search for matches suspicious of a fixed result as a task of detecting contextual anomalies. Statistical non-parametric histogram methods are the most adequate for the considered task of identifying matches suspicious for a fixed result based on available public information. This is due to the fact that the input data are characterized by a small number of discrete numerical values and their probability distribution laws are unknown. At the same time, the effectiveness of using these methods depends on the size of the sample. Along with this, the mathematical apparatus of conformal predictors and power martingales is promising, which does not require knowledge of data distribution laws, uses information about the degree of non-conformity of data and can be used to solve data classification problems. Therefore, an urgent scientific task is the development of methods for detecting suspicious matches with a fixed result using the apparatus of conformal predictors and power martingales based on the processing of exclusively publicly available public data based on the results of the football tournament season. In the first section, the problems of contractual football matches are considered and the relevance of research aimed at finding matches potentially suspicious of fixed results based on the processing of exclusively publicly available public data is substantiated. It is shown that the application of mathematical methods of football analytics, such as predicting the result of the match, analysis of bets or actions of the participants of the match during the entire game to identify matches suspicious for match-fixing requires a large amount of data that is not always available for analysis. It is noted that the task of identifying suspicious data regarding the fixed result of matches based on the results of the football tournament season refers to the detection of contextual anomalies, which is solved in the field of intelligent data analysis. An analysis of statistical methods, as well as machine learning methods used to detect anomalies, was carried out. Special attention is paid to classification methods based on conformal predictors, which are proposed to be used to increase the effectiveness of detecting potentially suspicious contractual matches. The goal and scientific tasks of the dissertation research are formulated. The second section is devoted to the development of a simulation model of a soccer season with fixed-score matches. To determine the contextual attribute "team strength", the teams were grouped using the K-means and Gaussian mixtures methods based on the number of points and the difference between scored and conceded goals in one-dimensional and two-dimensional spaces. The initial data, limitations and formulas for calculating the probabilities of scoring goals by teams during the game based on real data of the season for building a simulation model are determined. A simulation model of the football season was developed and its analysis was carried out by means of statistical modeling. An algorithm for modeling contractual matches related to earnings on bets has been developed. The third section is devoted to the development of methods for detecting football matches suspicious for fixed results in the presence of data for the entire season. Measures of non-conformity of the current match are proposed. On the basis of the anomalous conformal detector, a method of detecting football matches suspicious for fixed results has been developed, in which decision-making takes place according to the threshold rule. A comparative analysis of methods for detecting matches suspicious for a fixed result based on an expertly defined deviation threshold and a conformal anomaly detector was conducted. With the use of power and integral martingales, methods have been developed for detecting football matches suspicious for fixed results, in which the decision is made when the value of the power martingale for the current observation increases in relation to the value of the same martingale for the previous observation. In the fourth section, the analysis of the features of the developed methods based on the data of individual classes of the model season is considered by means of simulation modeling. A comparative analysis of the developed methods and the known histogram method was conducted based on model season data using precision (precision, P), completeness (recall, R) and F1 measures. The proposed methods have also been used to detect matches considered to be fixed in the 2014–2015 Italian Serie B season. The scientific novelty of the obtained results is as follows: 1. A new method of detecting football matches suspicious for fixed results has been developed, which differs from the known ones by the use of a conformal anomaly detector with a proposed measure of non-conformity of the current match, which provides the possibility of determining the decision threshold in accordance with the given value of the a priori probability of the appearance of anomalous data. 2. A new method of detecting football matches suspicious for fixed results has been developed, which differs from the known ones by using a power martingale and a decision-making rule based on a comparison of the current value of the power martingale with the previous one, which allows, by changing the sensitivity parameter, to adjust the power martingale to detect anomalies of the appropriate level. 3. A new method of detecting football matches suspicious for fixed results has been developed, which differs from the known ones by the use of an integral martingale and a decision rule based on the comparison of the current value of the integral martingale with the previous one, which makes it possible to detect anomalous matches without adjusting the parameters. 4. New properties of the power martingale are proved: - for any small values of the p-value of the current observation, the value of the power martingale for the current observation is greater than the value of the same martingale for the previous observation; - increasing the value of the power martingale for the current observation in relation to the previous one is equivalent to fulfilling the rule of the conformal anomaly detector with the value of anomaly threshold equals to n 1 1−n, where n is the sensitivity parameter of the power martingale Mk (n) . 5. The simulation model of the football season got further development, which, unlike the existing ones, takes into account the grouping of matches into classes according to the contextual attributes "team strength" and "type of game" - home or away, which provides simulation of contractual matches with a fixed result, which are anomalous. 6. The method of clustering based on Gaussian mixtures has been improved in terms of regularization of off-diagonal elements of covariance matrices, which made it possible to reduce the sensitivity to initial conditions and to obtain clusters of an elliptical shape that take into account non-obvious connections between the points of the data set. The practical significance of the obtained results is that: 1. The developed simulation model of the football season ensures the similarity of the simulated season with the real one in terms of types of match results both for all classes of matches and in general at the significance level of 0.001 according to the Kolmogorov-Smirnov test. 2. The proposed methods of detection based on the conformal anomaly detector, power martingale and integral martingale on model data ensured an increase in the effectiveness of detecting suspicious football matches with a fixed result compared to the known histogram method by 3-13% according to the accuracy metric, 11-30% ― according to the completeness metric and 10-18% ― according to the F1 metric. 3. The proposed methods based on conformal anomaly detector, power martingale, and integral martingale detected 4 out of 5 matches of the 2014–2015 Serie B season in Italy, which are considered to be fixed according to information from official Italian law enforcement agencies. The results of the work are implemented in the educational process of the Department of Applied Mathematics of the National Technical University of Ukraine "Igor Sikorsky Kyiv Polytechnic Institute" within the framework of the normative discipline "Machine Learning". The developed methods can also be directly used to identify matches suspicious for match-fixing in other sports competitions, such as: hockey, volleyball, baseball, basketball, e-sports, etc. Moreover, with appropriate reformulation and selection of an adequate measure of non-conformity, the methods proposed in the dissertation research can be used to search for a wide range of contextual anomalies (atypical bank account transactions, penetration of a closed network, anomalous number of messages in social networks on a certain topic, etc.). | |
dc.format.extent | 187 с. | |
dc.identifier.citation | Жук, І. С. Математичні моделі і методи виявлення за публічно доступними даними підозрілих на фіксований результат футбольних матчів : дис. … д-ра філософії : 113 Прикладна математика / Жук Іван Сергійович. – Київ, 2023. – 187 с. | |
dc.identifier.uri | https://ela.kpi.ua/handle/123456789/64301 | |
dc.language.iso | uk | |
dc.publisher | КПІ ім. Ігоря Сікорського | |
dc.publisher.place | Київ | |
dc.subject | математичне моделювання | |
dc.subject | ймовірнісне моделювання | |
dc.subject | інтелектуальний аналіз даних | |
dc.subject | машинне навчання | |
dc.subject | самоконтрольоване навчання | |
dc.subject | глибинне навчання з підкріпленням | |
dc.subject | штучний інтелект | |
dc.subject | мультиагентна система | |
dc.subject | кластерний аналіз | |
dc.subject | функція відстані | |
dc.subject | найближчий сусід | |
dc.subject | класифікація даних | |
dc.subject | регресійна модель | |
dc.subject | факторний аналіз | |
dc.subject | метрика | |
dc.subject | регуляризація | |
dc.subject | міра неконформності | |
dc.subject | конформний аномальний детектор | |
dc.subject | мартингал | |
dc.subject | функція ранжування | |
dc.subject | спортивна подія | |
dc.subject | mathematical modeling | |
dc.subject | probabilistic modeling | |
dc.subject | data mining | |
dc.subject | machine learning | |
dc.subject | self-supervised learning | |
dc.subject | deep reinforcement learning | |
dc.subject | artificial intelligence | |
dc.subject | multi-agent system | |
dc.subject | cluster analysis | |
dc.subject | distance function | |
dc.subject | nearest neighbor | |
dc.subject | data classification | |
dc.subject | regression model | |
dc.subject | factor analysis | |
dc.subject | metric | |
dc.subject | regularization | |
dc.subject | nonconformity measure | |
dc.subject | conformal anomaly detector | |
dc.subject | martingale | |
dc.subject | ranking function | |
dc.subject | sports event | |
dc.subject.udc | 004.852 | |
dc.title | Математичні моделі і методи виявлення за публічно доступними даними підозрілих на фіксований результат футбольних матчів | |
dc.type | Thesis Doctoral |
Файли
Контейнер файлів
1 - 1 з 1
Ліцензійна угода
1 - 1 з 1
Ескіз недоступний
- Назва:
- license.txt
- Розмір:
- 8.98 KB
- Формат:
- Item-specific license agreed upon to submission
- Опис: