Repository logo
 
No Thumbnail Available
Publication

Machine Learning applied to forecast the outcome of professional soccer games

Use this identifier to reference this record.
Name:Description:Size:Format: 
Tese_5065_v2.pdf4.31 MBAdobe PDF Download

Abstract(s)

Com o aumento do poder computacional e a ênfase na Inteligência Artificial (IA) a intensificar se em diversos setores, os modelos de Machine Learning (ML) tornaram-se cada vez mais sofisticados. Considerando a notável progressão neste domínio, torna-se imperativo questionar: Num cenário hipotético em que um modelo de ML possui acesso abrangente a todas as variáveis que possam influenciar um ambiente complexo, seria o modelo de ML capaz de prever o futuro com precisão? Num cenário em que é possível criar um sistema, enriquecido com conhecimento completo de eventos passados e capacidade computacional para discernir correlações e comportamentos subjacentes, será possível prever eventos futuros com precisão? Caso seja possível, como devemos conceptualizar sorte, aleatoriedade e, em última instância, o livre arbítrio? Numa busca para investigar estas questões, esta dissertação centra-se na análise do futebol, visto ser um ambiente complexo famoso pela sua imprevisibilidade. O futebol surge como um assunto particularmente aliciante devido às suas regras estabelecidas e natureza relativamente fechada, onde a maioria das informações é conhecida antes do início dos jogos. No futebol, apesar da presença de um vasto número de variáveis exógenas, a maioria é quantificável. Dado que o futebol detém a distinção de ser o desporto mais assistido a nível global, diversas empresas capturam e disponibilizam estes dados. Ao longo desta dissertação, foi realizada uma extensa feature engineering, juntamente com uma análise detalhada do impacto de cada feature nos modelos respetivos. Foram empregues diversas metodologias de previsão, desde a Regressão Logística, previsão de séries temporais usando Autoregressive Integrated Moving Average (ARIMA) e a aplicação de Random Forests. Embora os modelos desenvolvidos nesta dissertação não tenham demonstrado conclusivamente a natureza determinística do futebol, presumivelmente devido à ausência de um conjunto de dados holístico, estes modelos superaram as previsões das casas de apostas com um rendimento de 18% para os jogos de 2021/2022 e um rendimento de 24% quando excluindo jogos com maior incerteza. Enquanto os resultados obtidos nesta dissertação não provam conclusivamente a natureza determinística do futebol, superar as casas de apostas com um rendimento satisfatório é um fator encorajador que incentiva uma melhoria futura na recolha e agregação de mais dados para possibilitar previsões ainda mais precisas.
As the rise of computational power and emphasis on Artificial Intelligence (AI) intensify across diverse industries, Machine Learning (ML) models have evolved to become increasingly sophisticated. Considering the remarkable progression in this domain, it becomes imperative to pose the question: In a hypothetical scenario where a ML model possesses comprehensive access to all variables that might influence a complex environment, would the ML model be able to predict the future with precision? In a scenario wherein a system, enriched with complete knowledge of past events and the computational capacity to discern correlations and underlying behaviors, can it predict future events precisely? How should we conceptualize luck, randomness, and ultimately, free will? In a pursuit to investigate these questions, this dissertation focuses on the examination of soccer, a complex environment renowned for its unpredictability. Soccer emerges as a particularly compelling subject due to its established rules and relatively controlled nature, where most information is known before matches start. In soccer, despite the presence of a vast number of exogenous variables, the majority are quantifiable. Given that soccer holds the distinction of being the most-watched sport globally, numerous companies capture and make this data available extensively. Throughout the course of this dissertation, extensive feature engineering was undertaken, coupled with a detailed analysis of the impact of each feature on respective models. A diverse array of forecasting methodologies was employed, ranging from Logistic Regression, time series forecasting using Autoregressive Integrated Moving Average (ARIMA) and the application of Random Forests. Although the models developed in this dissertation did not conclusively demonstrate soccer's deterministic nature, presumably due to the absence of a holistic dataset, these models outperformed bookmakers with a 18% yield for 2021/2022 matches, and a 24% yield when excluding matches with higher uncertainty. While the results obtained during this dissertation do not conclusively prove the deterministic nature of soccer, surpassing the bookmakers with a satisfactory yield, is an encouraging factor that incentivizes a future improvement of the collection and aggregation of more data to enable even more accurate forecasts.

Description

Keywords

Machine Learning Time Series forecasting Soccer Random Forest Determinism

Citation

Research Projects

Organizational Units

Journal Issue