Repository logo
 
Publication

Modelos híbridos para previsão de resultados de jogos da Premier League usando machine learning e análise de sentimento

datacite.subject.fosEngenharia e Tecnologia
datacite.subject.sdg09:Indústria, Inovação e Infraestruturas
dc.contributor.advisorRamos, Carlos Fernando da Silva
dc.contributor.authorNASCIMENTO, RUBENS FABRÍCIO DO ROSÁRIO SOARES
dc.date.accessioned2025-11-26T14:18:26Z
dc.date.available2025-11-26T14:18:26Z
dc.date.issued2025-10-21
dc.description.abstractThis study explores whether combining structured match statistics with pre-match tweet sentiment can enhance probabilistic forecasting of football results. Focusing on English Premier League fixtures, it aligns social signals with each game and compares three families of models: those based solely on statistics, those relying only on tweets, and hybrid approaches that integrate both. The evaluation respects the chronological order of matches, employing sequential training and validation together with a strict 2024/25 holdout. In terms of assessment, Log Loss serves as the primary metric, complemented by calibration measures (ECE, Brier, RPS) as well as accuracy. When comparing different families of models, statistical learners provide the strongest foundation. Within this group, an RBF-SVM delivers a holdout Log Loss of 0.9066 with 58.16% accuracy, while a regularised Logistic Regression remains competitive, suggesting that engineered features capture a substantial linear signal. By contrast, tweet-only models offer useful but weaker contributions. The best-performing configuration, a Linear SVM applied to SBERT-MPNet embeddings, records a Log Loss of 1.0313 and an accuracy of 47.89%, yet generalises consistently across both validation and test. Across the different model families, hybrid approaches provide the most consistent improvements. In particular, Early Fusion with Logistic Regression, which combines sentiment with structured inputs, delivers 59.74% accuracy and a Log Loss of 0.8954 on the holdout, together with a Brier Score of 0.1758 and an RPS of 0.1171. Moreover, Residual Stacking extends these gains by further reducing both Log Loss and Expected Calibration Error compared with the statistical baseline, with the benefits especially clear in lower-confidence fixtures and in predicting draws. The main improvements come from modest probability refinements that reduce error penalties without frequent class flips, while also enhancing calibration. At the same time, certain limitations remain, including the focus on a single league, the risk of temporal drift in team performance, and the presence of noise, ambiguity, and attention bias in social text. Taken together, the findings demonstrate that combining structured match data with curated sentiment yields robust and well-calibrated forecasts, particularly valuable in uncertain fixtures and in outcomes that are traditionally harder to predict.eng
dc.description.abstractEste estudo explora a possibilidade da combinação de estatísticas dos jogos com o sentimento expresso em tweets publicados antes das partidas pode melhorar a previsão probabilística de resultados de futebol. Com foco em jogos da English Premier League, o trabalho alinha os sinais sociais a cada encontro e compara três famílias de modelos: os baseados apenas em estatísticas, os que recorrem exclusivamente a tweets e as abordagens híbridas que integram ambas as fontes. A avaliação respeita a ordem cronológica dos jogos, recorrendo a treino e validação sequenciais, bem como a um holdout rigoroso correspondente à época 2024/2025. Para a medição de desempenho, utiliza-se o Log Loss como métrica principal, complementado por medidas de calibração (ECE, Brier, RPS) e pela acurácia. Ao comparar diferentes famílias de modelos, os baseados em estatísticas fornecem a base mais sólida. Entre estes, um RBF-SVM alcança no holdout um Log Loss de 0.9066 com 58.16% de acurácia, enquanto uma Regressão Logística regularizada permanece competitiva, sugerindo que as features projectadas captam um sinal linear relevante. Em contraste, os modelos baseados apenas em tweets oferecem contributos úteis, mas mais modestos. O melhor resultado deste grupo, obtido com um SVM Linear aplicado a embeddings SBERTMPNet, regista um Log Loss de 1.0313 e uma acurácia de 47.89%, demonstrando ainda assim consistência entre validação e teste. Entre as diferentes famílias de modelos, as abordagens híbridas proporcionam os ganhos mais consistentes. Em particular, a fusão antecipada com Regressão Logística, que integra sentimento com informação estatística, atinge 59.74% de acurácia e um Log Loss de 0.8954 no holdout, acompanhados por um Brier Score de 0.1758 e um RPS de 0.1171. Além disso, o Residual Stacking reforça estes ganhos ao reduzir ainda mais, tanto o Log Loss como o Expected Calibration Error face ao modelo estatístico de base, com benefícios especialmente claros em jogos de maior incerteza e na previsão de empates. As principais melhorias resultam de ajustes subtis nas probabilidades, que reduzem penalizações de erro sem alterar frequentemente a classe prevista, ao mesmo tempo que reforçam a calibração. Persistem, contudo, algumas limitações: o foco num único campeonato, o risco de desvio temporal no desempenho das equipas e a presença de ruído, ambiguidades e viés de atenção nos tweets. Em síntese, os resultados mostram que a combinação de dados estatísticos dos jogos com sentimento extraído de redes sociais produz previsões robustas e bem calibradas, particularmente valiosas em jogos incertos e em resultados tradicionalmente mais difíceis de prever.por
dc.identifier.tid204034418
dc.identifier.urihttp://hdl.handle.net/10400.22/31072
dc.language.isoeng
dc.rights.uriN/A
dc.subjectFootball match prediction
dc.subjectEnglish Premier League
dc.subjectMachine Learning
dc.subjectLinear Models
dc.subjectKernel Methods
dc.subjectTree-based Methods
dc.subjectNeural Networks
dc.subjectSentiment Analysis
dc.subjectEnsemble Methods
dc.subjectHybrid Models
dc.titleModelos híbridos para previsão de resultados de jogos da Premier League usando machine learning e análise de sentimentopor
dc.title.alternativeHybrid models for predicting Premier League match outcomes using machine learning and sentiment analysiseng
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameMestrado em Engenharia de Inteligência Artificial

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Tese_6238.pdf
Size:
4.38 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.03 KB
Format:
Item-specific license agreed upon to submission
Description: