Name: | Description: | Size: | Format: | |
---|---|---|---|---|
7.02 MB | Adobe PDF |
Authors
Abstract(s)
It is globally accepted that sports betting has been around for as long as the sport itself. Back in
the 1st century, circuses hosted chariot races and fans would bet on who they thought would
emerge victorious. With the evolution of technology, sports evolved and, mainly, the
bookmakers evolved. Due to the mass digitization, these houses are now available online, from
anywhere, which makes this market inherently more tempting. In fact, this transition has
propelled the sports betting industry into a multi-billion-dollar industry that can rival the sports
industry.
Similarly, younger generations are increasingly attached to the digital world, including
electronic sports ā eSports. In fact, young men are more likely to follow eSports than traditional
sports. Counter-Strike: Global Offensive, the videogame on which this dissertation focuses, is
one of the pillars of this industry and during 2022, 15 million dollars were distributed in
tournament prizes and there was a peak of 2 million concurrent viewers. This factor, combined
with the digitization of bookmakers, make the eSports betting market extremely appealing for
exploring machine learning techniques, since young people who follow this type of sports also
find it easy to bet online.
In this dissertation, a betting recommendation system is proposed, implemented, tested, and
validated, which considers the match history of each team, the odds of several bookmakers and
the general feeling of fans in a discussion forum.
The individual machine learning models achieved great results by themselves. More specifically,
the match history model managed an accuracy of 66.66% with an expected calibration error of
2.10% and the bookmaker odds model, with an accuracy of 65.05% and a calibration error of
2.53%.
Combining the models through stacking increased the accuracy to 67.62% but worsened the
expected calibration error to 5.19%. On the other hand, merging the datasets and training a
new, stronger model on that data improved the accuracy to 66.81% and had an expected
calibration error of 2.67%.
The solution is thoroughly tested in a betting simulation encapsulating 2500 matches. The
systemās final odd is compared with the odds of the bookmakers and the expected long-term
return is computed. A bet is made depending on whether it is above a certain threshold. This
strategy called positive expected value betting was used at multiple thresholds and the results
were compared.
While the stacking solution did not perform in a betting environment, the match history model
prevailed with profits form 8% to 90%; the odds model had profits ranging from 13% to 211%;
and the dataset merging solution profited from 11% to 77%, all depending on the minimum
expected value thresholds.
Therefore, from this work resulted several machine learning approaches capable of profiting
from Counter Strike: Global Offensive bets long-term.
Ć globalmente aceite que as apostas desportivas existem hĆ” tanto tempo quanto o próprio desporto. Mesmo no primeiro sĆ©culo, os circos hospedavam corridas de carruagens e os fĆ£s apostavam em quem achavam que sairia vitorioso, semelhante Ć s corridas de cavalo de agora. Com a evolução da tecnologia, os desportos foram evoluindo e, principalmente, evoluĆram as casas de apostas. Devido Ć onda de digitalização em massa, estas casas passaram a estar disponĆveis online, a partir de qualquer sĆtio, o que torna este mercado inerentemente mais tentador. De facto, esta transição propulsionou a indĆŗstria das apostas desportivas para uma indĆŗstria multibilionĆ”ria que agora pode mesmo ser comparada Ć indĆŗstria dos desportos. De forma semelhante, geraƧƵes mais novas estĆ£o cada vez mais ligadas ao digital, incluindo desportos digitais ā eSports. Counter-Strike: Global Offensive, o videojogo sobre o qual esta dissertação incide, Ć© um dos grandes impulsionadores desta indĆŗstria e durante 2022, 15 milhƵes de dólares foram distribuĆdos em prĆ©mios de torneios e houve um pico de espectadores concorrentes de 2 milhƵes. Embora esta realidade nĆ£o seja tĆ£o pronunciada em Portugal, em vĆ”rios paĆses, jovens adultos do sexo masculino, tĆŖm mais probabilidade de acompanharem eSports que desportos tradicionais. Este fator, aliado Ć digitalização das casas de apostas, tornam o mercado de apostas em eSports muito apelativo para a exploração tĆ©cnicas de aprendizagem automĆ”tica, uma vez que os jovens que acompanham este tipo de desportos tĆŖm facilidade em apostar online. Nesta dissertação Ć© proposto, implementado, testado e validado um sistema de recomendação de apostas que considera o histórico de resultados de cada equipa, as cotas de vĆ”rias casas de apostas e o sentimento geral dos fĆ£s num fórum de discussĆ£o ā HLTV. Deste modo, foram inicialmente desenvolvidos 3 sistemas de aprendizagem automĆ”tica. Para avaliar os sistemas criados, foi considerado o perĆodo de outubro de 2020 atĆ© marƧo de 2023, o que corresponde a 2500 partidas. PorĆ©m, sendo o perĆodo de testes tĆ£o extenso, existe muita variação na competitividade das equipas. Deste modo, para evitar que os modelos ficassem obsoletos durante este perĆodo de teste, estes foram re-treinados no mĆnimo uma vez por mĆŖs durante a duração do perĆodo de testes. O primeiro sistema de aprendizagem automĆ”tica incide sobre a previsĆ£o a partir de resultados anteriores, ou seja, o histórico de jogos entre as equipas. A melhor solução foi incorporar os jogadores na previsĆ£o, juntamente com o ranking da equipa e dando mais peso aos jogos mais recentes. Esta abordagem, utilizando regressĆ£o logĆstica teve uma taxa de acerto de 66.66% com um erro expectĆ”vel de calibração de 2.10%. O segundo sistema compila as cotas das vĆ”rias casas de apostas e faz previsƵes com base em padrƵes das suas variaƧƵes. Neste caso, incorporar as casas de aposta tendo atingido uma taxa de acerto de 65.88% utilizando regressĆ£o logĆstica, porĆ©m, era um modelo pior calibrado que o modelo que utilizava a mĆ©dia das cotas utilizando gradient boosting machine, que exibiu uma taxa de acerto de 65.06%, mas melhores mĆ©tricas de calibração, com um erro expectĆ”vel de 2.53%. O terceiro sistema, baseia-se no sentimento dos fĆ£s no fórum HLTV. Primeiramente, Ć© utilizado o GPT 3.5 para extrair o sentimento de cada comentĆ”rio, com uma taxa geral de acerto de 84.28%. No entanto, considerando apenas os comentĆ”rios classificados como conclusivos, a taxa de acerto Ć© de 91.46%. Depois de classificados, os comentĆ”rios sĆ£o depois passados a um modelo support vector machine que incorpora o comentador e a sua taxa de acerto nas partidas anteriores. Esta solução apenas previu corretamente 59.26% dos casos com um erro esperado de calibração de 3.22%. De modo a agregar as previsƵes destes 3 modelos, foram testadas duas abordagens. Primeiramente, foi testado treinar um novo modelo a partir das previsƵes dos restantes (stacking), obtendo uma taxa de acerto de 67.62%, mas com um erro de calibração esperado de 5.19%. Na segunda abordagem, por outro lado, sĆ£o agregados os dados utilizados no treino dos 3 modelos individuais, e Ć© treinado um novo modelo com base nesse conjunto de dados mais complexo. Esta abordagem, recorrendo a support vector machine, obteve uma taxa de acerto mais baixa, 66.81% mas um erro esperado de calibração mais baixo, 2.67%. Por fim, as abordagens sĆ£o postas Ć prova atravĆ©s de um simulador de apostas, onde sistema cada faz uma previsĆ£o e a compara com a cota oferecia pelas casas de apostas. A simulação Ć© feita para vĆ”rios patamares de retorno mĆnimo esperado, onde os sistemas apenas apostam caso a taxa esperada de retorno da cota seja superior Ć do patamar. Esta cota final Ć© depois comparada com as cotas das casas de apostas e, caso exista uma casa com uma cota superior, uma aposta Ć© feita. Esta estratĆ©gia denomina-se de apostas de valor esperado positivo, ou seja, apostas cuja cota Ć© demasiado elevada face Ć probabilidade de se concretizar e que geram lucros a longo termo. Nesta simulação, os melhores resultados, para uma taxa de mĆnima de 5% foram os modelos criados a partir das cotas das casas de apostas, com lucros entre os 13% e os 211%; o dos dados históricos que lucrou entre 8% e 90%; e por fim, o modelo composto, com lucros entre os 11% e os 77%. Assim, deste trabalho resultaram diversos sistemas baseados em machine learning capazes de obter lucro a longo-termo a apostar em Counter Strike: Global Offensive.
Ć globalmente aceite que as apostas desportivas existem hĆ” tanto tempo quanto o próprio desporto. Mesmo no primeiro sĆ©culo, os circos hospedavam corridas de carruagens e os fĆ£s apostavam em quem achavam que sairia vitorioso, semelhante Ć s corridas de cavalo de agora. Com a evolução da tecnologia, os desportos foram evoluindo e, principalmente, evoluĆram as casas de apostas. Devido Ć onda de digitalização em massa, estas casas passaram a estar disponĆveis online, a partir de qualquer sĆtio, o que torna este mercado inerentemente mais tentador. De facto, esta transição propulsionou a indĆŗstria das apostas desportivas para uma indĆŗstria multibilionĆ”ria que agora pode mesmo ser comparada Ć indĆŗstria dos desportos. De forma semelhante, geraƧƵes mais novas estĆ£o cada vez mais ligadas ao digital, incluindo desportos digitais ā eSports. Counter-Strike: Global Offensive, o videojogo sobre o qual esta dissertação incide, Ć© um dos grandes impulsionadores desta indĆŗstria e durante 2022, 15 milhƵes de dólares foram distribuĆdos em prĆ©mios de torneios e houve um pico de espectadores concorrentes de 2 milhƵes. Embora esta realidade nĆ£o seja tĆ£o pronunciada em Portugal, em vĆ”rios paĆses, jovens adultos do sexo masculino, tĆŖm mais probabilidade de acompanharem eSports que desportos tradicionais. Este fator, aliado Ć digitalização das casas de apostas, tornam o mercado de apostas em eSports muito apelativo para a exploração tĆ©cnicas de aprendizagem automĆ”tica, uma vez que os jovens que acompanham este tipo de desportos tĆŖm facilidade em apostar online. Nesta dissertação Ć© proposto, implementado, testado e validado um sistema de recomendação de apostas que considera o histórico de resultados de cada equipa, as cotas de vĆ”rias casas de apostas e o sentimento geral dos fĆ£s num fórum de discussĆ£o ā HLTV. Deste modo, foram inicialmente desenvolvidos 3 sistemas de aprendizagem automĆ”tica. Para avaliar os sistemas criados, foi considerado o perĆodo de outubro de 2020 atĆ© marƧo de 2023, o que corresponde a 2500 partidas. PorĆ©m, sendo o perĆodo de testes tĆ£o extenso, existe muita variação na competitividade das equipas. Deste modo, para evitar que os modelos ficassem obsoletos durante este perĆodo de teste, estes foram re-treinados no mĆnimo uma vez por mĆŖs durante a duração do perĆodo de testes. O primeiro sistema de aprendizagem automĆ”tica incide sobre a previsĆ£o a partir de resultados anteriores, ou seja, o histórico de jogos entre as equipas. A melhor solução foi incorporar os jogadores na previsĆ£o, juntamente com o ranking da equipa e dando mais peso aos jogos mais recentes. Esta abordagem, utilizando regressĆ£o logĆstica teve uma taxa de acerto de 66.66% com um erro expectĆ”vel de calibração de 2.10%. O segundo sistema compila as cotas das vĆ”rias casas de apostas e faz previsƵes com base em padrƵes das suas variaƧƵes. Neste caso, incorporar as casas de aposta tendo atingido uma taxa de acerto de 65.88% utilizando regressĆ£o logĆstica, porĆ©m, era um modelo pior calibrado que o modelo que utilizava a mĆ©dia das cotas utilizando gradient boosting machine, que exibiu uma taxa de acerto de 65.06%, mas melhores mĆ©tricas de calibração, com um erro expectĆ”vel de 2.53%. O terceiro sistema, baseia-se no sentimento dos fĆ£s no fórum HLTV. Primeiramente, Ć© utilizado o GPT 3.5 para extrair o sentimento de cada comentĆ”rio, com uma taxa geral de acerto de 84.28%. No entanto, considerando apenas os comentĆ”rios classificados como conclusivos, a taxa de acerto Ć© de 91.46%. Depois de classificados, os comentĆ”rios sĆ£o depois passados a um modelo support vector machine que incorpora o comentador e a sua taxa de acerto nas partidas anteriores. Esta solução apenas previu corretamente 59.26% dos casos com um erro esperado de calibração de 3.22%. De modo a agregar as previsƵes destes 3 modelos, foram testadas duas abordagens. Primeiramente, foi testado treinar um novo modelo a partir das previsƵes dos restantes (stacking), obtendo uma taxa de acerto de 67.62%, mas com um erro de calibração esperado de 5.19%. Na segunda abordagem, por outro lado, sĆ£o agregados os dados utilizados no treino dos 3 modelos individuais, e Ć© treinado um novo modelo com base nesse conjunto de dados mais complexo. Esta abordagem, recorrendo a support vector machine, obteve uma taxa de acerto mais baixa, 66.81% mas um erro esperado de calibração mais baixo, 2.67%. Por fim, as abordagens sĆ£o postas Ć prova atravĆ©s de um simulador de apostas, onde sistema cada faz uma previsĆ£o e a compara com a cota oferecia pelas casas de apostas. A simulação Ć© feita para vĆ”rios patamares de retorno mĆnimo esperado, onde os sistemas apenas apostam caso a taxa esperada de retorno da cota seja superior Ć do patamar. Esta cota final Ć© depois comparada com as cotas das casas de apostas e, caso exista uma casa com uma cota superior, uma aposta Ć© feita. Esta estratĆ©gia denomina-se de apostas de valor esperado positivo, ou seja, apostas cuja cota Ć© demasiado elevada face Ć probabilidade de se concretizar e que geram lucros a longo termo. Nesta simulação, os melhores resultados, para uma taxa de mĆnima de 5% foram os modelos criados a partir das cotas das casas de apostas, com lucros entre os 13% e os 211%; o dos dados históricos que lucrou entre 8% e 90%; e por fim, o modelo composto, com lucros entre os 11% e os 77%. Assim, deste trabalho resultaram diversos sistemas baseados em machine learning capazes de obter lucro a longo-termo a apostar em Counter Strike: Global Offensive.
Description
Keywords
sport betting supervised learning sentiment analysis ensemble methods counter-strike: global offensive