Multimodal fusion for time series forecasting: learning from temporal and visual data

Bento, Alexandre Rafael Seabra

Publicação

Multimodal fusion for time series forecasting: learning from temporal and visual data

2025-11-27Dissertação de mestrado

dc.contributor.advisor	Ramos, Patrícia Alexandra Gregório
dc.contributor.author	Bento, Alexandre Rafael Seabra
dc.date.accessioned	2026-01-09T14:36:32Z
dc.date.available	2026-01-09T14:36:32Z
dc.date.issued	2025-11-27
dc.date.submitted	2026-01-09
dc.description.abstract	Os modelos de previsão de séries temporais que recorrem apenas a dados numéricos tendem a ignorar fatores exógenos e padrões estruturais que podem ser mais facilmente captados por representações visuais. Esta dissertação propõe um enquadramento multimodal que integra sequências temporais numéricas e representações visuais (plots/imagens) para melhorar a exatidão, a robustez e a interpretabilidade da previsão. Metodologicamente, emprega-se um FT-Transformer para a componente temporal e uma rede convolucional TIMM para a componente visual, combinadas por um esquema de fusão híbrida a meio da rede. A pipeline inclui normalização e padronização de plots, geração consistente de janelas temporais, otimização bayesiana com Optuna e protocolos de avaliação reprodutíveis. A avaliação é realizada no subconjunto de séries com frequência horária do conjunto de dados M4, em múltiplos horizontes (1–48 passos), reportando o NRMSE agregado e estratificado (1–12, 13–24, 25–36, 37–48). Os resultados mostram que o modelo multimodal supera consistentemente as variantes unimodais (apenas numéricas e apenas visuais), com melhorias até 7,0% em NRMSE face ao melhor baseline, enquanto estudos de ablação evidenciam o contributo específico do ramo visual e do mecanismo de fusão. Contribui-se, assim, com: (i) um framework multimodal eficiente e reprodutível; (ii) um protocolo experimental transparente para fusão numérico-visual; e (iii) diretrizes práticas sobre normalização de plots, janelas e tuning. Discutem-se limitações, como a sensibilidade ao estilo do gráfico e à sincronização temporal, e traçam-se direções futuras que incluem a integração de texto contextual e a previsão sensível a intervenções, visando sistemas de previsão mais adaptativos e aplicáveis ao mundo real.	por
dc.description.abstract	Time series forecasting models that rely solely on numerical data often overlook exogenous factors and structural patterns that can be more effectively captured through visual representations. This thesis proposes a multimodal framework that integrates numerical time series sequences and visual representations (plots/images) to enhance forecasting accuracy, robustness, and interpretability. Methodologically, the approach employs an FT-Transformer for temporal processing and a TIMM-based convolutional network for visual feature extraction, combined through a hybrid mid-level fusion strategy. The training pipeline includes normalization and standardization of plots, consistent generation of temporal windows, Bayesian hyperparameter optimization with Optuna, and reproducible evaluation protocols. The framework is evaluated on the hourly subset of the M4 dataset, across multiple forecasting horizons (1–48 steps), reporting both aggregated and stratified Normalized Root Mean Squared Error (NRMSE) metrics (1–12, 13–24, 25–36, 37–48). Results demonstrate that the multimodal model consistently outperforms unimodal variants (numerical-only and visual-only), achieving up to 7.0% NRMSE reduction compared to the best baseline, whereas ablation studies highlight the specific contribution of the visual branch and the fusion mechanism. This research contributes: (i) an efficient and reproducible multimodal forecasting framework; (ii) a transparent experimental protocol for numerical–visual fusion; and (iii) practical guidelines on plot normalization, window generation, and model tuning. Limitations, such as sensitivity to plot style and temporal synchronization, are discussed, along with future directions including the integration of contextual text and interventionaware forecasting for more adaptive, real-world prediction systems.	eng
dc.identifier.tid	204082145
dc.identifier.uri	http://hdl.handle.net/10400.22/31472
dc.language.iso	eng
dc.rights.uri	N/A
dc.subject	Time series
dc.subject	Multimodal learning
dc.subject	Numerical–visual fusion
dc.subject	Forecasting (NRMSE)
dc.title	Multimodal fusion for time series forecasting: learning from temporal and visual data
dc.type	master thesis
dspace.entity.type	Publication
thesis.degree.name	Mestrado em Business Intelligence & Analytics

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: alexandre_bento_MBIA_2025.pdf
Tamanho:: 1.38 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 4.03 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

ISCAP – DM - Business Intelligence and Analytics