Repository logo
 
Publication

Integração de várias fontes de dados para a previsão de florações de algas nocivas cianobactérias usando aprendizagem automática

datacite.subject.fosEngenharia e Tecnologia
datacite.subject.sdg09:Indústria, Inovação e Infraestruturas
dc.contributor.advisorPereira, Ivo André Soares
dc.contributor.advisorCunha , Bruno Miguel Almeida
dc.contributor.advisorAmorim, Ivone de Fátima da Cruz
dc.contributor.advisorBarbosa , Hugo Fernando Azevedo
dc.contributor.authorQUERIDO, MARCO ANDRÉ MORGADO
dc.date.accessioned2025-10-13T15:26:42Z
dc.date.available2025-10-13T15:26:42Z
dc.date.issued2025-09-10
dc.description.abstractThis dissertation addresses the issue of forecasting cyanobacterial harmful algal blooms (cyanoHABs), a source of harm to aquatic ecosystems and human health via toxin production and water quality degradation. Motivated by the limitations of traditional forecast methods based on single-source data, this work explores multi-source integration to further optimize forecast precision. The conceptual model is based on the assumption that a combination of several biogeochemical, physical, and meteorological parameters better characterizes cyanobacteria bloom variability’s multi-faceted drivers. Based on Copernicus Marine Service data, the model combines chlorophyll-a concentration, as a factor for the magnitude of the bloom, with parameters such as sea surface temperature (SST), rising significant wave height (SSWH), nutrient concentration (e.g., phosphate, ammonium), net primary production (nppv), phytoplankton biomass (phyc), and euphotic depth (zeu). The approach used was based on the CRISP-DM methodology. The importance of predicting cyanoHAB was realized, and data understanding and preparation involved collecting, cleaning, and preprocessing multi-source time-series data. Ensemble classifiers (Random Forest, Bagging, XGBoost) were used for chlorophyll-a classification and regression models (Random Forest Regressor, ARIMA, SARIMA, LSTM, GRU, CNN) for forecasting trends of chlorophyll-a in the modeling phase. Performance comparison employed ROC AUC, precision, and recall for classification tasks and R² and RMSE for regression. Results show ensemble classifiers labeled chlorophyll-a with almost perfect accuracy and ROC AUC values close to 1.00, and they noted biogeochemical features nppv, phyc, and zeu as the most predictive. Random Forest Regressor was best for regression on timeseries (R² = 0.594), simulating short-term chlorophyll-a patterns accurately. Though, under oversmoothing or instability with noise in the data, the traditional models (ARIMA, SARIMA) and deep learning models (LSTM, GRU, CNN) were not as good. These findings confirm that multi-source data integration evidently enhances cyanoHAB forecasting and that the use of ensemble machine learning models to make accurate and interpretable predictions is confirmed. The dissertation ends by observing that environmental factors need to be enhanced in prediction models and explainable AI approaches incorporated to build confidence and improve decision-making for water quality management.eng
dc.description.abstractFlorações de algas nocivas cianobactérias (cyanoHABs) são fenómenos naturais caracterizados pelo crescimento anormal de cianobactérias em volumes de água, frequentemente associados a grandes perdas económicas, riscos graves à saúde animal e humana devido à produção de toxinas pelas cyanoHABs e destruição de ecossistemas aquáticos. Embora já se tenham identificado mecanismos de controlo físico-químico que influenciam os processos que originam e mantêm as cyanoHABs, existem, no entanto, lacunas significativas de conhecimento relativamente aos fatores que desencadeiam e mantêm estes fenómenos. Nas últimas décadas, muitos estudos têm demonstrado como as abordagens de aprendizagem automática e de inteligência artificial podem ser bastante eficazes na criação de modelos preditivos para eventos de cyanoHABs, utilizando dados ambientais. No entanto, a revisão da literatura demonstra que a maioria dos estudos até agora concentra-se em dados univariáveis, o que limita a capacidade dos modelos de capturar a complexidade multivariada que influencia a dinâmica das cyanoHABs. Perante isso, esta dissertação pretende preencher essa lacuna, explorando a integração de diversas fontes de dados, incluindo variáveis meteorológicas, físicas e biogeoquímicas, para melhorar a previsibilidade dos eventos de cyanoHABs. O principal objetivo desta dissertação é avaliar a eficácia de alguns modelos de aprendizagem automática que utilizam dados de diferentes fontes para prever florações de cyanoHABs. Para isso, são seguidas três etapas essenciais: realizar uma revisão bibliográfica abrangente sobre como a aprendizagem automática tem sido aplicada na previsão de cyanoHABs; analisar e preparar conjuntos de dados históricos do Copernicus Marine Service; selecionar, treinar e validar diversos modelos preditivos para tarefas de classificação e previsão temporal de clorofila-a. Todo o processo metodológico foi feito ao longo do ciclo CRISP-DM, que abrange desde a compreensão do negócio e dos dados, passando pela preparação e engenharia de características, até à modelação e avaliação, com a exceção da implementação dos resultados. Os resultados demonstram que modelos como o Random Forest, Bagging e XGBoost obteram uma precisão preditiva excecional na classificação dos níveis de clorofila-a, tendo valores próximos de 1,00 de ROC AUC, com a indicação de altos níveis de capacidade de discriminação entre diferentes classes de intensidade de florações. As análises de importância de características indicaram que variáveis biogeoquímicas, como a produtividade primária líquida de biomassa (nppv), concentração de fitoplâncton como carbono (phyc) e profundidade da zona eufótica (zeu) possuem um peso significativamente maior do que variáveis físicas orientadas ás ondas e vento (como analysed_sst, VCMX e VHM0_WW). Relativamente a previsões temporais, o Random Forest Regressor teve bons resultados, alcançando o melhor desempenho na previsão de tendências sazonais de clorofila-a, com valores de R² de até 0,594 com erros muito reduzidos (MSE ≈ 0, RMSE ≈ 0.02 e MAE ≈ 0.01), enquanto que modelos tradicionais como ARIMA e SARIMA, bem como redes neuronais como LSTM, GRU e CNN, apresentaram resultados insatisfatórios, com previsões excessivamente suaves ou instáveis. As conclusões mostram claramente como a combinação de dados de diferentes fontes pode melhorar a capacidade preditiva dos modelos de cyanoHABs. Destacam também que a integração das variáveis biogeoquímicas e físicas fornece uma compreensão mais completa da dinâmica das cyanoHABs. Além disso, os resultados indicam a importância de investir em abordagens de inteligência artificial explicável (XAI), assegurando que os modelos sejam compreensíveis e utilizáveis pelas autoridades responsáveis pela qualidade da água. Trabalhos futuros podem incluir a adição de dados meteorológicos locais, como os que estão disponíveis no portal do Instituto Português do Mar e da Atmosfera (IPMA). Além disso, outras variáveis ambientais importantes, como a turbidez e a direção do vento, podem ser consideradas para fortalecer e tornar os modelos mais práticos. Estas descobertas destacam o potencial da aplicação da aprendizagem automática com dados de diversas fontes como uma estratégia fundamental para apoiar a gestão da segurança hídrica e reduzir os impactos de florações nocivas.por
dc.identifier.tid204014360
dc.identifier.urihttp://hdl.handle.net/10400.22/30604
dc.language.isoeng
dc.rights.uriN/A
dc.subjectCyanoHABs
dc.subjectMachine Learning
dc.subjectArtificial Intelligence
dc.subjectMulti-source Data Merg- ing
dc.subjectcyanoHABs Prediction
dc.subjectWater Security
dc.subjectFlorações de algas nocivas
dc.subjectAprendizagem automática
dc.subjectInteligência artificial
dc.subjectFusão de dados multiorigem
dc.subjectPrevisão de floração
dc.subjectSegurança hídrica
dc.titleIntegração de várias fontes de dados para a previsão de florações de algas nocivas cianobactérias usando aprendizagem automáticapor
dc.title.alternativeIntegration of multiple data sources on the prediction of harmful algal blooms using Machine Learningeng
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameMestrado em Engenharia Informática

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Tese_5792.pdf
Size:
5.26 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.03 KB
Format:
Item-specific license agreed upon to submission
Description: