| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 140.09 MB | Adobe PDF |
Authors
Abstract(s)
This dissertation proposes and validates a robust Reinforcement Learning (RL)
method for visual navigation of Unmanned Aerial Vehicles (UAVs) tasked to inspect
floating photovoltaic panel arrays in the Alqueva reservoir, using simulation-based
development and testing. Panel inspection requires low-altitude flights, and the
dynamic nature of the floating environment renders waypoint-based planning ineffective,
requiring the method to operate under varied conditions and resist visual
disturbances. To address these challenges, the study compares two feature extraction
architectures: a vision-based model and a multimodal data model that combines
visual data with numerical inputs, including actions and velocities.
The Soft Actor-Critic (SAC) policy was selected to process the latent state produced
by the feature extractors. Following training with domain randomization,
results showed that the multimodal model that combines visual and action inputs
outperforms other variants in accuracy, control, and task completion. However,
its robustness to visual perturbations remained somewhat limited. To address this
shortcoming, the domain randomization was refined, the model retrained with appropriate
regularization, and the hyperparameters tuned, significantly improving
robustness at the cost of a slight reduction in overall performance.
This work contributes with a modular simulation pipeline for training and validation,
a comparative analysis between models exploring unimodal and multimodal
data, and practical insights into the accuracy–robustness trade-off in Reinforcement
Learning (RL). Domain randomization and data multimodality were fundamental
to improving model performance and generalization.
Esta dissertação propõe e valida um método robusto de Reinforcement Learning (RL) para navegação visual de UAVs encarregues de inspecionar painéis fotovoltaicos flutuantes na albufeira de Alqueva, utilizando desenvolvimento e testes baseados em simulação. A inspeção dos painéis requer voos a baixa altitude, e a natureza dinâmica do ambiente flutuante torna ineficaz o planeamento baseado em pontos de referência, exigindo que o método opere em condições variadas e resista a perturbações visuais. Para enfrentar estes desafios, o estudo compara duas arquiteturas de extração de características: um modelo unimodal baseado em visão e um modelo multimodal que combina dados visuais com entradas numéricas, nomeadamente ações e velocidades. A política Soft Actor-Critic (SAC) foi selecionada para processar o estado latente produzido pelos extratores de características. Após o treino com randomização de domínio, os resultados mostraram que o modelo multimodal que combina entradas visuais e ações supera as restantes variantes em precisão, controlo e conclusão da tarefa. No entanto, a sua robustez a perturbações visuais permaneceu algo limitada. Para superar esta deficiência, a randomização de domínio foi melhorada, o modelo foi retreinado com regularização apropriada e os hiperparâmetros foram ajustados, melhorando significativamente a robustez à custa de uma ligeira redução no desempenho geral. Este trabalho contribui com um pipeline modular de simulação para treino e validação, uma análise comparativa entre modelos que exploram dados unimodais e multimodais, e perspetivas práticas sobre o compromisso entre precisão e robustez em Reinforcement Learning (RL). A randomização do domínio e a multimodalidade dos dados foram fundamentais para melhorar o desempenho e a generalização do modelo.
Esta dissertação propõe e valida um método robusto de Reinforcement Learning (RL) para navegação visual de UAVs encarregues de inspecionar painéis fotovoltaicos flutuantes na albufeira de Alqueva, utilizando desenvolvimento e testes baseados em simulação. A inspeção dos painéis requer voos a baixa altitude, e a natureza dinâmica do ambiente flutuante torna ineficaz o planeamento baseado em pontos de referência, exigindo que o método opere em condições variadas e resista a perturbações visuais. Para enfrentar estes desafios, o estudo compara duas arquiteturas de extração de características: um modelo unimodal baseado em visão e um modelo multimodal que combina dados visuais com entradas numéricas, nomeadamente ações e velocidades. A política Soft Actor-Critic (SAC) foi selecionada para processar o estado latente produzido pelos extratores de características. Após o treino com randomização de domínio, os resultados mostraram que o modelo multimodal que combina entradas visuais e ações supera as restantes variantes em precisão, controlo e conclusão da tarefa. No entanto, a sua robustez a perturbações visuais permaneceu algo limitada. Para superar esta deficiência, a randomização de domínio foi melhorada, o modelo foi retreinado com regularização apropriada e os hiperparâmetros foram ajustados, melhorando significativamente a robustez à custa de uma ligeira redução no desempenho geral. Este trabalho contribui com um pipeline modular de simulação para treino e validação, uma análise comparativa entre modelos que exploram dados unimodais e multimodais, e perspetivas práticas sobre o compromisso entre precisão e robustez em Reinforcement Learning (RL). A randomização do domínio e a multimodalidade dos dados foram fundamentais para melhorar o desempenho e a generalização do modelo.
Description
Keywords
Reinforcement Learning Visual navigation Unmanned Aerial Vehicles (UAVs) Domain Randomization Photovoltaic (PV) array inspection Multimodal learning Simulation Aprendizagem por Reforço (RL) Navegação visual Veículos Aéreos Não Tripulados (UAVs) Inspeção de painéis Fotovoltaicos (PV) Aprendizagem multimodal Simulação
Pedagogical Context
Citation
Publisher
CC License
Without CC licence
