Repository logo
 
Loading...
Thumbnail Image
Publication

Deep learning for monocular visual odometry: From sequential pose regression to self-attention learning

Use this identifier to reference this record.
Name:Description:Size:Format: 
Tese_6182_v2.pdf11.16 MBAdobe PDF Download

Abstract(s)

Monocular visual odometry (VO) estimates the position and orientation of a moving system using images from a single camera. It is widely used in robotics, autonomous driving, and UAVs. Compared to stereo or LiDAR systems, monocular VO avoids extra hardware, but it faces challenges such as scale ambiguity, sensitivity to lighting changes, and poor generalization to new environments. Deep learning has recently become a promising approach, as it allows networks to learn motion and geometry directly from images. This thesis studies deep learning methods for monocular VO. First, a simple CNN–LSTM baseline inspired by DeepVO is evaluated. This model works well on KITTI with Absolute Trajectory Error(ATE): 37.14 m; scale recovery: 0.998) and trains relatively fast, but it fails to converge on more dynamic or indoor datasets like TartanAir and EuRoC MAV, showing the limitations of learning pose from images alone. To improve performance, the model is gradually extended with self-attention and an auxiliary depth prediction branch, forming a multi-task framework that jointly learns pose and depth. This adds geometric constraints that reduce scale drift and improve trajectory consistency. The training strategy combines synthetic pretraining on TartanAir, using perfect depth supervision, with fine-tuning on EuRoC MAV using pseudo-depth maps. Experiments show significant improvements: on EuRoC V102, the multi-task model achieves an ATE of 0.825 m over a 42.53 m path, closely matching the ground truth (40.12 m) with a scale recovery of 1.059. These results outperform classical methods like ORB-SLAM3 and approach state-of-the-art learning-based approaches. The two main contributions of this work are: first, proposing and testing a framework that gradually moves from simple CNN–LSTM pose regression to a multi-task model with depth and self-attention; second, analyzing the benefits and limitations of this approach. The results show that depth supervision, even if not perfect, stabilizes motion estimation and improves consistency, pointing to promising directions for learning-based pose estimation in complex environments.
A odometria visual monocular (VO) estima a posição e orientação de um sistema em movimento usando imagens de uma única câmara. É amplamente utilizada em robótica, condução autónoma e UAVs. Comparada com sistemas stereo ou LiDAR, a VO monocular evita hardware adicional, mas enfrenta desafios como ambiguidade de escala, sensibilidade a alterações de iluminação e fraca generalização para novos ambientes. Técnicas baseadas em inteligência artificial tornou-se recentemente uma abordagem promissora, permitindo que redes aprendam movimento e geometria diretamente a partir das imagens. Esta tese estuda métodos de aprendizado profundo para VO monocular. Primeiro, é avaliado um modelo simples CNN–LSTM inspirado no DeepVO. Este modelo funciona bem no KITTI (Erro de Trajetória Absoluta, ATE: 37,14 m; recuperação de escala: 0,998) e treina relativamente rápido, mas falha em convergir em datasets mais dinâmicos ou interiores, como TartanAir e EuRoC MAV, mostrando as limitações de aprender pose apenas a partir de imagens. Para melhorar o desempenho, o modelo é gradualmente expandido com self-attention e uma ramificação auxiliar de previsão de profundidade, formando um framework multi-tarefa que aprende simultaneamente pose e profundidade. Isto adiciona restrições geométricas que reduzem o desvio de escala e melhoram a consistência da trajetória. A estratégia de treino combina pré-treino sintético no TartanAir, usando supervisão perfeita de profundidade, com fine-tuning no EuRoC MAV utilizando mapas de pseudo-profundidade. Os experimentos mostram melhorias significativas: no EuRoC V102, o modelo multi-tarefa alcança um ATE de 0,825 m ao longo de um percurso de 42,53 m, aproximando-se muito da verdade de terreno (40,12 m) com uma recuperação de escala de 1,059. Estes resultados superam métodos clássicos como ORB-SLAM3 e aproximam-se das abordagens baseadas em aprendizado mais avançadas. As duas principais contribuições deste trabalho são: primeiro, propor e testar um framework que evolui gradualmente de uma regressão de pose simples CNN–LSTM para um modelo multi-tarefa com profundidade e self-attention; segundo, analisar os benefícios e limitações desta abordagem. Os resultados mostram que a supervisão de profundidade, mesmo que não perfeita, estabiliza a estimativa de movimento e melhora a consistência, apontando direções promissoras para a estimativa de pose baseada em aprendizado em ambientes complexos.

Description

Keywords

Monocular Visual Odometry Deep Learning CNN?LSTM Self-Attention Multi-task Learning Depth Prediction Odometria Visual monocular Aprendizagem profunda Auto-atenção Aprendizagem multi-tarefa

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License

Without CC licence