Analysing the impact of emerging backbones on generalization of video anomaly detection models

Silva, Paulo Miguel Borges

http://hdl.handle.net/10400.22/26751

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
Tese_5521_v2.pdf		29.82 MB	Adobe PDF	Download

Send Feedback

Authors

Silva, Paulo Miguel Borges

Advisor(s)

Carvalho, Pedro Miguel Machado Soares

Abstract(s)

Video anomaly detection plays a crucial role in intelligent surveillance systems, where it is essential to identify events that deviate from normal behaviour. These systems offer several advantages such as real-time monitoring that allows immediate response to security threats, scalability to process large volumes of data across different environments and it ensures anomalies are detected without being influenced by human error or human corruption, highly affected in areas like public spaces and prisons. A significant challenge consists in achieving strong Out-of-Distribution generalization, which ensures models perform effectively on unseen data. This dissertation investigates the impact of emerging backbone architectures and advanced learning techniques on the performance of the models, with a focus on improving their ability to generalize across varied and complex real-world scenarios. The study offers a comprehensive comparison of backbone architectures, ranging from traditional to cutting-edge, for the task of anomaly detection. Additionally, it examines the potential of Self-Supervised Learning methods to overcome the limitations of conventional supervised approaches, particularly in improving generalization across diverse datasets. On the other hand, recent literature on Semi-Supervised models indicates that novel backbones do not show significant improvements. However, leveraging One-Class Classification methods may offer better generalization. The findings reveal that multi-modal self-supervised backbones, such as Contrastive Language-Image Pretraining, demonstrate strong performance in anomaly detection even performing novelty detection, however single-modal techniques like Self-Distillation with No Labels are highly sensitive to scenario conditions. Hybrid architectures like NextViT exhibit limited advancements over existing solutions. Additionally, One-Class Classification methods have proven to be effective in controlled environments with minimal variations, offering a simpler and more robust alternative to complex approaches and backbones.

A Deteção de Anomalias em Vídeo desempenha um papel crucial em sistemas inteligentes de vigilância e monitorização, sendo essencial para identificar eventos que se desviam do comportamento normal. Estes sistemas oferecem vantagens como automação e escalabilidade, permitindo operar simultaneamente em múltiplas zonas, eliminando a necessidade de intervenção humana e a fadiga associada. Além disso, reduzem os custos relacionados à videovigilância, ao diminuir o tamanho das equipas necessárias, e eliminam o risco de corrupção, um problema inerente à natureza humana. Logo à partida trás vantagens como automação e escalabilidade visto que estes modelos podem operar em múltiplas zonas simultaneamente eliminando a necessidade da intervenção humana e as consequências que poderão daí advir como fadiga; reduz os custos associados à videovigilância já que não é necessário depender de grandes equipas de videovigilância e reduz o risco de corrupção que é um problema que se prende com a natureza humana. Um desafio significativo consiste em alcançar uma forte generalização Out-Of- Distribution, assegurando que os modelos funcionem de forma eficaz para dados nunca vistos. Esta dissertação investiga o impacto das arquiteturas de backbone emergentes e das técnicas de aprendizagem avançadas no desempenho dos modelos, com foco na melhoria da sua capacidade de generalização em cenários variados e complexos do mundo real. Este estudo avalia o desempenho das arquiteturas tradicionais de Convolutional Neural Networks, Transformers e arquiteturas híbridas em tarefas de deteção de anomalia. Explora também o papel dos métodos de Aprendizagem Auto- Supervisionada, que estão a tornar-se cada vez mais relevantes em modelos de Supervisão Fraca, em comparação com as abordagens supervisionadas tradicionais. Por outro lado, a literatura recente sobre modelos Semi-Supervisionados indica que os backbones novos não mostram melhorias significativas. No entanto, é possível tirar proveito dos métodos de One-Class Classification para uma melhor generalização. Os resultados revelam que os backbone auto-supervisionados multimodais, como o Contrastive Language-Image Pretraining, demonstram um forte desempenho na deteção de anomalias, incluindo a deteção de novidades, no entanto técnicas unimodais como Self-Distillation with No Labels são altamente sensíveis às condições do cenário. Modelos de arquitetura híbrida, como o NextViT, apresentam avanços limitados em relação às soluções existentes. Além disso, os métodos One-Class Classification provaram ser eficazes em ambientes controlados com variações mínimas, oferecendo uma alternativa mais simples e robusta aos backbone complexos.