Name: | Description: | Size: | Format: | |
---|---|---|---|---|
29.82 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Video anomaly detection plays a crucial role in intelligent surveillance systems,
where it is essential to identify events that deviate from normal behaviour. These
systems offer several advantages such as real-time monitoring that allows immediate
response to security threats, scalability to process large volumes of data across different
environments and it ensures anomalies are detected without being influenced
by human error or human corruption, highly affected in areas like public spaces and
prisons.
A significant challenge consists in achieving strong Out-of-Distribution generalization,
which ensures models perform effectively on unseen data. This dissertation
investigates the impact of emerging backbone architectures and advanced learning
techniques on the performance of the models, with a focus on improving their ability
to generalize across varied and complex real-world scenarios.
The study offers a comprehensive comparison of backbone architectures, ranging
from traditional to cutting-edge, for the task of anomaly detection. Additionally, it
examines the potential of Self-Supervised Learning methods to overcome the limitations
of conventional supervised approaches, particularly in improving generalization
across diverse datasets. On the other hand, recent literature on Semi-Supervised
models indicates that novel backbones do not show significant improvements. However,
leveraging One-Class Classification methods may offer better generalization.
The findings reveal that multi-modal self-supervised backbones, such as Contrastive
Language-Image Pretraining, demonstrate strong performance in anomaly
detection even performing novelty detection, however single-modal techniques like
Self-Distillation with No Labels are highly sensitive to scenario conditions. Hybrid
architectures like NextViT exhibit limited advancements over existing solutions. Additionally,
One-Class Classification methods have proven to be effective in controlled
environments with minimal variations, offering a simpler and more robust alternative
to complex approaches and backbones.
A Deteção de Anomalias em Vídeo desempenha um papel crucial em sistemas inteligentes de vigilância e monitorização, sendo essencial para identificar eventos que se desviam do comportamento normal. Estes sistemas oferecem vantagens como automação e escalabilidade, permitindo operar simultaneamente em múltiplas zonas, eliminando a necessidade de intervenção humana e a fadiga associada. Além disso, reduzem os custos relacionados à videovigilância, ao diminuir o tamanho das equipas necessárias, e eliminam o risco de corrupção, um problema inerente à natureza humana. Logo à partida trás vantagens como automação e escalabilidade visto que estes modelos podem operar em múltiplas zonas simultaneamente eliminando a necessidade da intervenção humana e as consequências que poderão daí advir como fadiga; reduz os custos associados à videovigilância já que não é necessário depender de grandes equipas de videovigilância e reduz o risco de corrupção que é um problema que se prende com a natureza humana. Um desafio significativo consiste em alcançar uma forte generalização Out-Of- Distribution, assegurando que os modelos funcionem de forma eficaz para dados nunca vistos. Esta dissertação investiga o impacto das arquiteturas de backbone emergentes e das técnicas de aprendizagem avançadas no desempenho dos modelos, com foco na melhoria da sua capacidade de generalização em cenários variados e complexos do mundo real. Este estudo avalia o desempenho das arquiteturas tradicionais de Convolutional Neural Networks, Transformers e arquiteturas híbridas em tarefas de deteção de anomalia. Explora também o papel dos métodos de Aprendizagem Auto- Supervisionada, que estão a tornar-se cada vez mais relevantes em modelos de Supervisão Fraca, em comparação com as abordagens supervisionadas tradicionais. Por outro lado, a literatura recente sobre modelos Semi-Supervisionados indica que os backbones novos não mostram melhorias significativas. No entanto, é possível tirar proveito dos métodos de One-Class Classification para uma melhor generalização. Os resultados revelam que os backbone auto-supervisionados multimodais, como o Contrastive Language-Image Pretraining, demonstram um forte desempenho na deteção de anomalias, incluindo a deteção de novidades, no entanto técnicas unimodais como Self-Distillation with No Labels são altamente sensíveis às condições do cenário. Modelos de arquitetura híbrida, como o NextViT, apresentam avanços limitados em relação às soluções existentes. Além disso, os métodos One-Class Classification provaram ser eficazes em ambientes controlados com variações mínimas, oferecendo uma alternativa mais simples e robusta aos backbone complexos.
A Deteção de Anomalias em Vídeo desempenha um papel crucial em sistemas inteligentes de vigilância e monitorização, sendo essencial para identificar eventos que se desviam do comportamento normal. Estes sistemas oferecem vantagens como automação e escalabilidade, permitindo operar simultaneamente em múltiplas zonas, eliminando a necessidade de intervenção humana e a fadiga associada. Além disso, reduzem os custos relacionados à videovigilância, ao diminuir o tamanho das equipas necessárias, e eliminam o risco de corrupção, um problema inerente à natureza humana. Logo à partida trás vantagens como automação e escalabilidade visto que estes modelos podem operar em múltiplas zonas simultaneamente eliminando a necessidade da intervenção humana e as consequências que poderão daí advir como fadiga; reduz os custos associados à videovigilância já que não é necessário depender de grandes equipas de videovigilância e reduz o risco de corrupção que é um problema que se prende com a natureza humana. Um desafio significativo consiste em alcançar uma forte generalização Out-Of- Distribution, assegurando que os modelos funcionem de forma eficaz para dados nunca vistos. Esta dissertação investiga o impacto das arquiteturas de backbone emergentes e das técnicas de aprendizagem avançadas no desempenho dos modelos, com foco na melhoria da sua capacidade de generalização em cenários variados e complexos do mundo real. Este estudo avalia o desempenho das arquiteturas tradicionais de Convolutional Neural Networks, Transformers e arquiteturas híbridas em tarefas de deteção de anomalia. Explora também o papel dos métodos de Aprendizagem Auto- Supervisionada, que estão a tornar-se cada vez mais relevantes em modelos de Supervisão Fraca, em comparação com as abordagens supervisionadas tradicionais. Por outro lado, a literatura recente sobre modelos Semi-Supervisionados indica que os backbones novos não mostram melhorias significativas. No entanto, é possível tirar proveito dos métodos de One-Class Classification para uma melhor generalização. Os resultados revelam que os backbone auto-supervisionados multimodais, como o Contrastive Language-Image Pretraining, demonstram um forte desempenho na deteção de anomalias, incluindo a deteção de novidades, no entanto técnicas unimodais como Self-Distillation with No Labels são altamente sensíveis às condições do cenário. Modelos de arquitetura híbrida, como o NextViT, apresentam avanços limitados em relação às soluções existentes. Além disso, os métodos One-Class Classification provaram ser eficazes em ambientes controlados com variações mínimas, oferecendo uma alternativa mais simples e robusta aos backbone complexos.
Description
Keywords
Video anomaly detection Deep learning Computer vision Benchmark Deteção de anomalias de vídeo Visão computacional