Name: | Description: | Size: | Format: | |
---|---|---|---|---|
9.25 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Video Anomaly Detection (VAD) is a critical task in video surveillance and security systems,
aiming to automatically identify events that deviate from normal patterns. These systems
enable real-time monitoring, offer scalability for processing large volumes of data across
diverse environments, and help reduce human error. Despite recent advances, most VAD
models rely solely on spatio-temporal features. This project investigates the impact of
incorporating contextual information, specifically object-level features, into the pipeline of a
State of The Art (SoTA) VAD model.
For this aim, we propose modifications in a SoTA model by presenting a new architecture that
integrates object detection features. Intermediate and late fusion techniques were explored
to determine the most effective method for combining object-level with spatio-temporal
features used by the model. The experiments were conducted on a modified version of a
SoTA dataset, adapted for weakly supervised training.
The findings indicate that integrating object-level features enhances the performance of
the baseline model, with improvements observed across three key metrics: Area Under the
Curve (AUC), Average Precision (AP), and F1-score, particularly in the late fusion models.
Freezing weights of the base model was shown essential to achieve the best results. However,
the inclusion of the new channel introduced additional computational costs during training
and a slight increase in inference time. Although these factors can affect the scalability of
the project, they are not very significant since tasks can be parallelized, or executed in better
hardware infrastructures.
This work demonstrates that incorporating contextual cues from object detection into existing
VAD frameworks can lead to better anomaly discrimination, paving the way for more
reliable and context-aware surveillance systems.
A deteção de anomalias em vídeo (VAD) é uma tarefa crítica nos sistemas de videovigilância e segurança, onde o objetivo é identificar automaticamente eventos que se desviam de padrões normais. Estes sistemas permitem a monitorização em tempo real, oferecem escalabilidade para o processamento de grandes volumes de dados em diversos ambientes e ajudam a reduzir o erro humano. Apesar dos recentes avanços, a maioria dos modelos VAD baseia-se apenas em informações espácio-temporais. Este projeto investiga o impacto da incorporação de informações contextuais, especificamente ao nível dos objectos, na pipeline de um modelo de VAD do estado de arte. Neste estudo, foram feitas modificações a um modelo do estado de arte através da introdução de uma nova arquitetura que integra os resultados de um modelo de deteção de objectos. Foram exploradas técnicas de fusão intermédias e tardias para determinar o método mais eficaz para combinar informação ao nível do objeto com informações espáciotemporais utilizadas pelo modelo. As experiências foram efectuadas numa versão modificada de um dataset de estado de arte, adaptado para treino com fraca supervisão. Os resultados indicam que a integração de informação ao nível do objeto melhora o desempenho do modelo de base, com melhorias observadas em três principais métricas: Area Under the Curve (AUC), Average Precision (AP) e F1-score, principalmente nos modelos de fusão tardia. O congelamento de pesos do modelo base mostrou-se essencial para obter os melhores resultados. No entanto, a inclusão do novo canal introduziu custos computacionais adicionais durante a fase de treino e um ligeiro aumento do tempo de inferência. Apesar destes fatores poderem afetar a escalabilidade do projeto, estes não se revelaram muito significativos já que as tarefas podem ser paralelizadas, ou executadas em infraestruturas de hardware mais capazes. Este trabalho demonstra que a incorporação de informações contextuais da deteção de objetos em modelos de VAD existentes pode levar a uma melhor identificação de anomalias, permitindo a criação de sistemas de vigilância mais credíveis e contextuais.
A deteção de anomalias em vídeo (VAD) é uma tarefa crítica nos sistemas de videovigilância e segurança, onde o objetivo é identificar automaticamente eventos que se desviam de padrões normais. Estes sistemas permitem a monitorização em tempo real, oferecem escalabilidade para o processamento de grandes volumes de dados em diversos ambientes e ajudam a reduzir o erro humano. Apesar dos recentes avanços, a maioria dos modelos VAD baseia-se apenas em informações espácio-temporais. Este projeto investiga o impacto da incorporação de informações contextuais, especificamente ao nível dos objectos, na pipeline de um modelo de VAD do estado de arte. Neste estudo, foram feitas modificações a um modelo do estado de arte através da introdução de uma nova arquitetura que integra os resultados de um modelo de deteção de objectos. Foram exploradas técnicas de fusão intermédias e tardias para determinar o método mais eficaz para combinar informação ao nível do objeto com informações espáciotemporais utilizadas pelo modelo. As experiências foram efectuadas numa versão modificada de um dataset de estado de arte, adaptado para treino com fraca supervisão. Os resultados indicam que a integração de informação ao nível do objeto melhora o desempenho do modelo de base, com melhorias observadas em três principais métricas: Area Under the Curve (AUC), Average Precision (AP) e F1-score, principalmente nos modelos de fusão tardia. O congelamento de pesos do modelo base mostrou-se essencial para obter os melhores resultados. No entanto, a inclusão do novo canal introduziu custos computacionais adicionais durante a fase de treino e um ligeiro aumento do tempo de inferência. Apesar destes fatores poderem afetar a escalabilidade do projeto, estes não se revelaram muito significativos já que as tarefas podem ser paralelizadas, ou executadas em infraestruturas de hardware mais capazes. Este trabalho demonstra que a incorporação de informações contextuais da deteção de objetos em modelos de VAD existentes pode levar a uma melhor identificação de anomalias, permitindo a criação de sistemas de vigilância mais credíveis e contextuais.
Description
Keywords
Video Anomaly Detection Computer Vision Deep Learning Object Detection