Pereira, Nuno Alexandre MagalhãesNETO, RUI JORGE MACHADO2025-11-262025-11-262025-07-17http://hdl.handle.net/10400.22/31090In industrial environments, operational safety and efficiency depend heavily on timely detection of anomalies. This dissertation presents a complete, structured video summarization pipeline tailored to identify anomalies in industrial settings, using recent advances in Large Language Models (LLMs) and Multimodal LLMs (MLLMs). Beyond reviewing stateof-the-art methodologies in video captioning and anomaly detection, this work delivers a practical implementation combining intelligent frame sampling, context-aware captioning using advanced MLLMs such as gpt-4.1-mini and gemini-2.5-pro, and object detection via YOLOv11. A custom benchmark dataset with 100 Image-Question-Answer (IQA) triplets was developed to evaluate the perceptual capabilities of various MLLMs in industrial scenarios. Additionally, a novel "Model-as-a-Judge" framework was employed to assess models captioning and pipeline summarization quality beyond lexical metrics. The final pipeline achieved a summarization quality score of 0.72 and accurately detected five of six safety-critical anomalies in over an hour of our self-recorded, real-world CNC machine footage. The research has been recognized by the scientific community, being accepted for presentation at the SASYR Symposium. These contributions advance the field of applied Artificial Intelligence (AI) for industrial safety monitoring through a robust and efficient multimodal video analysis system.Em ambientes industriais, a segurança operacional e a eficiência dependem fortemente da deteção atempada de anomalias. Esta dissertação apresenta uma pipeline completa e estruturada de sumarização de vídeo, adaptada para identificar anomalias em cenários industriais, utilizando os avanços recentes em Large Language Models (LLMs) e Multimodal LLMs (MLLMs). Além de rever as metodologias de ponta em legendagem de vídeo e deteção de anomalias, este trabalho oferece uma implementação prática que combina frame sampling, legendagem do contexto com recurso a MLLMs avançados como o gpt-4.1-mini e o gemini-2.5-pro, e deteção de objetos através do YOLOv11. Foi desenvolvido um dataset de referência personalizado com 100 trios de Imagem-Pergunta-Resposta para avaliar as capacidades de perceção de vários MLLMs em cenários industriais. Adicionalmente, foi utilizada uma nova metodologia designada "Model-as-a-Judge" para aferir a qualidade das legendagens e da sumarização para além das métricas lexicais. A pipeline final alcançou uma pontuação de qualidade de sumarização de 0.72 e detetou com precisão cinco das seis anomalias críticas para a segurança, em mais de uma hora de filmagens reais de máquinas CNC gravadas por nós. A investigação foi reconhecida pela comunidade científica, tendo sido aceite para apresentação no Simpósio SASYR. Estas contribuições representam um avanço no campo da Inteligência Artificial (IA) aplicada à monitorização da segurança industrial, através de um sistema de análise de vídeo multimodal robusto e eficiente.engVideo SummarizationLarge Language ModelsMultimodal Large Language ModelsIndustrial SafetyAnomaly DetectionResumo estruturado de vídeo usando LLMs e MLLMsStructured video summarization using LLMs and MLLMsmaster thesis204034442