Repository logo
 
Publication

Resumo estruturado de vídeo usando LLMs e MLLMs

datacite.subject.fosEngenharia e Tecnologia
datacite.subject.sdg09:Indústria, Inovação e Infraestruturas
dc.contributor.advisorPereira, Nuno Alexandre Magalhães
dc.contributor.authorNETO, RUI JORGE MACHADO
dc.date.accessioned2025-11-26T16:10:19Z
dc.date.available2025-11-26T16:10:19Z
dc.date.issued2025-07-17
dc.description.abstractIn industrial environments, operational safety and efficiency depend heavily on timely detection of anomalies. This dissertation presents a complete, structured video summarization pipeline tailored to identify anomalies in industrial settings, using recent advances in Large Language Models (LLMs) and Multimodal LLMs (MLLMs). Beyond reviewing stateof-the-art methodologies in video captioning and anomaly detection, this work delivers a practical implementation combining intelligent frame sampling, context-aware captioning using advanced MLLMs such as gpt-4.1-mini and gemini-2.5-pro, and object detection via YOLOv11. A custom benchmark dataset with 100 Image-Question-Answer (IQA) triplets was developed to evaluate the perceptual capabilities of various MLLMs in industrial scenarios. Additionally, a novel "Model-as-a-Judge" framework was employed to assess models captioning and pipeline summarization quality beyond lexical metrics. The final pipeline achieved a summarization quality score of 0.72 and accurately detected five of six safety-critical anomalies in over an hour of our self-recorded, real-world CNC machine footage. The research has been recognized by the scientific community, being accepted for presentation at the SASYR Symposium. These contributions advance the field of applied Artificial Intelligence (AI) for industrial safety monitoring through a robust and efficient multimodal video analysis system.eng
dc.description.abstractEm ambientes industriais, a segurança operacional e a eficiência dependem fortemente da deteção atempada de anomalias. Esta dissertação apresenta uma pipeline completa e estruturada de sumarização de vídeo, adaptada para identificar anomalias em cenários industriais, utilizando os avanços recentes em Large Language Models (LLMs) e Multimodal LLMs (MLLMs). Além de rever as metodologias de ponta em legendagem de vídeo e deteção de anomalias, este trabalho oferece uma implementação prática que combina frame sampling, legendagem do contexto com recurso a MLLMs avançados como o gpt-4.1-mini e o gemini-2.5-pro, e deteção de objetos através do YOLOv11. Foi desenvolvido um dataset de referência personalizado com 100 trios de Imagem-Pergunta-Resposta para avaliar as capacidades de perceção de vários MLLMs em cenários industriais. Adicionalmente, foi utilizada uma nova metodologia designada "Model-as-a-Judge" para aferir a qualidade das legendagens e da sumarização para além das métricas lexicais. A pipeline final alcançou uma pontuação de qualidade de sumarização de 0.72 e detetou com precisão cinco das seis anomalias críticas para a segurança, em mais de uma hora de filmagens reais de máquinas CNC gravadas por nós. A investigação foi reconhecida pela comunidade científica, tendo sido aceite para apresentação no Simpósio SASYR. Estas contribuições representam um avanço no campo da Inteligência Artificial (IA) aplicada à monitorização da segurança industrial, através de um sistema de análise de vídeo multimodal robusto e eficiente.por
dc.identifier.tid204034442
dc.identifier.urihttp://hdl.handle.net/10400.22/31090
dc.language.isoeng
dc.rights.uriN/A
dc.subjectVideo Summarization
dc.subjectLarge Language Models
dc.subjectMultimodal Large Language Models
dc.subjectIndustrial Safety
dc.subjectAnomaly Detection
dc.titleResumo estruturado de vídeo usando LLMs e MLLMspor
dc.title.alternativeStructured video summarization using LLMs and MLLMseng
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameMestrado em Engenharia Informática

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Tese_5806.pdf
Size:
9.48 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.03 KB
Format:
Item-specific license agreed upon to submission
Description: