Browsing by Author "Figueiredo, Lino Manuel Baptista"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- 3D Pose and Shape Estimation from a Camera SystemPublication . Figueiredo, Lino Manuel BaptistaNeste trabalho, é abordada uma solução que procura estimar a posição articular 3D de várias pessoas em cenários reais, bem como a sua forma corporal e trajetória global a partir de um único vídeo RGB, gravado com uma câmara estática ou dinâmica. Em contraste com sistemas multi-view complexos, esta solução prioriza a simplicidade e adaptabilidade em diferentes aplicações. Face ao cenário desafiador, desenvolveu-se um sistema baseado em diferentes frameworks, individualmente otimizadas para o seu propósito. Como tal, o autor procurou estender o processo realizado num pose and shape estimator convencional, implementando, de forma robusta, a capacidade tracking de humanos e uma inferência com base em coerência temporal, capaz de lidar com oclusões completas em longos intervalos de tempo. Os humanos, presentes no cenário, são detetados e devidamente identificados ao longo do vídeo, a partir de um Multiple Person Tracking (MPT) (i.e., Deep OCSORT com YOLOv8x e Re-Identication (Re-ID) model). Esta informação, alimenta o Human Pose and Shape (HPS) estimator (i.e., HybrIK com backbone da rede HRNet-W48) capaz de gerar, a partir de uma combinação da representação volumétrica das articulações com a capacidade de extração de features das DCNNs, uma sequência que define o movimento do humano no sistema de coordenadas da câmara (i.e., root translations, root rotations, pose do corpo e os parâmetros do shape). Complementarmente, o movimento humano, localmente definido, é preenchido segundo um processo iterativo, dado pela integração do generative motion optimizer, por sua vez organizado numa arquitetura baseada em Transformers e apoiado pelas relações temporais presentes na informação das deteções visíveis. Para um conjunto de parâmetros descritivos do movimento corporal de cada humano é obtido a respetiva trajetória global, propriamente relacionadas, num processo baseado na variação posicional local (posição no plano e orientação) e numa otimização iterativa dos parâmetros da câmara consistente com as evidências do vídeo, e.g., 2D keypoints. Os resultados, obtidos no dataset 3DPW, demonstram que a abordagem proposta superar os métodos anteriores na reconstrução do movimento, com 68, 2 mm PAMPJPE em oclusões e 46, 4 mm PA-MPJPE em poses visíveis.