| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 9.79 MB | Adobe PDF |
Authors
Abstract(s)
Image captioning is a research area in Artificial Intelligence (AI) that aims to
generate coherent and contextually accurate textual descriptions of images. Some of
its practical applications include image retrieval, video summarization and enhancing
human–computer interactions in areas like robotics and virtual reality. Vision-
Language Model (VLM) are suited to solve this multimodal task and often rely on
pretrained vision encoders such as Contrastive Language-Image Pre-training (CLIP).
However, CLIP underperforms when faced with occluded objects, where crucial
visual cues are missing. In this work, we investigate whether a lightweight unified
multimodal decoder that does not use pretrained data can outperform CLIP-based
baselines under the same settings.
Given an input image, we learn a model that generates a textual caption with just
a few selected patches of the images as context. The baseline experiment replaces
CLIP’s embeddings with flattened patches in the text sequence, and subsequent
experiments iteratively extend this setup to probe different aspects of the methodology.
Specifically, we ask: (i) does inserting patch embeddings both before and after the
text sequence improve alignment between modalities? (ii) can replacing a single
occluded CLIP embedding with multiple patch tokens under the same occlusion
conditions enhance semantic recovery? (iii) do convolutional preprocessed patches
yield more informative visual representations? (iv) does adding two-dimensional
positional encoding improve spatial awareness? (v) how sensitive is caption quality
to the specific set of randomly sampled patches? (vi) can additional regularization
to align patch embeddings further strengthen visual grounding?
Most of our results show consistent gains over the baseline, narrowing the gap
to using CLIP embeddings. Nonetheless, the unified decoder lags behind CLIP on
standard captioning metrics (BLEU@4, METEOR, CIDEr, SPICE), suggesting either
the need for substantially larger models and datasets, or that architectures with
uni-modal encoders, e.g. image specific encoders, remain better suited for robust
captioning under extreme partial occlusion.
A tarefa de legendar imagens (image captioning) é uma área de investigação em inteligência artificial que tem como objetivo gerar descrições textuais coerentes e contextualmente precisas de imagens. Algumas das suas aplicações práticas incluem image retrieval, sumarização de vídeos e melhorar as interações entre humanos e computadores em áreas como robótica e realidade virtual. Os Modelos de Linguagem de Visão são adequados para resolver esta tarefa multimodal e frequentemente dependem de codificadores visuais pré-treinados como o CLIP. No entanto, o CLIP apresenta desempenho inferior quando confrontado com situações de oclusão, nas quais informações cruciais estão ausentes. Neste trabalho, investigamos se um decodificador multimodal unificado e leve, que não utiliza dados pré-treinados, pode superar versões baseadas no CLIP sob as mesmas configurações. Dada uma imagem como entrada, treinamos um modelo que gera uma legenda textual utilizando apenas alguns patches selecionados da imagem como contexto, simulando assim a ausência de informação causada por oclusões. A experiência de base substitui os embeddings do CLIP por patches na sequência de texto, e experiências posteriores estendem iterativamente essa configuração para explorar diferentes aspectos da metodologia. Especificamente, perguntamos: (i) a inserção de embeddings de patches antes e depois da sequência de texto melhora o alinhamento entre as modalidades? (ii) a substituição de um único embedding do CLIP por múltiplos patches sob as mesmas condições de oclusão melhora a recuperação semântica? (iii) patches pré-processados com convoluções produzem melhores representações visuais? (iv) a adição de uma codificação posicional bidimensional melhora a percepção espacial do modelo? (v) quão sensível é a qualidade das descrições textuais ao conjunto específico de patches amostrados aleatoriamente? (vi) uma regularização adicional para alinhar os embeddings dos patches pode aumentar o visual grounding? A maioria de nossos resultados mostra ganhos consistentes em relação à experiência de base, reduzindo a diferença em relação ao uso de embeddings do CLIP. No entanto, o decodificador unificado ainda fica atrás do CLIP em métricas padrão de captioning (BLEU@4, METEOR, CIDEr, SPICE), sugerindo a necessidade de modelos e conjuntos de dados substancialmente maiores, ou que arquiteturas com codificadores unimodais, por exemplo, codificadores específicos de imagem, continuam mais adequadas para uma descrição visual robusta sob oclusão parcial extrema.
A tarefa de legendar imagens (image captioning) é uma área de investigação em inteligência artificial que tem como objetivo gerar descrições textuais coerentes e contextualmente precisas de imagens. Algumas das suas aplicações práticas incluem image retrieval, sumarização de vídeos e melhorar as interações entre humanos e computadores em áreas como robótica e realidade virtual. Os Modelos de Linguagem de Visão são adequados para resolver esta tarefa multimodal e frequentemente dependem de codificadores visuais pré-treinados como o CLIP. No entanto, o CLIP apresenta desempenho inferior quando confrontado com situações de oclusão, nas quais informações cruciais estão ausentes. Neste trabalho, investigamos se um decodificador multimodal unificado e leve, que não utiliza dados pré-treinados, pode superar versões baseadas no CLIP sob as mesmas configurações. Dada uma imagem como entrada, treinamos um modelo que gera uma legenda textual utilizando apenas alguns patches selecionados da imagem como contexto, simulando assim a ausência de informação causada por oclusões. A experiência de base substitui os embeddings do CLIP por patches na sequência de texto, e experiências posteriores estendem iterativamente essa configuração para explorar diferentes aspectos da metodologia. Especificamente, perguntamos: (i) a inserção de embeddings de patches antes e depois da sequência de texto melhora o alinhamento entre as modalidades? (ii) a substituição de um único embedding do CLIP por múltiplos patches sob as mesmas condições de oclusão melhora a recuperação semântica? (iii) patches pré-processados com convoluções produzem melhores representações visuais? (iv) a adição de uma codificação posicional bidimensional melhora a percepção espacial do modelo? (v) quão sensível é a qualidade das descrições textuais ao conjunto específico de patches amostrados aleatoriamente? (vi) uma regularização adicional para alinhar os embeddings dos patches pode aumentar o visual grounding? A maioria de nossos resultados mostra ganhos consistentes em relação à experiência de base, reduzindo a diferença em relação ao uso de embeddings do CLIP. No entanto, o decodificador unificado ainda fica atrás do CLIP em métricas padrão de captioning (BLEU@4, METEOR, CIDEr, SPICE), sugerindo a necessidade de modelos e conjuntos de dados substancialmente maiores, ou que arquiteturas com codificadores unimodais, por exemplo, codificadores específicos de imagem, continuam mais adequadas para uma descrição visual robusta sob oclusão parcial extrema.
Description
Keywords
Deep learning Image captioning Occlusion Transformer Multimodal Decoder Multimodal Machine Learning Aprendizagem Profunda Legendagem de Imagens Oclusões Transformer Descodificador Multimodal Aprendizagem Computacional Multimodal
Pedagogical Context
Citation
Publisher
CC License
Without CC licence
