Computer Vision for Image-Based Automated Analogue Gauge Reading

ABREU, DIOGO PAUPÉRIO ANTÓNIO DE

http://hdl.handle.net/10400.22/31182

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Tese_6223_v3.pdf		337.1 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

ABREU, DIOGO PAUPÉRIO ANTÓNIO DE

Orientador(es)

Viana, Paula Maria Marques Moura Gomes

Resumo(s)

Analogue gauges display physical quantities through a needle over a marked scale and remain common in vehicles, medical devices, and industrial systems. In practice, readings are often recorded on site by a human operator. Replacing all gauges with networked sensors is possible but typically costly and disruptive. We developed a lightweight on-device system based on computer vision and machine learning. The pipeline operates in two stages. First, it detects the gauge within an image. Second, it estimates the value using ellipse and needle geometry combined with optical character recognition (OCR) and a robust angle-to-value mapping. The system runs fully offline on a mobile device, following a privacy-by-design approach: images remain on the device, no raw frames or identifiers are transmitted, and intermediate data are kept only for local inference. All quantitative results presented here refer to the desktop pipeline. The mobile application demonstrates on-device feasibility but is not benchmarked for accuracy or latency in this work. Two complementary datasets were used for evaluation. The Tailored Test Set contains controlled images with known pose, where the needle is rotated through fixed angles, and is used to stress-test the reading stage under standardised conditions. The Unfiltered Test Set contains real and heterogeneous images with unknown orientation and scale, and is used to evaluate the complete pipeline under unconstrained conditions. For detection, YOLOv5-Lite-S was trained on the largest dataset used in this research compared to prior work, combining about ten thousand synthetic images with more than seven hundred real ones. This mixed training improved performance on a real-world benchmark of 568 images from mAP0.50:0.95 = 30.2% to 36.8%, with mAP0.50 = 82.7%. In task-based evaluation, the model achieved a mean detection rate of Rdetection = 91.3% on the Unfiltered Test Set and 100% on the Tailored Test Set. On a shared subset from a prior benchmark, the detector reached 100% detection versus 98.6% previously reported. For reading, the end-to-end pipeline completed 91.8% of cases on the Tailored set and 82.7% on the Unfiltered set. Within the Unfiltered set, 46.3% of all images — corresponding to 56.0% of completed reads — were within ±5% of full scale. On matched gauges, the system outperformed prior results in most metrics, including black-dial cases that are typically difficult due to low contrast and sparse labels, although unconstrained reading accuracy did not exceed the best published results in every scenario. The system is deployable, privacy-preserving, and has a low computational footprint, which is valuable where processing, connectivity, or data governance constraints limit cloud-based solutions. We also explored large multimodal models to assess their potential for understanding scale limits and units. Without any fine-tuning, the model correctly identified minimum and maximum values and units in 81.8% of gauges, though it was not integrated into the pipeline, final readings still rely on classical computer vision. In summary, a fully automatic detector–reader can be built with modest computational resources. Mixing synthetic and real data improves detection on real images. Reading is reliable under standardised conditions and feasible under unconstrained ones, with accuracy mainly limited by OCR quality and label sparsity. Future work should focus on on-device benchmarking, increased robustness, and integration of more advanced OCR or multimodal models.

Os medidores analógicos representam grandezas físicas através de um ponteiro sobre uma escala marcada, continuando a ser comuns em veículos, equipamentos médicos e sistemas industriais. Na prática, as leituras são frequentemente registadas no local por um operador humano. A substituição por sensores conectados é possível, mas tende a ser dispendiosa e disruptiva. Foi desenvolvido um sistema leve, em dispositivo, baseado em visão por computador e aprendizagem automática. O pipeline opera em duas etapas: primeiro deteta o medidor na imagem, e depois estima o valor através da geometria da elipse e do ponteiro, combinadas com reconhecimento ótico de caracteres (OCR) e um mapeamento robusto de ângulo para valor. O sistema funciona totalmente offline num dispositivo móvel, seguindo o princípio de privacy by design: as imagens permanecem no dispositivo, não são transmitidos frames nem identificadores, e os dados intermédios são mantidos apenas durante a inferência local. Todos os resultados quantitativos apresentados referem-se ao pipeline em desktop. A aplicação móvel demonstra a viabilidade em dispositivo, mas não é avaliada em precisão nem em tempo de execução neste trabalho. Foram avaliados dois conjuntos de dados complementares. O Tailored Test Set contém imagens controladas com pose conhecida, onde o ponteiro percorre ângulos fixos, sendo usado para testar a etapa de leitura em condições normalizadas. O Unfiltered Test Set contém imagens reais e heterogéneas, com orientação e escala desconhecidas, e é usado para avaliar o pipeline completo em condições não restritas. Na deteção, o modelo YOLOv5-Lite-S foi treinado com o maior conjunto de dados utilizado nesta investigação, combinando cerca de dez mil imagens sintéticas com mais de setecentas reais. Este treino misto melhorou o desempenho num conjunto real de 568 imagens de mAP0.50:0.95 = 30.2% para 36.8%, com mAP0.50 = 82.7%. Em avaliação por tarefa, o modelo atingiu Rdetection = 91.3% no Unfiltered Test Set e 100% no Tailored Test Set. Num subconjunto partilhado de um benchmark anterior, o detetor alcançou 100% de deteção face aos 98.6% anteriormente reportados. Na leitura, o pipeline de ponta a ponta concluiu 91.8% dos casos no conjunto Tailored e 82.7% no conjunto Unfiltered. Dentro do Unfiltered, 46.3% de todas as imagens — correspondendo a 56.0% das leituras concluídas — ficaram dentro de ±5% da escala total. Em medidores equivalentes, o sistema superou resultados anteriores na maioria das métricas, incluindo mostradores pretos com baixo contraste e rótulos escassos, embora a precisão em cenários não restritos não ultrapasse os melhores resultados publicados em todos os casos. O sistema é implementável, preserva a privacidade por conceção e tem baixo consumo computacional, o que é valioso em contextos com limitações de processamento, conectividade ou governação de dados. Exploraram-se também modelos multimodais de grande escala para avaliar o potencial na identificação de limites de escala e unidades. Sem qualquer ajuste, o modelo identificou corretamente mínimos, máximos e unidades em 81.8% dos medidores, embora não tenha sido integrado no pipeline, as leituras finais continuam a basear-se em visão por computador clássica. Em síntese, é possível construir um detetor e leitor totalmente automáticos com baixo consumo de recursos. A combinação de dados sintéticos e reais melhora a deteção em imagens reais. A leitura é fiável em condições controladas e viável em cenários não restritos, sendo a precisão limitada principalmente pela qualidade do OCR e pela escassez de rótulos. Trabalhos futuros deviam focar-se avaliação em dispositivo, maior robustez e integração de modelos OCR ou multimodais mais avançados.

Palavras-chave

Analogue Gauge Computer Vision Machine Learning Deep Learning Mobile Medidor Analógico Visão por Computador Aprendizagem Automática

URI

http://hdl.handle.net/10400.22/31182

Coleções

ISEP - DM – Engenharia Electrotécnica e de Computadores

Licença CC

Sem licença CC

Ver registo completo