| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 337.1 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Analogue gauges display physical quantities through a needle over a marked scale
and remain common in vehicles, medical devices, and industrial systems. In practice,
readings are often recorded on site by a human operator. Replacing all gauges with
networked sensors is possible but typically costly and disruptive.
We developed a lightweight on-device system based on computer vision and machine
learning. The pipeline operates in two stages. First, it detects the gauge within
an image. Second, it estimates the value using ellipse and needle geometry combined
with optical character recognition (OCR) and a robust angle-to-value mapping. The
system runs fully offline on a mobile device, following a privacy-by-design approach:
images remain on the device, no raw frames or identifiers are transmitted, and intermediate
data are kept only for local inference. All quantitative results presented
here refer to the desktop pipeline. The mobile application demonstrates on-device
feasibility but is not benchmarked for accuracy or latency in this work.
Two complementary datasets were used for evaluation. The Tailored Test Set
contains controlled images with known pose, where the needle is rotated through
fixed angles, and is used to stress-test the reading stage under standardised conditions.
The Unfiltered Test Set contains real and heterogeneous images with unknown
orientation and scale, and is used to evaluate the complete pipeline under unconstrained
conditions.
For detection, YOLOv5-Lite-S was trained on the largest dataset used in this
research compared to prior work, combining about ten thousand synthetic images
with more than seven hundred real ones. This mixed training improved performance
on a real-world benchmark of 568 images from mAP0.50:0.95 = 30.2% to 36.8%, with
mAP0.50 = 82.7%. In task-based evaluation, the model achieved a mean detection
rate of Rdetection = 91.3% on the Unfiltered Test Set and 100% on the Tailored
Test Set. On a shared subset from a prior benchmark, the detector reached 100%
detection versus 98.6% previously reported.
For reading, the end-to-end pipeline completed 91.8% of cases on the Tailored
set and 82.7% on the Unfiltered set. Within the Unfiltered set, 46.3% of all images
— corresponding to 56.0% of completed reads — were within ±5% of full scale. On
matched gauges, the system outperformed prior results in most metrics, including
black-dial cases that are typically difficult due to low contrast and sparse labels,
although unconstrained reading accuracy did not exceed the best published results in every scenario. The system is deployable, privacy-preserving, and has a low
computational footprint, which is valuable where processing, connectivity, or data
governance constraints limit cloud-based solutions.
We also explored large multimodal models to assess their potential for understanding
scale limits and units. Without any fine-tuning, the model correctly identified
minimum and maximum values and units in 81.8% of gauges, though it was
not integrated into the pipeline, final readings still rely on classical computer vision.
In summary, a fully automatic detector–reader can be built with modest computational
resources. Mixing synthetic and real data improves detection on real images.
Reading is reliable under standardised conditions and feasible under unconstrained
ones, with accuracy mainly limited by OCR quality and label sparsity. Future work
should focus on on-device benchmarking, increased robustness, and integration of
more advanced OCR or multimodal models.
Os medidores analógicos representam grandezas físicas através de um ponteiro sobre uma escala marcada, continuando a ser comuns em veículos, equipamentos médicos e sistemas industriais. Na prática, as leituras são frequentemente registadas no local por um operador humano. A substituição por sensores conectados é possível, mas tende a ser dispendiosa e disruptiva. Foi desenvolvido um sistema leve, em dispositivo, baseado em visão por computador e aprendizagem automática. O pipeline opera em duas etapas: primeiro deteta o medidor na imagem, e depois estima o valor através da geometria da elipse e do ponteiro, combinadas com reconhecimento ótico de caracteres (OCR) e um mapeamento robusto de ângulo para valor. O sistema funciona totalmente offline num dispositivo móvel, seguindo o princípio de privacy by design: as imagens permanecem no dispositivo, não são transmitidos frames nem identificadores, e os dados intermédios são mantidos apenas durante a inferência local. Todos os resultados quantitativos apresentados referem-se ao pipeline em desktop. A aplicação móvel demonstra a viabilidade em dispositivo, mas não é avaliada em precisão nem em tempo de execução neste trabalho. Foram avaliados dois conjuntos de dados complementares. O Tailored Test Set contém imagens controladas com pose conhecida, onde o ponteiro percorre ângulos fixos, sendo usado para testar a etapa de leitura em condições normalizadas. O Unfiltered Test Set contém imagens reais e heterogéneas, com orientação e escala desconhecidas, e é usado para avaliar o pipeline completo em condições não restritas. Na deteção, o modelo YOLOv5-Lite-S foi treinado com o maior conjunto de dados utilizado nesta investigação, combinando cerca de dez mil imagens sintéticas com mais de setecentas reais. Este treino misto melhorou o desempenho num conjunto real de 568 imagens de mAP0.50:0.95 = 30.2% para 36.8%, com mAP0.50 = 82.7%. Em avaliação por tarefa, o modelo atingiu Rdetection = 91.3% no Unfiltered Test Set e 100% no Tailored Test Set. Num subconjunto partilhado de um benchmark anterior, o detetor alcançou 100% de deteção face aos 98.6% anteriormente reportados. Na leitura, o pipeline de ponta a ponta concluiu 91.8% dos casos no conjunto Tailored e 82.7% no conjunto Unfiltered. Dentro do Unfiltered, 46.3% de todas as imagens — correspondendo a 56.0% das leituras concluídas — ficaram dentro de ±5% da escala total. Em medidores equivalentes, o sistema superou resultados anteriores na maioria das métricas, incluindo mostradores pretos com baixo contraste e rótulos escassos, embora a precisão em cenários não restritos não ultrapasse os melhores resultados publicados em todos os casos. O sistema é implementável, preserva a privacidade por conceção e tem baixo consumo computacional, o que é valioso em contextos com limitações de processamento, conectividade ou governação de dados. Exploraram-se também modelos multimodais de grande escala para avaliar o potencial na identificação de limites de escala e unidades. Sem qualquer ajuste, o modelo identificou corretamente mínimos, máximos e unidades em 81.8% dos medidores, embora não tenha sido integrado no pipeline, as leituras finais continuam a basear-se em visão por computador clássica. Em síntese, é possível construir um detetor e leitor totalmente automáticos com baixo consumo de recursos. A combinação de dados sintéticos e reais melhora a deteção em imagens reais. A leitura é fiável em condições controladas e viável em cenários não restritos, sendo a precisão limitada principalmente pela qualidade do OCR e pela escassez de rótulos. Trabalhos futuros deviam focar-se avaliação em dispositivo, maior robustez e integração de modelos OCR ou multimodais mais avançados.
Os medidores analógicos representam grandezas físicas através de um ponteiro sobre uma escala marcada, continuando a ser comuns em veículos, equipamentos médicos e sistemas industriais. Na prática, as leituras são frequentemente registadas no local por um operador humano. A substituição por sensores conectados é possível, mas tende a ser dispendiosa e disruptiva. Foi desenvolvido um sistema leve, em dispositivo, baseado em visão por computador e aprendizagem automática. O pipeline opera em duas etapas: primeiro deteta o medidor na imagem, e depois estima o valor através da geometria da elipse e do ponteiro, combinadas com reconhecimento ótico de caracteres (OCR) e um mapeamento robusto de ângulo para valor. O sistema funciona totalmente offline num dispositivo móvel, seguindo o princípio de privacy by design: as imagens permanecem no dispositivo, não são transmitidos frames nem identificadores, e os dados intermédios são mantidos apenas durante a inferência local. Todos os resultados quantitativos apresentados referem-se ao pipeline em desktop. A aplicação móvel demonstra a viabilidade em dispositivo, mas não é avaliada em precisão nem em tempo de execução neste trabalho. Foram avaliados dois conjuntos de dados complementares. O Tailored Test Set contém imagens controladas com pose conhecida, onde o ponteiro percorre ângulos fixos, sendo usado para testar a etapa de leitura em condições normalizadas. O Unfiltered Test Set contém imagens reais e heterogéneas, com orientação e escala desconhecidas, e é usado para avaliar o pipeline completo em condições não restritas. Na deteção, o modelo YOLOv5-Lite-S foi treinado com o maior conjunto de dados utilizado nesta investigação, combinando cerca de dez mil imagens sintéticas com mais de setecentas reais. Este treino misto melhorou o desempenho num conjunto real de 568 imagens de mAP0.50:0.95 = 30.2% para 36.8%, com mAP0.50 = 82.7%. Em avaliação por tarefa, o modelo atingiu Rdetection = 91.3% no Unfiltered Test Set e 100% no Tailored Test Set. Num subconjunto partilhado de um benchmark anterior, o detetor alcançou 100% de deteção face aos 98.6% anteriormente reportados. Na leitura, o pipeline de ponta a ponta concluiu 91.8% dos casos no conjunto Tailored e 82.7% no conjunto Unfiltered. Dentro do Unfiltered, 46.3% de todas as imagens — correspondendo a 56.0% das leituras concluídas — ficaram dentro de ±5% da escala total. Em medidores equivalentes, o sistema superou resultados anteriores na maioria das métricas, incluindo mostradores pretos com baixo contraste e rótulos escassos, embora a precisão em cenários não restritos não ultrapasse os melhores resultados publicados em todos os casos. O sistema é implementável, preserva a privacidade por conceção e tem baixo consumo computacional, o que é valioso em contextos com limitações de processamento, conectividade ou governação de dados. Exploraram-se também modelos multimodais de grande escala para avaliar o potencial na identificação de limites de escala e unidades. Sem qualquer ajuste, o modelo identificou corretamente mínimos, máximos e unidades em 81.8% dos medidores, embora não tenha sido integrado no pipeline, as leituras finais continuam a basear-se em visão por computador clássica. Em síntese, é possível construir um detetor e leitor totalmente automáticos com baixo consumo de recursos. A combinação de dados sintéticos e reais melhora a deteção em imagens reais. A leitura é fiável em condições controladas e viável em cenários não restritos, sendo a precisão limitada principalmente pela qualidade do OCR e pela escassez de rótulos. Trabalhos futuros deviam focar-se avaliação em dispositivo, maior robustez e integração de modelos OCR ou multimodais mais avançados.
Description
Keywords
Analogue Gauge Computer Vision Machine Learning Deep Learning Mobile Medidor Analógico Visão por Computador Aprendizagem Automática
Pedagogical Context
Citation
Publisher
CC License
Without CC licence
