| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 7.64 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
of handling large volumes of heterogeneous and unstructured data while enabling real-time intelligent
decision-making. In the water management domain, where legacy systems and operational
complexity often obstruct innovation, there is an increasing need to adopt artificial intelligencepowered
solutions that promote efficiency, traceability, and accessibility. Responding to this
challenge, this dissertation presents CLARA — a Conversational Lakehouse Architecture supported
by Real-time Artificial intelligence. CLARA is a modular solution that integrates modern
data infrastructures, artificial intelligence models, and natural language interaction to support
intelligent management in water utility operations.
CLARA was conceived and developed from scratch, following the data lakehouse paradigm to
consolidate structured and unstructured data, such as field images. The infrastructure adopts a
medallion architecture (Bronze, Silver, Gold) and includes pipelines for ingestion, loading, and
transformation. Particular attention was given to documentation of transformations, and integration
of flows for experiment tracking, enabling a robust foundation for artificial intelligence
development and data governance.
The solution currently features two artificial intelligence models that demonstrate how the
lakehouse paradigm can support intelligent reasoning beyond conventional structured data processing.
The first is an optical character recognition model, which enables the automated
interpretation of water meter readings directly from field images, a type of unstructured data
typically excluded from traditional storage systems. This model exemplifies how AI can be embedded
into the data architecture to support validation and data quality assurance workflows.
The second is a predictive model based on neural networks, designed to anticipate the symptom
of the next operational intervention by analyzing historical maintenance sequences. Together,
these models illustrate the potential of unifying data storage and artificial intelligence reasoning
within a single environment.
At the user interaction layer, a custom-built conversational assistant leverages a cascade of
large language models to classify and respond to user queries in real-time. The system routes
each input to one of four specialized modules: (1) to access structure data in real-time, (2) to
execute and access artificial intelligence models, (3) to consult software support manuals, and
(4) to provide fallback conversational support only on water-related topics. The assistant also
integrates multilingual support and a semantic permission-verification mechanism that maps
the user’s intent and role to the structure of the underlying database, preventing unauthorized
actions.
Developed in partnership with A2O – Água, Ambiente e Organização, Lda., and validated
through four real-world case studies, CLARA demonstrated how a carefully orchestrated artificial
intelligence pipeline, backed by an efficient data infrastructure, can modernize and improve
decision-making, enhance transparency, and simplify access to complex systems through natural
language.
A transformação digital de sistemas operacionais com elevada densidade de dados exige arquiteturas capazes de processar grandes volumes de informação heterogénea e não estruturada, assegurando simultaneamente a tomada de decisão inteligente em tempo real. No domínio da gestão da água, onde os sistemas legados e a complexidade operacional frequentemente dificultam a inovação, torna-se cada vez mais urgente a adoção de soluções inteligentes que promovam eficiência, rastreabilidade e acessibilidade. Em resposta a este desafio, esta dissertação apresenta a CLARA — a Conversational Lakehouse Architecture supported by Real-time Artificial intelligence. Trata-se de uma solução modular que combina infraestruturas de dados modernas, modelos de inteligência artificial e interação em linguagem natural para apoiar a gestão inteligente nas operações dos serviços de água. A CLARA foi desenvolvida de raiz, segundo o paradigma lakehouse, para consolidar dados estruturados e não estruturados, como imagens recolhidas no terreno. A infraestrutura adota uma arquitetura medalhão (Bronze, Silver, Gold) e inclui pipelines para ingestão, carregamento e transformação. Foi dada especial atenção à documentação das transformações e à integração de fluxos para rastreamento de experiências, assegurando uma base sólida para o desenvolvimento de modelos de inteligência artificial e para a governação de dados. A solução conta atualmente com dois modelos de inteligência artificial que demonstram como o paradigma lakehouse pode suportar raciocínio inteligente para além do processamento convencional de dados estruturados. Um é um modelo de reconhecimento ótico de caracteres, que permite a leitura automática de contadores de água a partir de imagens recolhidas no terreno, um tipo de dado normalmente excluído de sistemas tradicionais. O segundo é um modelo preditivo baseado em redes neuronais, concebido para antecipar o sintoma da próxima intervenção operacional com base em sequências históricas de manutenção. Em conjunto, estes modelos ilustram o potencial da unificação entre armazenamento de dados e raciocínio artificial num único ambiente. Na camada de interação com o utilizador, foi desenvolvido um assistente conversacional que recorre a uma cascata de modelos de linguagem de grande escala para classificar e responder, em tempo real, às perguntas formuladas. O sistema encaminha cada input para um de quatro módulos especializados: (1) acesso a dados estruturados, (2) execução e consulta de modelos de inteligência artificial, (3) consulta de manuais de apoio ao software e (4) suporte conversacional de retaguarda sobre temas do domínio da água. O assistente integra ainda suporte multilingue e um mecanismo semântico de verificação de permissões, que cruza a intenção e o perfil do utilizador com a estrutura da base de dados, prevenindo ações não autorizadas. Desenvolvida em parceria com a A2O – Água, Ambiente e Organização, Lda., e validada através de quatro casos de estudo em contexto real, a CLARA demonstrou como uma pipeline de inteligência artificial cuidadosamente orquestrada, apoiada por uma infraestrutura de dados eficiente, pode modernizar a tomada de decisão, aumentar a transparência e simplificar o acesso a sistemas complexos por via da linguagem natural.
A transformação digital de sistemas operacionais com elevada densidade de dados exige arquiteturas capazes de processar grandes volumes de informação heterogénea e não estruturada, assegurando simultaneamente a tomada de decisão inteligente em tempo real. No domínio da gestão da água, onde os sistemas legados e a complexidade operacional frequentemente dificultam a inovação, torna-se cada vez mais urgente a adoção de soluções inteligentes que promovam eficiência, rastreabilidade e acessibilidade. Em resposta a este desafio, esta dissertação apresenta a CLARA — a Conversational Lakehouse Architecture supported by Real-time Artificial intelligence. Trata-se de uma solução modular que combina infraestruturas de dados modernas, modelos de inteligência artificial e interação em linguagem natural para apoiar a gestão inteligente nas operações dos serviços de água. A CLARA foi desenvolvida de raiz, segundo o paradigma lakehouse, para consolidar dados estruturados e não estruturados, como imagens recolhidas no terreno. A infraestrutura adota uma arquitetura medalhão (Bronze, Silver, Gold) e inclui pipelines para ingestão, carregamento e transformação. Foi dada especial atenção à documentação das transformações e à integração de fluxos para rastreamento de experiências, assegurando uma base sólida para o desenvolvimento de modelos de inteligência artificial e para a governação de dados. A solução conta atualmente com dois modelos de inteligência artificial que demonstram como o paradigma lakehouse pode suportar raciocínio inteligente para além do processamento convencional de dados estruturados. Um é um modelo de reconhecimento ótico de caracteres, que permite a leitura automática de contadores de água a partir de imagens recolhidas no terreno, um tipo de dado normalmente excluído de sistemas tradicionais. O segundo é um modelo preditivo baseado em redes neuronais, concebido para antecipar o sintoma da próxima intervenção operacional com base em sequências históricas de manutenção. Em conjunto, estes modelos ilustram o potencial da unificação entre armazenamento de dados e raciocínio artificial num único ambiente. Na camada de interação com o utilizador, foi desenvolvido um assistente conversacional que recorre a uma cascata de modelos de linguagem de grande escala para classificar e responder, em tempo real, às perguntas formuladas. O sistema encaminha cada input para um de quatro módulos especializados: (1) acesso a dados estruturados, (2) execução e consulta de modelos de inteligência artificial, (3) consulta de manuais de apoio ao software e (4) suporte conversacional de retaguarda sobre temas do domínio da água. O assistente integra ainda suporte multilingue e um mecanismo semântico de verificação de permissões, que cruza a intenção e o perfil do utilizador com a estrutura da base de dados, prevenindo ações não autorizadas. Desenvolvida em parceria com a A2O – Água, Ambiente e Organização, Lda., e validada através de quatro casos de estudo em contexto real, a CLARA demonstrou como uma pipeline de inteligência artificial cuidadosamente orquestrada, apoiada por uma infraestrutura de dados eficiente, pode modernizar a tomada de decisão, aumentar a transparência e simplificar o acesso a sistemas complexos por via da linguagem natural.
Description
Keywords
data lakehouse conversational AI AI model integration OCR validation permission-aware assistant
