Repository logo
 
Loading...
Thumbnail Image
Publication

From relational waters to intelligent oceans: A lakehouse-centric approach to conversational artificial intelligence

Use this identifier to reference this record.
Name:Description:Size:Format: 
Tese_5839_v3.pdf7.64 MBAdobe PDF Download

Abstract(s)

of handling large volumes of heterogeneous and unstructured data while enabling real-time intelligent decision-making. In the water management domain, where legacy systems and operational complexity often obstruct innovation, there is an increasing need to adopt artificial intelligencepowered solutions that promote efficiency, traceability, and accessibility. Responding to this challenge, this dissertation presents CLARA — a Conversational Lakehouse Architecture supported by Real-time Artificial intelligence. CLARA is a modular solution that integrates modern data infrastructures, artificial intelligence models, and natural language interaction to support intelligent management in water utility operations. CLARA was conceived and developed from scratch, following the data lakehouse paradigm to consolidate structured and unstructured data, such as field images. The infrastructure adopts a medallion architecture (Bronze, Silver, Gold) and includes pipelines for ingestion, loading, and transformation. Particular attention was given to documentation of transformations, and integration of flows for experiment tracking, enabling a robust foundation for artificial intelligence development and data governance. The solution currently features two artificial intelligence models that demonstrate how the lakehouse paradigm can support intelligent reasoning beyond conventional structured data processing. The first is an optical character recognition model, which enables the automated interpretation of water meter readings directly from field images, a type of unstructured data typically excluded from traditional storage systems. This model exemplifies how AI can be embedded into the data architecture to support validation and data quality assurance workflows. The second is a predictive model based on neural networks, designed to anticipate the symptom of the next operational intervention by analyzing historical maintenance sequences. Together, these models illustrate the potential of unifying data storage and artificial intelligence reasoning within a single environment. At the user interaction layer, a custom-built conversational assistant leverages a cascade of large language models to classify and respond to user queries in real-time. The system routes each input to one of four specialized modules: (1) to access structure data in real-time, (2) to execute and access artificial intelligence models, (3) to consult software support manuals, and (4) to provide fallback conversational support only on water-related topics. The assistant also integrates multilingual support and a semantic permission-verification mechanism that maps the user’s intent and role to the structure of the underlying database, preventing unauthorized actions. Developed in partnership with A2O – Água, Ambiente e Organização, Lda., and validated through four real-world case studies, CLARA demonstrated how a carefully orchestrated artificial intelligence pipeline, backed by an efficient data infrastructure, can modernize and improve decision-making, enhance transparency, and simplify access to complex systems through natural language.
A transformação digital de sistemas operacionais com elevada densidade de dados exige arquiteturas capazes de processar grandes volumes de informação heterogénea e não estruturada, assegurando simultaneamente a tomada de decisão inteligente em tempo real. No domínio da gestão da água, onde os sistemas legados e a complexidade operacional frequentemente dificultam a inovação, torna-se cada vez mais urgente a adoção de soluções inteligentes que promovam eficiência, rastreabilidade e acessibilidade. Em resposta a este desafio, esta dissertação apresenta a CLARA — a Conversational Lakehouse Architecture supported by Real-time Artificial intelligence. Trata-se de uma solução modular que combina infraestruturas de dados modernas, modelos de inteligência artificial e interação em linguagem natural para apoiar a gestão inteligente nas operações dos serviços de água. A CLARA foi desenvolvida de raiz, segundo o paradigma lakehouse, para consolidar dados estruturados e não estruturados, como imagens recolhidas no terreno. A infraestrutura adota uma arquitetura medalhão (Bronze, Silver, Gold) e inclui pipelines para ingestão, carregamento e transformação. Foi dada especial atenção à documentação das transformações e à integração de fluxos para rastreamento de experiências, assegurando uma base sólida para o desenvolvimento de modelos de inteligência artificial e para a governação de dados. A solução conta atualmente com dois modelos de inteligência artificial que demonstram como o paradigma lakehouse pode suportar raciocínio inteligente para além do processamento convencional de dados estruturados. Um é um modelo de reconhecimento ótico de caracteres, que permite a leitura automática de contadores de água a partir de imagens recolhidas no terreno, um tipo de dado normalmente excluído de sistemas tradicionais. O segundo é um modelo preditivo baseado em redes neuronais, concebido para antecipar o sintoma da próxima intervenção operacional com base em sequências históricas de manutenção. Em conjunto, estes modelos ilustram o potencial da unificação entre armazenamento de dados e raciocínio artificial num único ambiente. Na camada de interação com o utilizador, foi desenvolvido um assistente conversacional que recorre a uma cascata de modelos de linguagem de grande escala para classificar e responder, em tempo real, às perguntas formuladas. O sistema encaminha cada input para um de quatro módulos especializados: (1) acesso a dados estruturados, (2) execução e consulta de modelos de inteligência artificial, (3) consulta de manuais de apoio ao software e (4) suporte conversacional de retaguarda sobre temas do domínio da água. O assistente integra ainda suporte multilingue e um mecanismo semântico de verificação de permissões, que cruza a intenção e o perfil do utilizador com a estrutura da base de dados, prevenindo ações não autorizadas. Desenvolvida em parceria com a A2O – Água, Ambiente e Organização, Lda., e validada através de quatro casos de estudo em contexto real, a CLARA demonstrou como uma pipeline de inteligência artificial cuidadosamente orquestrada, apoiada por uma infraestrutura de dados eficiente, pode modernizar a tomada de decisão, aumentar a transparência e simplificar o acesso a sistemas complexos por via da linguagem natural.

Description

Keywords

data lakehouse conversational AI AI model integration OCR validation permission-aware assistant

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License

Without CC licence