Martinho, Diogo Emanuel PereiraVIOLANTE, DIOGO DE SÁ2025-11-132025-11-132025-10-17http://hdl.handle.net/10400.22/30865Data management in Industry 4.0 has become a growing complexity process, leading to industries increasingly relying on large-scale datasets, which results in traditional analysis methods becoming inefficient and even inaccessible for end users. Enterprise Resource Planning systems deal with heterogeneous data from multiple modules and processes, which creates a need for more accessible and sophisticated tools. Recently, the growth of Artificial Intelligence solutions has played a central role in addressing these challenges. Fields like Natural Language Processing, Computer Vision and Machine Learning have helped the development of systems that create more value from complex datasets, making information more manageable across industrial environments. The objective of this thesis is the exploration, implementation and validation of NLP solutions with generative capabilities that can integrate into these systems, by proposing a solution that aims at providing a more efficient and optimized way of analyzing SQL data, through a pipeline that transforms user natural queries into SQL queries used for data retrieval. A conversational chatbot, capable of translating natural language queries into SQL statements, was developed, with the central feature of this project being a RAG component used to search files with database tables schema to provide context to a LLM, for it to generate SQL statements that can be used to retrieve information, without compromising the user experience or the database itself. The user’s intent is detected and the RAG component is adapted according to it. A mechanism to search the Web for information was also developed, to help provide context, when there is not enough to create a valid answer. The generated queries are analyzed, to prevent potential dangers for the integrity of the database and, if they are considered as valid, they are persisted by another component, to be used in future context to formulate other queries. The chosen LLM model, as the backbone for this pipeline, allows not only for the generation of the queries but also for providing text answers for several matters, including user manuals or simple informal conversations, depending on the need. Also, it’s multi-language support helps in enhancing the overall user experience and accessibility. A test set with real-world examples was created, to help validate the system, by using evaluation metrics like Exact Match Accuracy, Execution Accuracy and Valid Efficiency Score. A manual validity test was also conducted, to determine if the queries that did not achieve a good Exact Match Accuracy score, could still be considered as valid, given the ambiguity of the SQL language. The results demonstrate that the system is capable of handling queries with simple to medium complexity, but needs further optimization for higher ones. This helps to conclude that NLP-driven text-to-SQL solutions can enhance data accessibility for both technical and non-technical users, while compliance with privacy and security requirements.A gestão de dados na Indústria 4.0 tornou-se um processo de complexidade crescente, levando as indústrias a dependerem cada vez mais de conjuntos de dados de grande escala, o que torna os métodos tradicionais de análise ineficientes e até inacessíveis para os utilizadores finais. Os sistemas de Planeamento de Recursos Empresariais lidam com dados heterogéneos provenientes de múltiplos módulos e processos, o que cria a necessidade de ferramentas mais acessíveis e sofisticadas. Recentemente, o crescimento de soluções que fazem uso de Inteligência Artificial tem desempenhado um papel central na resolução desses desafios. Áreas como Processamento de Linguagem Natural, Visão Computacional e Machine-Learning têm contribuído para o desenvolvimento de sistemas capazes de extrair maior valor de conjuntos de dados complexos, tornando a informação mais acessível e gerivel nos ambientes industriais. O objetivo desta dissertação é a exploração, implementação e validação de soluções de PLN, com capacidades generativas, que possam ser integradas nestes sistemas, propondo uma solução que visa fornecer uma forma mais eficiente e otimizada de analisar dados SQL, através de uma pipeline que transforma frases naturais dos utilizadores em queries SQL utilizadas para a aquisição de dados. Foi desenvolvido um chatbot conversacional, capaz de traduzir consultas em linguagem natural em instruções SQL, sendo a funcionalidade central deste projeto um componente RAG, utilizado para pesquisar ficheiros com esquemas de tabelas de base de dados, de modo a fornecer contexto a um LLM, permitindo a geração de instruções SQL que possam ser usadas para obter informação, sem comprometer a experiência do utilizador ou a própria base de dados. A intenção do utilizador é detetada e o componente RAG é adaptado de acordo com essa intenção. Foi também desenvolvido um mecanismo de pesquisa na Web, para ajudar a fornecer contexto, quando este não é suficiente para criar uma resposta válida. As queries geradas são analisadas para prevenir potenciais riscos para a integridade da base de dados e, caso sejam consideradas válidas, são armazenadas por outro componente, para serem utilizadas como contexto em futuras consultas. O modelo LLM escolhido, como base desta pipeline, permite não só a geração das queries mas também o fornecimento de respostas em texto para diversos assuntos, incluindo manuais de utilizador ou conversas informais, consoante a necessidade. Além disso, o seu suporte para várias linguagens contribui para melhorar a experiência global do utilizador e a acessibilidade. Foi criado um conjunto de testes com exemplos reais, para ajudar a validar o sistema, utilizando métricas de avaliação como Exact Match Accuracy, Execution Accuracy e Valid Efficiency Score. Foi igualmente conduzido um teste manual de validade, para determinar se as queries que não alcançaram uma boa pontuação de Exact Match Accuracy poderiam ainda ser consideradas válidas, dada a ambiguidade da linguagem SQL. Os resultados demonstram que o sistema é capaz de lidar com consultas de complexidade simples a média, mas necessita de maior otimização para as mais complexas. Isto permite concluir que soluções, baseadas em PLN, de transformação de textos naturais em queries SQL, podem melhorar a acessibilidade dos dados tanto para utilizadores técnicos como não técnicos, assegurando simultaneamente a conformidade com requisitos de privacidade e segurança.engRetrieval-Augmented GenerationConversational AIBusiness AnalyticsLarge Language ModelsEnterprise Resource PlanningApplication of NLP techniques for the optimization of SQL driven data analysis in ERP softwaremaster thesis204033128