Repository logo
 

ESTG - DM - Engenharia Informática

Permanent URI for this collection

Browse

Recent Submissions

Now showing 1 - 10 of 86
  • Authentication API - A SSO Authentication and Authorisation Infrastructure for Web
    Publication . Fernandes, José Pedro; Silva, Fábio André Souto da
    Modern web applications leverage various login techniques, such as Single Sign-On (SSO), passkeys, and password-less authentication, to enhance user experience. Many SSO solutions exist, that enable users to log in once and be authenticated across multiple applications. In this project a custom web authentication system, tailored to the specific needs of a corporate team, was developed. In this team, the lack of web-based authentication infrastructure inhibited the transition from desktop to web applications. The primary objective was to develop a SSO authentication system that not only supports human users but also provides authentication for processes running without a browser, such as automated scripts which will not use SSO but Windows authentication instead. By utilising JSON Web Tokens (JWTs) and refresh tokens, the solution ensures authentication and fast re-authentication, while a distributed cache enables scalability allowing multiple instances to run concurrently. As a result, an Application Programming Interface (API) called AuthenticationApi was developed alongside three internal connection libraries to simplify integration for both web applications and services. A management console was also created to manage the whitelisting of clients, being them web applications or technical processes. The API was rigorously tested, achieving 96.1% code coverage through unit and integration tests, and successfully deployed in two geographical locations, New York and Paris. Structured logs were implemented, offering insights into API performance and usage patterns. Currently, the API is being used in production and serves as a key infrastructure component for the team.
  • Microservices Orchestration vs.Choreography: A Comparison and Analysis
    Publication . Marques, David Miguel Sousa; Santos, Ricardo Jorge da Silva
    This dissertation explores a critical evaluation of orchestration and choreography in microservices architecture, with particular attention to how these elements affect implementation complexity, latency, and resilience. Given the growing importance of microservices in modern software development, it is critical for developers and architects to comprehend these architectural principles. The study uses a mixed-methods approach to collect data on the efficacy of each approach in practical applications, including qualitative interviews with industry practitioners and the implementation of a solution based on a real-world scenario. The results indicate that while orchestration enables more control over error management and process integrity, choreography provides improved scalability and service independence. The centralisation of orchestration can lead to weaknesses such the possibility of a single point of failure and, in some cases, a rise in latency. This present paper highlights how crucial it is to align architectural decisions with system specifications and provides an overview for visual decision-making that shows the considerations associated when deciding between orchestration and choreography.
  • Aplicação de Modelos de Machine Learning para Previsão de Eventos de Stress Financeiro
    Publication . Fernandes, Ana Beatriz Esteves; Carvalho, Mariana Valério; Borges, Ana Isabel Coelho
    O stress financeiro nas organizações pode manifestar-se através de eventos críticos, como falência, e a capacidade de prever esses eventos é crucial para a gestão de riscos e a tomada de decisões estratégicas. O presente estudo envolveu a aplicação e comparação de cinco modelos distintos de sobrevivência para prever eventos de stress financeiro: Regressão de Cox, Random Survival Forest (RSF), Kernel SVM, Multi-Task Logistic Regression (MTLR) e DeepSurv. Cada modelo foi selecionado com base nas suas características específicas e o seu potencial para lidar com dados de sobrevivência, oferecendo uma abordagem abrangente para a análise preditiva. Este trabalho detalha também o processo de seleção e preparação dos dados, abordando todo o processo seguido desde a recolha dos dados até à análise de correlações entre variáveis. A identificação e remoção de variáveis altamente correlacionadas ajudaram a otimizar o desempenho dos modelos e a simplificar a interpretação dos resultados. Os resultados obtidos indicam que todos os modelos aplicados foram eficazes na previsão de eventos de stress financeiro, com o RSF destacando-se pela sua performance superior. O estudo demonstra a aplicabilidade e a eficácia dos modelos de sobrevivência baseados em Machine Learning (ML) na identificação de riscos financeiros, oferecendo informações valiosas para a gestão financeira e a tomada de decisões estratégicas. Em conclusão, este trabalho contribui para a literatura existente ao aplicar e comparar uma vasta gama de técnicas de ML de sobrevivência na previsão de eventos de stress financeiro. As descobertas oferecem uma base sólida para futuras pesquisas e práticas na área, enfatizando a importância da escolha adequada do modelo para a previsão e a gestão eficaz dos riscos financeiros.
  • Sistema de Rastreabilidade de Madeira: Uma abordagem baseada em mecanismos semânticos para integração e validação dos dados das atividades de exploração florestal
    Publication . Silva, Hugo Daniel Martins; Sousa, Cristóvão Dinis
    In recent years, growing concerns about deforestation have driven the need to monitor the origin and history of the wood arriving at factories. This has led to the adoption of traceability systems in the forestry sector. However, many of these systems are still manual and paper-based, which makes them susceptible to errors and falsification. With the advancement of Industry 4.0 and the digitalisation of forestry operations, there is an opportunity for the digital transformation of traceability. However, the digitalisation process faces challenges at various levels, one of the main issues being that the information sources are dispersed among the various stakeholders in the forest supply chain, resulting in inaccurate and hard-to-access data, which hinders a comprehensive analysis of the wood’s journey. In this context, the present work proposes a traceability system that integrates data from the various stages encompassing forestry exploitation, from the forest to the factory, ensuring a continuous flow of information. The system is based on an ontology that, in addition to formalising the knowledge necessary for traceability, allows for the identification of errors and inconsistencies through reasoning mechanisms, thereby ensuring the transparency and reliability of the collected records. Furthermore, based on the instantiated ontology, Graph Machine Learning techniques are used to train a model capable of predicting missing data and identifying implicit semantic relations. The approach was evaluated in the context of the Floresta 4.0 project and showed promising results in terms of its effectiveness. In addition to addressing the needs of traceability, it detected inconsistencies that had not previously been identified by domain experts.
  • Multimedia data extraction and analysis tool: focus on video and image processing
    Publication . Bragança, João Miguel Teixeira; Silva, Fábio André Souto da
    In today’s digital landscape, the rapid growth of multimedia content, particularly from influencers, has created a critical need for advanced monitoring tools. Building on previous research in multimedia data analysis, this dissertation proposes the development of a tool for extracting and analysing multimedia data to detect violations in influencer-produced content. The tool leverages pre-trained models such as Whisper.AI for speech recognition, YOLOv8 for object detection, and EasyOCR for Optical Character Recognition (OCR). Additionally, sentiment analysis models are employed and tested, with YOLOv8 further trained for specific tasks such as logo detection, ensuring adaptability to various use cases. The objective of this dissertation is to design a versatile and customisable tool capable of performing precise content analysis, including object detection, speech transcription, OCR, sentiment analysis, image classification and logo detection. The solu
  • LIME: Optimising the creation of explanations
    Publication . Pereira, João Tiago Moreira; Carneiro, Davide Rua
    Explainable Artificial Intelligence (XAI) techniques are increasingly necessary for ensuring trust and acceptance of complex machine learning models across various fields. One widely used XAI method, Local Interpretable Model-agnostic Explanations (LIME), is particularly popular for image-based explanations but faces challenges in terms of speed, accuracy, and applicability in different contexts. An improvement to LIME is proposed to optimize its performance, including faster training times and better prediction accuracy, with a focus on finding an alternative machine learning algorithm that can outperform the current one used by LIME. Additionally, this project defines and explores metrics derived from LIME explanations that can help evaluate the quality of image classification models, even in concept drift scenarios where labeled data may be scarce. These metrics are validated against human feedback, identifying four key metrics that could prove useful for automated systems to assess model outputs. Furthermore, in domains like manufacturing, LIME explanations must be adapted to context-specific challenges. In the case of defect detection in the textile industry, the permutation generation process used by LIME can mislead the underlying model, generating poor explanations. A methodology is proposed to mitigate this issue, supporting more accurate and contextually relevant explanations that can enhance decision-making and human-centric approaches in industrial scenarios.
  • Análise do processo de checkout e carrinhos abandonados
    Publication . Silva, Pedro Miguel Carneiro; Carneiro, Davide Rua
    Nos últimos anos, temos presenciado um aumento significativo na quantidade e qualidade dos dados nas organizações. Isso tem levado as empresas a adaptarem-se e a aproveitarem ao máximo esses dados. Neste projeto, o objetivo é focar no processo de compra online de uma empresa nacional, onde os clientes podem comprar produtos por meio de uma loja virtual. Além disso, aborda-se o problema das sessões abandonadas, procurando entender o motivo de ocorrer e encontrar formas de converter essas sessões em vendas lucrativas para a empresa. O principal objetivo é analisar os dados do processo de compra e das sessões abandonadas, a fim de melhorar a experiência do cliente, otimizar os fluxos de compra e aumentar o lucro. Ao compreender as razões por trás das sessões abandonadas e desenvolver estratégias eficazes para reverter essa situação, espera-se aumentar as taxas de conversão e fortalecer o relacionamento com os clientes, tornando a empresa mais competitiva no mercado. Em resumo, este projeto visa aproveitar os dados disponíveis no processo de compra online de uma empresa nacional, com o objetivo de entender e converter as sessões abandonadas em vendas concretas. Isso impulsionará o sucesso financeiro da empresa e fortalecerá a sua posição num mercado que é competitivo.
  • Abordagem Híbrida para Classificação da Doença de Parkinson através de Voz
    Publication . da Silva, Luís Pedro Magalhães; Ramos, João Ricardo Martins
    A doença de Parkinson é a segunda doença neurodegenerativa mais presente, apenas superada pela doença de Alzheimer, e atualmente estima-se que apresente uma incidência entre 7 a 10 milhões de pessoas, estando presente em pessoas com uma idade mais avançada, uma vez que raramente acontece antes dos 50 anos. À medida que a população mundial envelhece, a sua prevalência aumenta de forma diretamente proporcional. Sabe-se que não existe nenhuma forma efetiva de realizar o diagnóstico da doença de Parkinson, sendo que o presente estudo representa a possibilidade de ser feito um diagnóstico prévio, através de algoritmos de Machine Learning baseados num conjunto de dados da voz. Como o conjunto de dados adquirido é desbalanceado e apresenta um problema de elevada dimensão, conjunto de features bastante numeroso, estudou-se o conjunto de dados em 3 vertentes distintas: dataset Completo, dataset dividido por género e dataset dividido por conjunto de features. Nas 3 divisões do conjunto de dados, estudaram-se diversos algoritmos de forma individual e também se utilizou um Ensemble, com a utilização dos diversos classificadores, de forma a tornar o modelo mais robusto. Nos resultados, obteve-se as melhores métricas no estudo com o dataset completo, em que se promoveu um sistema híbrido de classificação com a utilização de Synthetic Minority Oversampling Technique para balanceamento do dataset, seleção de features para a redução da dimensionalidade através da importância de features do XGBoost e Ensemble Stacking com Random Forest, Gradient Boosting, Support Vector Machine e K-Nearest Neighbors como classificadores base e XGBoost como classificador meta, sendo que o resultado apresentou 98.7% de accuracy. Os resultados indicam que a utilização de técnicas de Machine Learning baseadas num conjunto de dados da voz pode ser uma boa possibilidade para a deteção prévia da doença de Parkinson, permitindo desta forma, um tratamento mais especializado e eficaz para o paciente.
  • Cybersecurity in Smart Railways: Challenges and Pathways
    Publication . Fernandes, Tiago Filipe Tavares; Magalhães, João Paulo Ferreira de; Alves, Wellington
    As ferrovias inteligentes surgiram como soluções cruciais nas grandes cidades globais para enfrentar problemas como o grande volume de trânsito e a poluição ambiental. A integração de tecnologias avançadas possibilitou a transição de sistemas ferroviários tradicionais para alternativas altamente eficientes e personalizadas. No entanto, a complexidade destes sistemas introduz novos desafios, especialmente nas áreas de cibersegurança e privacidade. Dada a suscetibilidade dos sistemas ferroviários a ameaças cibernéticas, é imperativo que essas soluções inteligentes em ascensão estabeleçam medidas robustas de segurança e privacidade. Este trabalho aborda os desafios de cibersegurança de duas das principais tecnologias usadas nestes sistemas inteligentes: LoRaWAN e 5G, e propõe uma metodologia de testes de segurança e recomendações para mitigar estes desafios.
  • Phishing Email Classification through the Lens of Psychology and Machine Learning
    Publication . Rodrigues, Sara Patrícia Santos; Magalhães, João Paulo Ferreira de
    Esta dissertação explora o complexo domínio da segurança de emails, investigando a interação entre traços de personalidade, padrões de tomada de decisão, emoções, valência e polaridade na avaliação de conteúdo de emails. O estudo utiliza uma variedade de ferramentas analíticas, desde avaliadores humanos até ferramentas de IA, para explorar de forma abrangente a classificação de emails e suas dimensões psicológicas e emocionais associadas. A análise emocional apresenta resultados contrastantes entre avaliações humanas e geradas por IA, destacando a complexidade na interpretação de nuances emocionais em emails. A dissertação também analisa a valência e polaridade dos emails, mostrando como os emails legítimos tendem a manter uma valência neutra, enquanto os emails de phishing empregam indicadores fortemente negativos. O baixo grau de consenso destaca a necessidade crítica de incorporar a formação em literacia de phishing como um componente essencial da estratégia de cibersegurança de uma empresa. A pesquisa possui implicações significativas para a segurança de emails e análise de comunicações, estabelecendo uma base para futuros avanços neste domínio crítico.