ESTG - DM - Engenharia Informática
Permanent URI for this collection
Browse
Browsing ESTG - DM - Engenharia Informática by advisor "Carneiro, Davide Rua"
Now showing 1 - 10 of 10
Results Per Page
Sort Options
- Análise do processo de checkout e carrinhos abandonadosPublication . Silva, Pedro Miguel Carneiro; Carneiro, Davide RuaNos últimos anos, temos presenciado um aumento significativo na quantidade e qualidade dos dados nas organizações. Isso tem levado as empresas a adaptarem-se e a aproveitarem ao máximo esses dados. Neste projeto, o objetivo é focar no processo de compra online de uma empresa nacional, onde os clientes podem comprar produtos por meio de uma loja virtual. Além disso, aborda-se o problema das sessões abandonadas, procurando entender o motivo de ocorrer e encontrar formas de converter essas sessões em vendas lucrativas para a empresa. O principal objetivo é analisar os dados do processo de compra e das sessões abandonadas, a fim de melhorar a experiência do cliente, otimizar os fluxos de compra e aumentar o lucro. Ao compreender as razões por trás das sessões abandonadas e desenvolver estratégias eficazes para reverter essa situação, espera-se aumentar as taxas de conversão e fortalecer o relacionamento com os clientes, tornando a empresa mais competitiva no mercado. Em resumo, este projeto visa aproveitar os dados disponíveis no processo de compra online de uma empresa nacional, com o objetivo de entender e converter as sessões abandonadas em vendas concretas. Isso impulsionará o sucesso financeiro da empresa e fortalecerá a sua posição num mercado que é competitivo.
- A bundle of services to develop better Machine Learning applicationsPublication . Guimarães, Miguel Ângelo Machado; Carneiro, Davide RuaInteligência Artificial (IA) é um tema na moda atualmente. Machine Learning (ML) é a área mais comum de aplicação de IA, e como o nome indica, o objetivo é fazer com que a máquina aprenda. Essa aprendizagem pode ser a simulação de tarefas repetitivas do Homem, para, por exemplo, testar cenários hipotéticos ou até mesmo substituir a mão de obra humana. Pode inclusivamente, ser uma simulação a nível físico como a nível mental, ou seja, envolver o deslocamento de algum objeto, ou ainda o raciocínio ou o resultado deste de um indivíduo. Estes sistemas inteligentes podem até superar o intelecto do Homem. No entanto, é necessário haver restrições da sua aplicação em determinados domínios mais sensíveis onde exista um direito à explicação, como refere o Regulamento Geral sobre a Proteção de Dados 2016/679 (RGPD), em que qualquer decisão que tenha por base um sistema inteligente tem de ser justificada. Como refere o Regulamento Europeu para a Inteligência Artificial, principalmente no ponto 3.5, o uso de IA pode afetar significativamente um elevado número de fatores relacionado com os direitos fundamentais do ser humano. Existe, portanto, a necessidade de assegurar o direito à dignidade humana, respeito pela privacidade, não discriminação e igualdade de género. É necessário garantir também que todos os intervenientes afetados por um sistema de IA tenham as mesmas condições de trabalho e de segurança. De facto, grande parte das aplicações de ML têm como intuito auxiliar o ser humano, como, por exemplo, ajudar o gestor de alguma empresa a tomar uma decisão e/ou explicá-la. O problema é que os algoritmos conhecidos por oferecerem uma melhor performance, tais como redes neuronais que são uma abordagem inspirada no funcionamento do sistema nervoso dos mamíferos, são também aqueles cujo funcionamento ou o porquê de tomarem determinadas previsões é mais difícil de decifrar. Nesse sentido, motivado pelas novas normas do RGPD e por questões éticas, e com um caso real de aplicação no domínio de deteção de fraude fiscal, um dos objetivos deste trabalho é explicar o porquê das previsões elaboradas pelos algoritmos conhecidos por black-box. Não obstante, o trabalho pode ser aplicado a outros algoritmos em que falte a componente explicativa, e outros domínios que necessitem de uma decisão apoiada numa explicação. A solução proposta é o desenvolvimento de raiz de um sistema inteligente na área XAI (Explainable Artificial Intelligence), que seja incorporado e contribua para um sistema de ML já existente com justificações plausíveis e transparentes sobre as previsões dadas por outros modelos de ML. Outro desafio destes sistemas inteligentes é a necessidade de um constante retreino de modelos, dado que novos dados chegam ao sistema, para não ficarem obsoletos com o tempo por já não conseguirem eficazmente realizar uma previsão. Contudo, uma maior quantidade de dados não significa necessariamente novos padrões, correndo-se o risco de se desperdiçar recursos a re-treinar um modelo cuja performance não é superior à sua anterior versão. Para abordar este problema, propõe-se o uso de meta-learning para prever a performance de um modelo de ML com base nas características do dataset (caracterizadas por meta-features). Resumidamente, será construído um meta-modelo com base nas meta-features de vários datasets, que terá a capacidade de prever uma métrica de erro de um futuro modelo de ML, e.g. RMSE, MSE, R², MAE, incluindo o tempo que demora a treinar o modelo, permitindo assim decidir quanto ao re-treino ou não do modelo. Este conjunto de serviços para ML permitirá desenvolver melhores modelos, quer do ponto de vista ético, quer do ponto de vista da sua eficiência.
- Dynamic Management of Distributed Machine Learning ProblemsPublication . Oliveira, Filipe Vamonde; Carneiro, Davide RuaMachine Learning (ML) eInteligência Artificial(IA )são dois termos intimamente relacionados. A Inteligência Artificial é uma disciplina que busca criar máquinas que tenham a capacidade de imitar as habilidades cognitivas humanas, como aprendizagem, raciocínio, perceção, e tomada de decisão. Machine Learning é uma das técnicas de IA que permite às máquinas aprenderem a partir de dados sem serem explicitamente programa das. O crescimento exponencial dos dados nas últimas décadas tem sido um dos principais fatores impulsionadores do avanço da Inteligência Artificial e de MachineLearning. As empresas e organizações recolhem dados em volumes cada vez maiores, incluindo informações de transações financeiras, registos médicos, dados de sensoresIoTemuitomais.Essesdadossãocruciaisparaimpulsionarainovaçãoeo progresso, mas podem ser muito complexos e difíceis de ser em analisados manualmente. É aqui que entram MachineLearning, que permite que as máquinas aprendam e automatizem a análise de grandes conjuntos de dados.
- Human-in-the-loop image classificationPublication . Almeida, Bernardo Filipe Gonçalves; Carneiro, Davide RuaNos últimos anos, tem havido um crescimento na utilização de Machine Learning e uma necessidade crescente de aplicar modelos de Machine Learning a várias necessidades empresariais, desde a análise dos padrões de compra dos clientes até à tomada de uma decisão empresarial para fazer crescer esse mesmo negócio. Num ambiente empresarial acelarado que nos encontramos atualmente, desenvolver e disponibilizar um bom modelo pode não ser um processo muito célere. O principal motivo são os dados necessários para obter o bom modelo, visto que para obtê-lo pode ser necessário uma grande quantidade de dados e isto pode afetar o tempo de treino do modelo, ou pode ser necessário um pré-processamento dos dados, levando ao aumento do tempo para obter o bom modelo. Com isto, este trabalho apresenta uma possível solução para este problema, onde, através do Active Learning, o humano aplica etiquetas a uma pequena quantidade dados, de seguida são criados vários modelos com parâmetros diferentes para serem treinados até que um intervalo de valores seja atingido. Por fim, algumas métricas serão extraídas e analisadas para concluir qual o melhor modelo. Por fim é apresentada a previsão do modelo em conjunto com uma explicação com o que o modelo considerou importante.
- IIoT Data Ness: From Streaming to Added ValuePublication . Correia, Ricardo André Araújo; Sousa, Cristóvão Dinis; Carneiro, Davide RuaIn the emerging Industry 4.0 paradigm, the internet of things has been an innovation driver, allowing for environment visibility and control through sensor data analysis. However the data is of such volume and velocity that data quality cannot be assured by conventional architectures. It has been argued that the quality and observability of data are key to a project’s success, allowing users to interact with data more effectively and rapidly. In order for a project to become successful in this context, it is of imperative importance to incorporate data quality mechanisms in order to extract the most value out of data. If this goal is achieved one can expect enormous advantages that could lead to financial and innovation gains for the industry. To cope with this reality, this work presents a data mesh oriented methodology based on the state-of-the-art data management tools that exist to design a solution which leverages data quality in the Industrial Internet of Things (IIoT) space, through data contextualization. In order to achieve this goal, practices such as FAIR data principles and data observability concepts were incorporated into the solution. The result of this work allowed for the creation of an architecture that focuses on data and metadata management to elevate data context, ownership and quality.
- INF4ALL – Informação para todosPublication . Almeida, António Augusto Cunha; Carneiro, Davide RuaO governo português tem vindo a promover a participação ativa dos cidadãos a nível nacional e municipal, criando mecanismos que permitem ao cidadão participar por exemplo nos orçamentos das autarquias locais criando um mecanismo de inclusão e aceitação da utilização de verbas disponíveis para o efeito. No entanto a participação dos cidadãos no que diz respeito à sua cidade não se esgota no orçamento participativo, foram criados mecanismos que lhes permitem estar informados das decisões tomadas pelo munícipe, das restrições que possam ocorrer e que venham a alterar e perturbar o normal funcionamento do município, como por exemplo um corte de estrada, iluminação deficiente, estragos na via pública, etc. Esta nova forma de comunicação e de interação entre os munícipes e o seu município deve-se em grande parte às novas tecnologias, como a Internet, cada vez mais fiável e mais rápida, permitindo partilhar conteúdos em tempo útil de forma global e acessível a todos, utilizando meios de comunicação como a fibra ótica ou as redes 4G e futuramente 5G. Deve-se também às aplicações especificas desenvolvidas para páginas Web e/ou dispositivos móveis como por exemplo os telemóveis (smartphones) disponíveis em diversas plataformas para abranger o maior número possível de pessoas. Este projeto tem como objetivos estudar a forma e os meios utilizados atualmente para informar o município de ocorrências na via pública, analisar o aproveitamento das ferramentas existentes recorrendo a um inquérito que será dirigido a todos os municípios e, com base nas conclusões deste estudo, propor e realizar um novo sistema que seja inovador de forma a potenciar a utilização dessas mesmas ferramentas.
- Interactive Learning in Decision SupportPublication . Sousa, Miguel Ângelo da Silva e; Carneiro, Davide RuaDe acordo com o dicionário priberam da língua portuguesa, o conceito de Fraude pode ser definido como uma “ação ilícita, punível por lei, que procura enganar alguém ou alguma entidade ou escapar a obrigações legais”. Este tópico tem vindo a ganhar cada vez mais relevância em tempos recentes, com novos casos a se tornarem públicos de uma forma frequente. Desta forma, existe uma procura contínua por soluções que permitam, numa primeira fase, prevenir a ocorrência de fraude, ou, caso a mesma já tenha ocorrido, a detetar o mais rapidamente possível. Isto representa um grande desafio: em primeiro lugar, a evolução tecnológica permite que se elaborem esquemas fraudulentos cada vez mais complexos e eficazes e, portanto, mais difíceis de detetar e parar. Para além disto, os dados e a informação que deles se pode retirar são vistos como algo cada vez mais importante no contexto social. Consequentemente, indivíduos e empresas começaram a recolher e armazenar grandes quantidades de todo o tipo de dados. Isto representa o conceito de Big Data – grandes quantidades de dados de diferentes tipos, com diferentes graus de complexidade, produzidos a ritmos diferentes e provenientes de diferentes fontes. Isto veio, por sua vez, tornar inviável a utilização de tecnologias e algoritmos tradicionais de deteção de fraude, uma vez que estes não possuem capacidade para processar um tão grande conjunto de dados, tão diversos. É neste contexto que a área de Machine Learning tem vindo a ser cada vez mais explorada, na busca por soluções que permitam dar resposta a este problema. Normalmente, os sistemas de Machine Learning são vistos como algo completamente autónomo. Nos últimos anos, no entanto, sistemas interativos nos quais especialistas humanos contribuem ativamente no processo de aprendizagem têm vindo a apresentar um desempenho superior quando comparados com sistemas completamente automatizados. Isto pode verificar-se em cenários em que existe um grande conjunto de dados de diversos tipos e de diferentes origens (Big Data), cenários em que o input é um fluxo de dados ou quando existe uma alteração do contexto no qual os dados estão inseridos, num fenómeno conhecido por concept drift. Tendo isto em conta, neste documento é descrito um projeto cujo tema se insere no contexto da utilização de aprendizagem interativa no suporte à decisão, abordando a temática das auditorias digitais e, mais concretamente, o caso da deteção de fraude fiscal. Desta forma, a solução proposta passa pelo desenvolvimento de um sistema de Machine Learning interativo e dinâmico, na medida em que um dos principais objetivos passa por permitir a um humano especialista no domínio não só contribuir com o seu conhecimento no processo de aprendizagem do sistema, mas também que este possa contribuir com novo conhecimento, através da sugestão de uma nova variável ou um novo valor para uma variável já existente, em qualquer altura. O sistema deve então ser capaz de integrar o novo conhecimento de uma forma autónoma e continuar com o seu normal funcionamento. Esta é, na verdade, a principal característica inovadora da solução proposta, uma vez que em sistemas de Machine Learning tradicionais isto não é possível, visto que estes implicam uma estrutura do dataset rígida, e em que qualquer alteração neste sentido implicaria um reinício de todo o processo de treino de modelos, desta vez com o novo dataset.
- LIME: Optimising the creation of explanationsPublication . Pereira, João Tiago Moreira; Carneiro, Davide RuaExplainable Artificial Intelligence (XAI) techniques are increasingly necessary for ensuring trust and acceptance of complex machine learning models across various fields. One widely used XAI method, Local Interpretable Model-agnostic Explanations (LIME), is particularly popular for image-based explanations but faces challenges in terms of speed, accuracy, and applicability in different contexts. An improvement to LIME is proposed to optimize its performance, including faster training times and better prediction accuracy, with a focus on finding an alternative machine learning algorithm that can outperform the current one used by LIME. Additionally, this project defines and explores metrics derived from LIME explanations that can help evaluate the quality of image classification models, even in concept drift scenarios where labeled data may be scarce. These metrics are validated against human feedback, identifying four key metrics that could prove useful for automated systems to assess model outputs. Furthermore, in domains like manufacturing, LIME explanations must be adapted to context-specific challenges. In the case of defect detection in the textile industry, the permutation generation process used by LIME can mislead the underlying model, generating poor explanations. A methodology is proposed to mitigate this issue, supporting more accurate and contextually relevant explanations that can enhance decision-making and human-centric approaches in industrial scenarios.
- PySpark-Based Data Processing Library for Distributed Machine Learning WorkflowsPublication . Sousa, Leonardo Emanuel Miranda de; Carneiro, Davide RuaAs plataformas de Internet of Things (IoT) industriais geram quantidades significativas de dados heterogéneos que excedem as capacidades das pipelines de dados convencionais, sobretudo em contextos empresariais como o da Bosch. Responder a estas exigências requer não apenas uma infraestrutura escalável, mas também ferramentas ergonómicas que permitam o desenvolvimento de fluxos de trabalho de machine learning (ML) reprodutíveis. Nesta dissertação apresenta-se a SparklyAI, uma biblioteca PySpark que formaliza o ciclo de vida definido pelo Cross Industry Standard Process for Data Mining (CRISP-DM) para ML distribuído, colmatando a lacuna entre as práticas de engenharia de dados industriais e os princípios modernos de Machine Learning Operations (MLOps). A SparklyAI fornece uma estrutura coerente para pipelines de ponta a ponta, abrangendo coleta, limpeza, amostragem, engenharia de características, modelação e avaliação, através de uma Application Programming Interface (API) procedural com utilidades sensíveis ao esquema e tipos de dados. A validação em fluxos de trabalho reais na Bosch demonstrou melhorias significativas na consistência, manutenibilidade e reprodutibilidade dos processos, bem como uma redução acentuada nos erros de implementação e no tempo de integração de novos utilizadores. Quantitativamente, o Engineering Time Proxy (ETP) reduziu-se de 220,8 para 90,4 minutos (–59,1%), comprovando ganhos expressivos de eficiência em implementações práticas. Em síntese, a SparklyAI constitui uma base estruturada e eficiente para fluxos de trabalho de ML em escala industrial, alinhando a prática quotidiana com a metodologia CRISP-DM e preservando as capacidades de escalabilidade do Spark.
- Real-Time Data Analysis Tool for Decision Support in Streaming EnvironmentsPublication . Torres, Diogo Pinto; Carneiro, Davide Rua
