| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 4.14 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Supervised learning serves as the foundation for many AI systems because it enables models to
learn from labelled examples. However, label noise resulting from human annotation errors or
systematic biases can diminish model performance and limit generalization capabilities. This
challenge is particularly significant in critical domains such as healthcare, finance, and
autonomous systems. This thesis focuses on studying the impact of label noise on supervised
learning algorithms in order to evaluate its influence across different datasets and to propose
robust strategies for mitigation. This project includes methods of loss correction, data
augmentation, and advanced noise detection frameworks as examples and demonstrates their
prospective advantages through empirical experiments. The provided noise-robust algorithms
in the research can be used with any real-world scenarios to improve the resilience of the
algorithm. The findings are meant to be a connection between academic research and practical
implementation by offering guidelines for handling noisy datasets effectively while ensuring
model reliability and fairness. The proposed approach raised the average F1-Score from 0.647
under baseline conditions to 0.757 after full optimization.
A aprendizagem supervisionada constitui um dos pilares fundamentais dos sistemas de inteligência artificial, permitindo, assim, que os modelos sejam treinados com base em exemplos rotulados. No entanto, o ruído nos rótulos, originado por erros humanos durante o processo de anotação ou por vieses sistemáticos, compromete de forma significativa o desempenho dos modelos limitando as suas capacidades de generalização. Este problema é particularmente relevante em domínios críticos como a saúde, as finanças e os sistemas autónomos, onde decisões incorretas podem ter consequências graves. Esta dissertação tem como objetivo investigar o impacto do ruído nos rótulos em algoritmos de aprendizagem supervisionada, avaliando a sua influência em diversos conjuntos de dados e propondo estratégias robustas para a sua mitigação. O trabalho contempla o desenvolvimento e a aplicação de métodos avançados, incluindo funções de perda adaptadas ao ruído, estratégias de aumento de dados e frameworks de deteção de ruído, cujas vantagens são demonstradas por meio de análises teóricas e de experiências empíricas. A abordagem proposta subiu os valores de F1-Score de 0.647 para 0.757 após otimizações.
A aprendizagem supervisionada constitui um dos pilares fundamentais dos sistemas de inteligência artificial, permitindo, assim, que os modelos sejam treinados com base em exemplos rotulados. No entanto, o ruído nos rótulos, originado por erros humanos durante o processo de anotação ou por vieses sistemáticos, compromete de forma significativa o desempenho dos modelos limitando as suas capacidades de generalização. Este problema é particularmente relevante em domínios críticos como a saúde, as finanças e os sistemas autónomos, onde decisões incorretas podem ter consequências graves. Esta dissertação tem como objetivo investigar o impacto do ruído nos rótulos em algoritmos de aprendizagem supervisionada, avaliando a sua influência em diversos conjuntos de dados e propondo estratégias robustas para a sua mitigação. O trabalho contempla o desenvolvimento e a aplicação de métodos avançados, incluindo funções de perda adaptadas ao ruído, estratégias de aumento de dados e frameworks de deteção de ruído, cujas vantagens são demonstradas por meio de análises teóricas e de experiências empíricas. A abordagem proposta subiu os valores de F1-Score de 0.647 para 0.757 após otimizações.
Description
Keywords
Supervised learning label noise machine learning noise correction ensemble learning anomaly detection Aprendizagem supervisionada Ruído nos rótulos Robustez Correção de ruído Aprendizagem automática
