Repository logo
 
Loading...
Thumbnail Image
Publication

Machine Unlearning Approaches applied to Tree-Based Models with Tabular Data

Use this identifier to reference this record.
Name:Description:Size:Format: 
Tese_6209_v2.pdf4.56 MBAdobe PDF Download

Abstract(s)

The growing need for compliance with data protection regulations, such as the GDPR’s Article 17 “right to be forgotten”, has intensified research efforts in Machine Unlearning (MU), which is the ability of machine learning models to forget specific training data instances without requiring full model retraining. While most prior work has focused on deep learning and image classification, the applicability of MU to traditional models and tabular data is still underexplored. This thesis investigates the integration of MU approaches into tree-based models trained on tabular datasets. For this purpose, an MU framework called Machine Unlearning Framework for Tree-based models (MUFT) was developed, encapsulating two exact unlearning approaches, SISA and DaRE, with SISA being adapted to work with the XGBoost model. The experimental evaluation was conducted using the binary classification version of two datasets, IoT-23 and GeNIS, and included several evaluation metrics to measure model utility, unlearning efficiency, and forgetting quality under removal ratios of 0.1% and 10%. The obtained results evidenced that SISA and DaRE can achieve effective instance removal with substantially reduced computational costs. Performance, however, varied across datasets and removal ratios. Importantly, the evaluation showed some limitations in existing metrics, which in some cases were not able to fully capture unlearning success. These limitations highlighted the need for improved evaluation metrics. Overall, this work demonstrates how MU approaches can be used and adapted to ensure compliance and improve trust in tree-based models.
A crescente necessidade de cumprir com os regulamentos de proteção de dados, como o Artigo 17 do Regulamento Geral de Proteção de Dados, o “direito a ser esquecido”, tem intensificado a investigação em Machine Unlearning (MU), que corresponde à capacidade dos modelos de aprendizagem automática esquecerem instâncias específicas de dados de treino sem necessidade de voltar a treinar o modelo de raiz. Apesar de a maioria dos trabalhos anteriores se focar em aprendizagem profunda e classificação de imagens, a aplicabilidade do MU a modelos tradicionais e dados tabulares permanece pouco explorada. Esta dissertação investiga a integração de abordagens de MU em modelos baseados em árvores treinados com dados tabulares. Para este fim, foi desenvolvida uma framework para MU chamada Machine Unlearning Framework for Tree-based models (MUFT), que integra duas abordagens de exact unlearning, o SISA e o DaRE, tendo o SISA sido adaptado para funcionar com o modelo XGBoost. A avaliação experimental foi realizada utilizando a versão binária de dois datasets, IoT-23 e GeNIS, e incluiu várias métricas de avaliação para medir a utilidade do modelo, a eficiência do unlearning e a qualidade do unlearning, considerando rácios de remoção de 0,1% e 10%. Os resultados obtidos evidenciaram que o SISA e o DaRE conseguem alcançar uma remoção eficaz de instâncias com custos computacionais reduzidos. No entanto, o desempenho variou entre datasets e os rácios de remoção. Importa salientar que a avaliação revelou algumas limitações nas métricas existentes, que em certos casos não conseguiram capturar totalmente o sucesso do unlearning. Estas limitações evidenciam a necessidade de métricas de avaliação melhoradas. Concluindo, esta dissertação demonstra como as abordagens de MU podem ser utilizadas e adaptadas para garantir conformidade e aumentar a confiança em modelos baseados em árvores.

Description

Keywords

Machine Learning Machine Unlearning Tree-based Models Tabular Data

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue

Publisher

CC License

Without CC licence