| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 4.56 MB | Adobe PDF |
Authors
Abstract(s)
The growing need for compliance with data protection regulations, such as the GDPR’s Article
17 “right to be forgotten”, has intensified research efforts in Machine Unlearning (MU), which
is the ability of machine learning models to forget specific training data instances without
requiring full model retraining. While most prior work has focused on deep learning and image
classification, the applicability of MU to traditional models and tabular data is still
underexplored. This thesis investigates the integration of MU approaches into tree-based
models trained on tabular datasets. For this purpose, an MU framework called Machine
Unlearning Framework for Tree-based models (MUFT) was developed, encapsulating two exact
unlearning approaches, SISA and DaRE, with SISA being adapted to work with the XGBoost
model. The experimental evaluation was conducted using the binary classification version of
two datasets, IoT-23 and GeNIS, and included several evaluation metrics to measure model
utility, unlearning efficiency, and forgetting quality under removal ratios of 0.1% and 10%. The
obtained results evidenced that SISA and DaRE can achieve effective instance removal with
substantially reduced computational costs. Performance, however, varied across datasets and
removal ratios. Importantly, the evaluation showed some limitations in existing metrics, which
in some cases were not able to fully capture unlearning success. These limitations highlighted
the need for improved evaluation metrics. Overall, this work demonstrates how MU approaches
can be used and adapted to ensure compliance and improve trust in tree-based models.
A crescente necessidade de cumprir com os regulamentos de proteção de dados, como o Artigo 17 do Regulamento Geral de Proteção de Dados, o “direito a ser esquecido”, tem intensificado a investigação em Machine Unlearning (MU), que corresponde à capacidade dos modelos de aprendizagem automática esquecerem instâncias específicas de dados de treino sem necessidade de voltar a treinar o modelo de raiz. Apesar de a maioria dos trabalhos anteriores se focar em aprendizagem profunda e classificação de imagens, a aplicabilidade do MU a modelos tradicionais e dados tabulares permanece pouco explorada. Esta dissertação investiga a integração de abordagens de MU em modelos baseados em árvores treinados com dados tabulares. Para este fim, foi desenvolvida uma framework para MU chamada Machine Unlearning Framework for Tree-based models (MUFT), que integra duas abordagens de exact unlearning, o SISA e o DaRE, tendo o SISA sido adaptado para funcionar com o modelo XGBoost. A avaliação experimental foi realizada utilizando a versão binária de dois datasets, IoT-23 e GeNIS, e incluiu várias métricas de avaliação para medir a utilidade do modelo, a eficiência do unlearning e a qualidade do unlearning, considerando rácios de remoção de 0,1% e 10%. Os resultados obtidos evidenciaram que o SISA e o DaRE conseguem alcançar uma remoção eficaz de instâncias com custos computacionais reduzidos. No entanto, o desempenho variou entre datasets e os rácios de remoção. Importa salientar que a avaliação revelou algumas limitações nas métricas existentes, que em certos casos não conseguiram capturar totalmente o sucesso do unlearning. Estas limitações evidenciam a necessidade de métricas de avaliação melhoradas. Concluindo, esta dissertação demonstra como as abordagens de MU podem ser utilizadas e adaptadas para garantir conformidade e aumentar a confiança em modelos baseados em árvores.
A crescente necessidade de cumprir com os regulamentos de proteção de dados, como o Artigo 17 do Regulamento Geral de Proteção de Dados, o “direito a ser esquecido”, tem intensificado a investigação em Machine Unlearning (MU), que corresponde à capacidade dos modelos de aprendizagem automática esquecerem instâncias específicas de dados de treino sem necessidade de voltar a treinar o modelo de raiz. Apesar de a maioria dos trabalhos anteriores se focar em aprendizagem profunda e classificação de imagens, a aplicabilidade do MU a modelos tradicionais e dados tabulares permanece pouco explorada. Esta dissertação investiga a integração de abordagens de MU em modelos baseados em árvores treinados com dados tabulares. Para este fim, foi desenvolvida uma framework para MU chamada Machine Unlearning Framework for Tree-based models (MUFT), que integra duas abordagens de exact unlearning, o SISA e o DaRE, tendo o SISA sido adaptado para funcionar com o modelo XGBoost. A avaliação experimental foi realizada utilizando a versão binária de dois datasets, IoT-23 e GeNIS, e incluiu várias métricas de avaliação para medir a utilidade do modelo, a eficiência do unlearning e a qualidade do unlearning, considerando rácios de remoção de 0,1% e 10%. Os resultados obtidos evidenciaram que o SISA e o DaRE conseguem alcançar uma remoção eficaz de instâncias com custos computacionais reduzidos. No entanto, o desempenho variou entre datasets e os rácios de remoção. Importa salientar que a avaliação revelou algumas limitações nas métricas existentes, que em certos casos não conseguiram capturar totalmente o sucesso do unlearning. Estas limitações evidenciam a necessidade de métricas de avaliação melhoradas. Concluindo, esta dissertação demonstra como as abordagens de MU podem ser utilizadas e adaptadas para garantir conformidade e aumentar a confiança em modelos baseados em árvores.
Description
Keywords
Machine Learning Machine Unlearning Tree-based Models Tabular Data
