Automating feature selection in binary classification datasets: a metadata-driven approach using machine learning algorithms and large language models

Campos, Maria Teresa Pinto da Silva de Almeida

http://hdl.handle.net/10400.22/26696

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Tese_5491.pdf		5.35 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Campos, Maria Teresa Pinto da Silva de Almeida

Orientador(es)

Rodrigues, Maria de Fátima Coutinho

Resumo(s)

Identifying a representative subset of features for building a classification model from a given dataset remains a significant challenge in the field of machine learning. The manual process of selecting and experimenting with different feature selection algorithms is both time-consuming and resource intensive. Given that feature selection is a well-established process, there is significant evidence that automating will improve efficiency and reduce the need for manual intervention. This research proposes an automated process for selecting the best feature selection algorithms in binary classification datasets, aiming to streamline the feature selection process. The proposed process evaluates multiple feature selection algorithms, Forward Feature Selection, Lasso Regularization, Decision Trees, and Feature Shuffling, across diverse binary classification datasets. The effectiveness of each algorithm is assessed using classification models, with the mean ROC score serving as the evaluation metric. The results are compiled into a metadata repository that stores the dataset metadata characteristics and the corresponding optimal feature selection algorithm. This repository is then embedded into vector representations that enable efficient querying and recommendation of feature selection algorithms for new datasets based on the similarity of their metadata to previously analyzed datasets. This process then integrates a Large Language Model to provide users with clear, context-aware recommendations on the most suitable feature selection techniques based on the query response of the vector database for the best feature selection algorithm match. By automating the feature selection process and incorporating LLM-generated response, the project significantly reduces manual effort while ensuring a recommendation of the best feature selection for a given binary classification dataset. The process's performance is evaluated using Leave-One-Out Cross-Validation across 72 binary classification datasets. The top one and top three hit rates are used as metrics to assess the accuracy of the algorithm recommendations. The evaluation results demonstrate the effectiveness of the proposed process in automating feature selection, thereby saving time and computational resources.

Identificar um subconjunto representativo de atributos para construir um modelo de classificação a partir de um determinado conjunto de dados continua a ser um desafio significativo no campo de machine learning. O processo manual de selecionar e experimentar diferentes algoritmos de feature selection é demorado e consome muitos recursos. No entanto, dado que o processo de feature selection é um processo bem estabelecido, com evidências demonstradas de que a automatização deste processo, pode melhorar a eficiência e reduzir a necessidade de intervenção manual, esta pesquisa propõe automatizar o processo de seleção dos melhores algoritmos de feature selection num dado conjunto de dados de classificação binária, com o objetivo de simplificar o processo de seleção de atributos. O processo proposto avalia múltiplos algoritmos de seleção de atributos, Forward Feature Selection, Lasso Regularization, Decision Trees e Feature Shuffling, em diversos conjuntos de dados de classificação binária. A eficácia de cada algoritmo é avaliada usando modelos de classificação, com a classificação média do ROC a servir como métrica de avaliação. Os resultados são compilados num repositório de meta-dados que armazena as características de meta-dados do conjunto de dados e o melhor algoritmo de feature selection correspondente. Este repositório é então transformado em representações vetoriais que permitem uma pesquisa eficiente e a recomendação de algoritmos de feature selection para um novo conjunto de dados, com base na similaridade dos metadados com o conjunto de dados previamente analisados. Este processo integra um Large Language Model para fornecer aos utilizadores recomendações claras e contextualmente informadas sobre as técnicas de seleção de atributos mais adequadas, com base na resposta da consulta na base de dados vetorial para o melhor algoritmo de feature selection. Ao automatizar o processo de seleção de atributos e incorporar respostas geradas pelo LLM, o projeto reduz significativamente o esforço manual, garantindo uma recomendação do melhor algoritmo de feature selection para um determinado conjunto de dados de classificação binária. O desempenho deste processo é avaliado usando Leave-One-Out Cross-Validation em 72 conjunto de dados de classificação binária. As taxas de acerto top one e top three são usadas como métricas, para avaliar a precisão das recomendações dos algoritmos. Os resultados da avaliação demonstram assim, eficácia no processo proposto na automatização do processo de feature selection, poupando assim tempo e recursos computacionais.

Palavras-chave

Automatic feature selection Binary classification Machine learning algorithms Metadata repository Large language models

URI

http://hdl.handle.net/10400.22/26696

Coleções

ISEP - DM – Engenharia Informática

Ver registo completo