Name: | Description: | Size: | Format: | |
---|---|---|---|---|
5.35 MB | Adobe PDF |
Advisor(s)
Abstract(s)
Identifying a representative subset of features for building a classification model from a given
dataset remains a significant challenge in the field of machine learning. The manual process of
selecting and experimenting with different feature selection algorithms is both time-consuming
and resource intensive. Given that feature selection is a well-established process, there is
significant evidence that automating will improve efficiency and reduce the need for manual
intervention. This research proposes an automated process for selecting the best feature
selection algorithms in binary classification datasets, aiming to streamline the feature selection
process.
The proposed process evaluates multiple feature selection algorithms, Forward Feature
Selection, Lasso Regularization, Decision Trees, and Feature Shuffling, across diverse binary
classification datasets. The effectiveness of each algorithm is assessed using classification
models, with the mean ROC score serving as the evaluation metric. The results are compiled
into a metadata repository that stores the dataset metadata characteristics and the
corresponding optimal feature selection algorithm.
This repository is then embedded into vector representations that enable efficient querying and
recommendation of feature selection algorithms for new datasets based on the similarity of
their metadata to previously analyzed datasets. This process then integrates a Large Language
Model to provide users with clear, context-aware recommendations on the most suitable
feature selection techniques based on the query response of the vector database for the best
feature selection algorithm match. By automating the feature selection process and
incorporating LLM-generated response, the project significantly reduces manual effort while
ensuring a recommendation of the best feature selection for a given binary classification
dataset.
The process's performance is evaluated using Leave-One-Out Cross-Validation across 72 binary
classification datasets. The top one and top three hit rates are used as metrics to assess the
accuracy of the algorithm recommendations. The evaluation results demonstrate the
effectiveness of the proposed process in automating feature selection, thereby saving time and
computational resources.
Identificar um subconjunto representativo de atributos para construir um modelo de classificação a partir de um determinado conjunto de dados continua a ser um desafio significativo no campo de machine learning. O processo manual de selecionar e experimentar diferentes algoritmos de feature selection é demorado e consome muitos recursos. No entanto, dado que o processo de feature selection é um processo bem estabelecido, com evidências demonstradas de que a automatização deste processo, pode melhorar a eficiência e reduzir a necessidade de intervenção manual, esta pesquisa propõe automatizar o processo de seleção dos melhores algoritmos de feature selection num dado conjunto de dados de classificação binária, com o objetivo de simplificar o processo de seleção de atributos. O processo proposto avalia múltiplos algoritmos de seleção de atributos, Forward Feature Selection, Lasso Regularization, Decision Trees e Feature Shuffling, em diversos conjuntos de dados de classificação binária. A eficácia de cada algoritmo é avaliada usando modelos de classificação, com a classificação média do ROC a servir como métrica de avaliação. Os resultados são compilados num repositório de meta-dados que armazena as características de meta-dados do conjunto de dados e o melhor algoritmo de feature selection correspondente. Este repositório é então transformado em representações vetoriais que permitem uma pesquisa eficiente e a recomendação de algoritmos de feature selection para um novo conjunto de dados, com base na similaridade dos metadados com o conjunto de dados previamente analisados. Este processo integra um Large Language Model para fornecer aos utilizadores recomendações claras e contextualmente informadas sobre as técnicas de seleção de atributos mais adequadas, com base na resposta da consulta na base de dados vetorial para o melhor algoritmo de feature selection. Ao automatizar o processo de seleção de atributos e incorporar respostas geradas pelo LLM, o projeto reduz significativamente o esforço manual, garantindo uma recomendação do melhor algoritmo de feature selection para um determinado conjunto de dados de classificação binária. O desempenho deste processo é avaliado usando Leave-One-Out Cross-Validation em 72 conjunto de dados de classificação binária. As taxas de acerto top one e top three são usadas como métricas, para avaliar a precisão das recomendações dos algoritmos. Os resultados da avaliação demonstram assim, eficácia no processo proposto na automatização do processo de feature selection, poupando assim tempo e recursos computacionais.
Identificar um subconjunto representativo de atributos para construir um modelo de classificação a partir de um determinado conjunto de dados continua a ser um desafio significativo no campo de machine learning. O processo manual de selecionar e experimentar diferentes algoritmos de feature selection é demorado e consome muitos recursos. No entanto, dado que o processo de feature selection é um processo bem estabelecido, com evidências demonstradas de que a automatização deste processo, pode melhorar a eficiência e reduzir a necessidade de intervenção manual, esta pesquisa propõe automatizar o processo de seleção dos melhores algoritmos de feature selection num dado conjunto de dados de classificação binária, com o objetivo de simplificar o processo de seleção de atributos. O processo proposto avalia múltiplos algoritmos de seleção de atributos, Forward Feature Selection, Lasso Regularization, Decision Trees e Feature Shuffling, em diversos conjuntos de dados de classificação binária. A eficácia de cada algoritmo é avaliada usando modelos de classificação, com a classificação média do ROC a servir como métrica de avaliação. Os resultados são compilados num repositório de meta-dados que armazena as características de meta-dados do conjunto de dados e o melhor algoritmo de feature selection correspondente. Este repositório é então transformado em representações vetoriais que permitem uma pesquisa eficiente e a recomendação de algoritmos de feature selection para um novo conjunto de dados, com base na similaridade dos metadados com o conjunto de dados previamente analisados. Este processo integra um Large Language Model para fornecer aos utilizadores recomendações claras e contextualmente informadas sobre as técnicas de seleção de atributos mais adequadas, com base na resposta da consulta na base de dados vetorial para o melhor algoritmo de feature selection. Ao automatizar o processo de seleção de atributos e incorporar respostas geradas pelo LLM, o projeto reduz significativamente o esforço manual, garantindo uma recomendação do melhor algoritmo de feature selection para um determinado conjunto de dados de classificação binária. O desempenho deste processo é avaliado usando Leave-One-Out Cross-Validation em 72 conjunto de dados de classificação binária. As taxas de acerto top one e top three são usadas como métricas, para avaliar a precisão das recomendações dos algoritmos. Os resultados da avaliação demonstram assim, eficácia no processo proposto na automatização do processo de feature selection, poupando assim tempo e recursos computacionais.
Description
Keywords
Automatic feature selection Binary classification Machine learning algorithms Metadata repository Large language models