Machine learning models in decision support systems for diagnosing colorectal cancer based on metabolic profiles

Barbosa, Rui Xavier Ferreira

http://hdl.handle.net/10400.22/24307

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Tese_5086.pdf		8.2 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Barbosa, Rui Xavier Ferreira

Orientador(es)

Tavares, José Antonio Reis

Resumo(s)

In today’s ever-evolving technological landscape, the volume of data across sectors is grow ing, particularly in healthcare. Here, the gathering and processing of biochemical data aim to refine decision-making for patient treatments, especially using tools based on Machine Learning (ML). As a subset of Artificial Intelligence, ML harnesses algorithms to predict outcomes or unearth patterns that might otherwise remain concealed. The interpretability of ML models is pivotal, enabling healthcare professionals to place con fidence in and decipher the model’s predictions. This assumes particular significance when decisions could directly affect patient lives. This research embarked on an in-depth exploration of various ML algorithms and techniques to discern whether the combined metabolic profiles of amino acids and acylcarnitines might serve as new biochemical indicators for predicting colo-rectal cancer prognosis. Throughout this study, several algorithms and data preprocessing techniques were evaluated. Four distinct experiments validated the predictions of the models in different scenarios. These scenarios involved predicting Colorectal Cancer using amino acids with and without the age parameter, and similarly, using acylcarnitine with and without the age parameter. Each scenario’s predictions were elucidated using SHAP, both for overarching feature significance and individual instances. Preliminary analyses indicated that the constructed models demonstrated promising predic tive power, with notable variations for the different scenarios. Amongst the algorithms tested, Random Forest, Support Vector Machine, Gaussian Naive Bayes, and Gradient Boosting emerged as the top performers.

No atual panorama tecnológico em constante evolução, o volume de dados em diversos setores está a aumentar, particularmente na saúde. Aqui, a recolha e processamento de dados bioquímicos visam aprimorar a tomada de decisão para tratamentos de pacientes, especialmente utilizando ferramentas baseadas em Aprendizagem Automática. Como um subconjunto da Inteligência Artificial, a Aprendizagem Automática utiliza algoritmos para prever resultados ou descobrir padrões que de outra forma poderiam permanecer ocultos. A interpretabilidade dos modelos de Aprendizagem Automática é fundamental, permitindo que os profissionais de saúde confiem e decifrem as previsões do modelo. Isto assume uma importância particular quando as decisões podem afetar diretamente a vida dos pacientes. Esta investigação levou a cabo uma exploração aprofundada de vários algoritmos e téc nicas de Aprendizagem Automática para determinar se os perfis metabólicos combinados de aminoácidos e acilcarnitinas poderiam servir como novos indicadores bioquímicos para a previsão e prognóstico do cancro colo-retal. Ao longo deste estudo, vários algoritmos e técnicas de pré-processamento de dados foram avaliados. Quatro experiências distintas validaram as previsões dos modelos em diferentes cenários. Estes cenários envolveram a previsão de Cancro Colorretal usando aminoácidos com e sem o atributo idade, e de forma semelhante, usando acilcarnitinas. As previsões de cada cenário foram elucidadas usando o SHAP, tanto para a importância geral dos atributos como para amostras individuais. Análises preliminares indicaram que os modelos construídos mostraram um poder preditivo promissor, com variações notáveis nos diferentes cenários. Entre os algoritmos testados, Random Forest, Support Vector Machines, Naive Bayes e Gradient Boosting destacaram-se com melhor desempenho.

Palavras-chave

Colorectal Cancer Machine Learning Amino Acids Acylcarnitines ExplainableAI

URI

http://hdl.handle.net/10400.22/24307

Coleções

ISEP - DM – Engenharia Informática

Ver registo completo