Name: | Description: | Size: | Format: | |
---|---|---|---|---|
4.39 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Advances and increasing interest in AI (Artificial Intelligence) in the field of health have created novel issues, namely explainability and reproducibility of ML (Machine Learning) models. In addition, while the training of ML models traditionally favors a centralized approach, scalability and privacy issues seem to lead towards a distributed one. The latter poses challenges to ML algorithms and the efficacy of learning itself. Reproducing ML models poses several challenges arising from the intrinsic variability of the models themselves and the environment where they are trained. This problem is aggravated by their lack of standardization and common terminology. The main goal of this work is to conceptualize and prototype a framework to train, evaluate and describe ML models, in a decentralized way, over immunogenetics datasets. This framework will promote model reproducibility and comparability, as well as its adaptability. This work will start by implementing a federated/decentralized training framework over existing ML pipelines. Then, it will be possible to list and select potential dataset sources, aiming to provide an easy path to model adaptation and optimization.
Os contínuos avanços e crescente interesse em IA (Inteligência Artificial) no campo da saúde levantaram novas questões, nomeadamente a explicabilidade e a reprodutibilidade de modelos de ML (Machine Learning). Adicionalmente, enquanto o treino de modelos de ML favorece tradicionalmente uma abordagem centralizada, questões de escalabilidade e privacidade tendem a levar a uma abordagem distribuída. Esta última apresenta desafios aos algoritmos de ML e à eficácia do treino em si. A reprodução de modelos de ML apresenta vários desafios decorrentes da variabilidade intrínseca dos próprios modelos e do ambiente onde são treinados. Este problema é agravado pela falta de padronização e terminologia comum. O principal objetivo deste trabalho é conceptualizar e prototipar uma framework para treinar, avaliar e descrever modelos de ML, de forma descentralizada, sobre conjuntos de dados imunogenéticos. Essa framework promoverá a reproducibilidade e comparabilidade dos modelos, bem como a sua adaptabilidade. Este trabalho começará com a implementação de uma framework de treino federado/descentralizado sobre pipelines de ML existentes. De seguida, será possível listar e selecionar potenciais fontes de dados, esperando facilitar a adaptação e otimização dos modelos.
Os contínuos avanços e crescente interesse em IA (Inteligência Artificial) no campo da saúde levantaram novas questões, nomeadamente a explicabilidade e a reprodutibilidade de modelos de ML (Machine Learning). Adicionalmente, enquanto o treino de modelos de ML favorece tradicionalmente uma abordagem centralizada, questões de escalabilidade e privacidade tendem a levar a uma abordagem distribuída. Esta última apresenta desafios aos algoritmos de ML e à eficácia do treino em si. A reprodução de modelos de ML apresenta vários desafios decorrentes da variabilidade intrínseca dos próprios modelos e do ambiente onde são treinados. Este problema é agravado pela falta de padronização e terminologia comum. O principal objetivo deste trabalho é conceptualizar e prototipar uma framework para treinar, avaliar e descrever modelos de ML, de forma descentralizada, sobre conjuntos de dados imunogenéticos. Essa framework promoverá a reproducibilidade e comparabilidade dos modelos, bem como a sua adaptabilidade. Este trabalho começará com a implementação de uma framework de treino federado/descentralizado sobre pipelines de ML existentes. De seguida, será possível listar e selecionar potenciais fontes de dados, esperando facilitar a adaptação e otimização dos modelos.
Description
Keywords
Federated learning Decentralization Machine Learning Immunology Immunotherapy Genetics