Name: | Description: | Size: | Format: | |
---|---|---|---|---|
3.93 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
In healthcare, actions tend to generate a vast amount of sensitive patient data, which is useful for scientific advancements and new applications, but also presents privacy and security challenges. Artificial intelligence can significantly benefit from this data, but traditional Machine Learning (ML) techniques in collaborative environments expose it excessively. Federated Learning (FL) emerges as a solution, enabling model training without directly sharing patient information, thus reducing the risk of data exposure. This thesis has three main goals. It aims to understand the most common FL tools in the state of the art, analyzing their advantages and disadvantages to select the most appropriate one. This is due to the need to identify tools that can be effectively applied to ensure both learning efficiency and data security, as well as applicability to the theme at hand. It also addresses the need to understand the most common FL scenarios in the healthcare domain presented in the literature, as it helps to identify best practices and specific challenges in this sector. The last
goal is to suggest an effective FL approach that ensures data privacy. This goal is driven by the growing need for solutions that can ensure compliance with privacy regulations while enabling model training in a collaborative environment. Regarding the first objective, it was concluded that Flower is the most suitable tool for the purpose of this thesis. Although other tools, such as PySyft, stood out, Flower was the one that best met the needs of the work. Next, four major technical problems commonly encountered when working with FL were identified: scalability, security, the particularities of each type of FL partition, and data distribution. To deal with some of these technical challenges, techniques such as undersampling were employed. Furthermore, through this investigation, it became clear that a network of hospitals is one of the most common scenarios when it comes to FL in healthcare. A solution was finally proposed, and an FL scenario was designed with three hospitals collaborating to train a global model. First, the robustness and effectiveness of FL compared to traditional ML were analyzed, noting no significant loss in most models. Next, the performance of aggregation algorithms (FedAvg, FedAdam, FedAdagrad) was compared, with FedAvg standing out. Finally, the training time between the various models was compared. This performance analysis derived from two case studies: predicting mortality in patients with Acute Pancreatitis and predicting mortality in patients in Intensive Care Units (ICU) with various diseases. Thus, all the three proposed objectives were completely fulfilled.
Na área dos cuidados de saúde, as ações tendem a gerar muitos dados sensíveis sobre os pacientes, úteis para avanços científicos e novas aplicações, mas que apresentam desafios de privacidade e segurança. A inteligência artificial pode beneficiar significativamente desses dados, mas técnicas tradicionais de aprendizagem automática (ML) em ambiente colaborativo expõem-nos em demasia. Desta forma, a aprendizagem federada (FL) surge como uma solução, permitindo o treino de modelos sem partilhar diretamente a informação dos pacientes, diminuindo o risco de exposição. Esta tese tem três objetivos principais. Pretende entender quais são as ferramentas de FL mais comuns no estado da arte, analisando as suas vantagens e desvantagens de forma a selecionar a mais adequada. Isto deve-se à necessidade de identificar ferramentas que possam ser eficazmente aplicadas, de forma a garantir tanto a eficiência na aprendizagem quanto a segurança dos dados e a aplicabilidade no tema em questão. Também trata a necessidade de entender quais cenários de FL são mais comuns no domínio da saúde na literatura, visto que ajuda a identificar boas práticas e desafios específicos desse setor. Por fim, há o objetivo de sugerir uma abordagem eficaz de FL que permita proteger a privacidade dos dados. Este objetivo é motivado pela crescente necessidade de soluções que possam garantir a conformidade com regulamentações de privacidade e, ao mesmo tempo, permitir o treino de modelos em ambiente colaborativo. Relativamente ao primeiro objetivo, concluiu-se que o Flower é a ferramenta mais indicada para o propósito da tese. Embora outras ferramentas se tenham destacado, como é o caso do PySyft, foi o Flower que mais se adequou às necessidades do trabalho. Seguidamente, foi possível identificar quatro grandes problemas técnicos comumente encontrados ao trabalhar com FL: a escalabilidade, a segurança, as particularidades de cada tipo de partição de FL e a distribuição de dados. De forma a lidar com alguns destes problemas, técnicas como undersampling foram utilizadas. Além disso, através dessa investigação tornou-se possível perceber que uma rede de hospitais é um dos cenários mais comuns quando se trata de FL na área da saúde. Também foi proposta uma solução e desenhado um cenário de FL com três hospitais que colaboram para treinar um modelo global. Primeiramente, analisou-se a robustez e eficácia do FL em comparação ao ML tradicional, observando que não houve perda significativa na maioria dos modelos. Seguidamente, comparou-se a performance de algoritmos de agregação (FedAvg, FedAdam, FedAdagrad), com o FedAvg destacando-se. Por fim, comparou-se o tempo de treino entre os vários modelos. Esta análise de performance derivou de dois casos de estudo: previsão de mortalidade em doentes com Pancreatite Aguda e previsão de mortalidade em pacientes de Unidades de Cuidado Intensivo (ICU) com diversas doenças. Assim sendo, todos os objetivos propostos foram cumpridos.
Na área dos cuidados de saúde, as ações tendem a gerar muitos dados sensíveis sobre os pacientes, úteis para avanços científicos e novas aplicações, mas que apresentam desafios de privacidade e segurança. A inteligência artificial pode beneficiar significativamente desses dados, mas técnicas tradicionais de aprendizagem automática (ML) em ambiente colaborativo expõem-nos em demasia. Desta forma, a aprendizagem federada (FL) surge como uma solução, permitindo o treino de modelos sem partilhar diretamente a informação dos pacientes, diminuindo o risco de exposição. Esta tese tem três objetivos principais. Pretende entender quais são as ferramentas de FL mais comuns no estado da arte, analisando as suas vantagens e desvantagens de forma a selecionar a mais adequada. Isto deve-se à necessidade de identificar ferramentas que possam ser eficazmente aplicadas, de forma a garantir tanto a eficiência na aprendizagem quanto a segurança dos dados e a aplicabilidade no tema em questão. Também trata a necessidade de entender quais cenários de FL são mais comuns no domínio da saúde na literatura, visto que ajuda a identificar boas práticas e desafios específicos desse setor. Por fim, há o objetivo de sugerir uma abordagem eficaz de FL que permita proteger a privacidade dos dados. Este objetivo é motivado pela crescente necessidade de soluções que possam garantir a conformidade com regulamentações de privacidade e, ao mesmo tempo, permitir o treino de modelos em ambiente colaborativo. Relativamente ao primeiro objetivo, concluiu-se que o Flower é a ferramenta mais indicada para o propósito da tese. Embora outras ferramentas se tenham destacado, como é o caso do PySyft, foi o Flower que mais se adequou às necessidades do trabalho. Seguidamente, foi possível identificar quatro grandes problemas técnicos comumente encontrados ao trabalhar com FL: a escalabilidade, a segurança, as particularidades de cada tipo de partição de FL e a distribuição de dados. De forma a lidar com alguns destes problemas, técnicas como undersampling foram utilizadas. Além disso, através dessa investigação tornou-se possível perceber que uma rede de hospitais é um dos cenários mais comuns quando se trata de FL na área da saúde. Também foi proposta uma solução e desenhado um cenário de FL com três hospitais que colaboram para treinar um modelo global. Primeiramente, analisou-se a robustez e eficácia do FL em comparação ao ML tradicional, observando que não houve perda significativa na maioria dos modelos. Seguidamente, comparou-se a performance de algoritmos de agregação (FedAvg, FedAdam, FedAdagrad), com o FedAvg destacando-se. Por fim, comparou-se o tempo de treino entre os vários modelos. Esta análise de performance derivou de dois casos de estudo: previsão de mortalidade em doentes com Pancreatite Aguda e previsão de mortalidade em pacientes de Unidades de Cuidado Intensivo (ICU) com diversas doenças. Assim sendo, todos os objetivos propostos foram cumpridos.
Description
Keywords
Machine learning Federated learning Flower Acute pancreatitis Artificial Intelligence Aprendizagem automática Aprendizagem federada Pancreatite aguda Inteligência Artificial