Marreiros, Maria Goreti CarvalhoSantos, Maria Inês Salvador dos2024-12-092024-07-23http://hdl.handle.net/10400.22/26691Artificial intelligence has made some huge advancements in the healthcare field, particularly in medical imaging. However, data and annotations in this area are often scarce and expensive to obtain. Labeling images, although essential for machine learning models, is a tedious and time-consuming task. Active learning addresses this challenge by selecting informative samples to try and create a subset of unlabeled data where the model could have more difficulty predicting the labels which are then given to experts to annotate. The goal is to try to use less amount of annotated data, whilst still getting a good model performance. Breast cancer is one of the most common cancers in women. The proposed solution uses the Patch- Camelyon dataset, a variation of the Camelyon16 dataset with patches from histopathologic scans of sentinel lymph node sections for the detection of metastatic tissue of breast cancer patients. This work proposes an active learning approach that includes the division of the unlabeled data into clusters which are then classified based on their level of informativeness (based on Shannon Entropy). Then, from each cluster several samples are selected based on the previously defined informativeness level and each sample is scored based on a formula that includes both entropy and Euclidean distance to the cluster centroid. Finally, samples with the lowest uncertainty score are added to the training dataset with the model’s prediction. The proposed method includes both model uncertainty and data distribution. The solution showed promising results when compared with a random sampling approach. To evaluate the proposed solution, greyscale and Macenko normalization techniques were used in all different approaches (random sampling approach, a variation of the proposed solution with no pseudo label task and the proposed solution). In some iterations, the difference between the F1 score in the proposed active learning solution and random sampling was more than 0,20. With the application of this method, experts can spend less time annotating images while still achieving a high-performance model.A inteligência artificial tem feito grandes avanços na área da saúde, particularmente quando são utilizadas imagens médicas. No entanto, os dados e as anotações nesta área são frequentemente escassos e caros de obter. Anotar imagens, embora seja essencial para os modelos de aprendizagem automática, é uma tarefa tediosa e demorada. Active Learning aborda este problema selecionando amostras informativas para criar um subconjunto de dados sem anotações, onde o modelo pode ter mais dificuldade em prever as anotações, que são então dados a especialistas para anotar. O objetivo é tentar usar uma menor quantidade de dados anotados, mantendo um bom desempenho do modelo. O cancro da mama é um dos tipos de cancro mais comuns entre as mulheres. A solução proposta utiliza o conjunto de dados PatchCamelyon, uma variação do conjunto de dados Camelyon16, com amostras de exames histopatológicos de seções do linfonodo sentinela para a deteção de tecido metastático em pacientes com cancro da mama. Este trabalho propõe uma abordagem de Active Learning que inclui a divisão dos dados não anotados em clusters, que são então classificados com base no seu nível de informatividade (com base na Entropia de Shannon). Em seguida, de cada cluster são selecionadas várias amostras com base no nível de informatividade previamente definido e cada amostra é pontuada com base numa fórmula que inclui tanto a entropia quanto a distância Euclidiana ao centróide do cluster. Finalmente, as amostras com a pontuação de incerteza mais baixa são adicionadas ao conjunto de dados de treino com a previsão do modelo. O método proposto inclui tanto a incerteza do modelo quanto a distribuição dos dados. A solução apresentou resultados promissores quando comparada com uma abordagem de seleção de amostras aleatória. Para avaliar a solução proposta, foram utilizadas técnicas de normalização em escala de cinza e Macenko em todas as diferentes abordagens (abordagem de seleção de amostras aleatória, uma variação da solução proposta sem a tarefa de adição de imagens com a previsão do modelo e a solução proposta). Em algumas iterações, a diferença entre a pontuação F1 na solução de Active Learning proposta e a seleção de amostras aleatória foi superior a 0,20. Com a aplicação deste método, os especialistas podem gastar menos tempo a anotar imagens e ainda assim obter um modelo de alto desempenho.engActive learningMedical imagingData annotationImagem médicaAnotação de dadosApplication of active learning on medical images to enhance machine learning modelsmaster thesis203733568