Browsing by Author "Ribeiro, Rita Alexandre Pinto"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Anonimização Automática de Texto Clínico: um estudo sobre técnicas emergentes e métodos de avaliaçãoPublication . Ribeiro, Rita Alexandre Pinto; Marreiros, Maria Goreti CarvalhoO Processamento de Linguagem Natural (PLN) teve uma evolução explosiva nos últimos 5 anos, principalmente devido ao desenvolvimento e utilização de Modelos de Linguagem baseados em Deep Learning, como BERT (Bidirectional Encoder Representatioms from Transformers) e GPT (Generative Pre-trained Transformer), surgindo assim os LLMs (Large Language Models). A anonimização do texto clínico é uma tarefa crucial para mitigar preocupações de privacidade ao lidar com dados clínicos sensíveis, presentes em Registos Eletrónicos de Saúde e notas clínicas. Vários métodos de PLN podem ser implementados para executar esta tarefa automaticamente, evitando a morosa desidentificação manual do texto. Uma das maneiras de realizar automaticamente a anonimização de texto clínico é através da técnica de Reconhecimento de Entidade Nomeada (REN) onde um modelo de PLN pode identificar os tokens que correspondem a Informações Privadas de Saúde (IPS) num texto, como o nome de um paciente, idade, o nome do hospital, etc. Outra possibilidade é através da utilização da estratégia de substituição por word embeddings, que substituem cada palavra de um determinado texto por outras semanticamente relacionadas. No caso de dados clínicos, as informações médicas relevantes devem permanecer inalteradas após a anonimização, o que pode ser avaliado extraindo códigos ICD-10. Este estudo teve como objetivo comparar o desempenho das técnicas de anonimização baseadas em REN (CRF (Conditional Random Field) e Presidio com o modelo spaCy) com as técnicas baseadas em word embeddings (Word2Vec e GloVe) para perceber se estas últimas podem ser consideradas uma alternativa mais viável para esta tarefa. Além disso, foram realizadas experiências em dois contextos linguísticos diferentes: inglês e português. Os resultados deste estudo comparativo entre idiomas diferentes demonstram que, apesar dos escassos dados disponíveis para idiomas de baixo recurso (como o caso do português), grande parte das tendências observadas com os dados ingleses será extensível a outros idiomas. Para acompanhar este tipo de técnicas emergentes foi necessário desenvolver uma nova métrica – Levenshtein Recall (LR) – de forma a ultrapassar os desafios encontrados pelas métricas tradicionais. Com este estudo conclui-se que os métodos baseados em REN ainda são os mais apropriados para anonimização de texto clínico, ainda que os métodos baseados em word embeddings se revelem muito promissores nesta tarefa de PLN, com grande poder de anonimização, mas a custo de grande perda de informação clínica.