Anonimização Automática de Texto Clínico: um estudo sobre técnicas emergentes e métodos de avaliação

Ribeiro, Rita Alexandre Pinto

http://hdl.handle.net/10400.22/23997

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
Tese_5033 (1).pdf		3.42 MB	Adobe PDF	Download

Send Feedback

Authors

Ribeiro, Rita Alexandre Pinto

Advisor(s)

Marreiros, Maria Goreti Carvalho

Abstract(s)

O Processamento de Linguagem Natural (PLN) teve uma evolução explosiva nos últimos 5 anos, principalmente devido ao desenvolvimento e utilização de Modelos de Linguagem baseados em Deep Learning, como BERT (Bidirectional Encoder Representatioms from Transformers) e GPT (Generative Pre-trained Transformer), surgindo assim os LLMs (Large Language Models). A anonimização do texto clínico é uma tarefa crucial para mitigar preocupações de privacidade ao lidar com dados clínicos sensíveis, presentes em Registos Eletrónicos de Saúde e notas clínicas. Vários métodos de PLN podem ser implementados para executar esta tarefa automaticamente, evitando a morosa desidentificação manual do texto. Uma das maneiras de realizar automaticamente a anonimização de texto clínico é através da técnica de Reconhecimento de Entidade Nomeada (REN) onde um modelo de PLN pode identificar os tokens que correspondem a Informações Privadas de Saúde (IPS) num texto, como o nome de um paciente, idade, o nome do hospital, etc. Outra possibilidade é através da utilização da estratégia de substituição por word embeddings, que substituem cada palavra de um determinado texto por outras semanticamente relacionadas. No caso de dados clínicos, as informações médicas relevantes devem permanecer inalteradas após a anonimização, o que pode ser avaliado extraindo códigos ICD-10. Este estudo teve como objetivo comparar o desempenho das técnicas de anonimização baseadas em REN (CRF (Conditional Random Field) e Presidio com o modelo spaCy) com as técnicas baseadas em word embeddings (Word2Vec e GloVe) para perceber se estas últimas podem ser consideradas uma alternativa mais viável para esta tarefa. Além disso, foram realizadas experiências em dois contextos linguísticos diferentes: inglês e português. Os resultados deste estudo comparativo entre idiomas diferentes demonstram que, apesar dos escassos dados disponíveis para idiomas de baixo recurso (como o caso do português), grande parte das tendências observadas com os dados ingleses será extensível a outros idiomas. Para acompanhar este tipo de técnicas emergentes foi necessário desenvolver uma nova métrica – Levenshtein Recall (LR) – de forma a ultrapassar os desafios encontrados pelas métricas tradicionais. Com este estudo conclui-se que os métodos baseados em REN ainda são os mais apropriados para anonimização de texto clínico, ainda que os métodos baseados em word embeddings se revelem muito promissores nesta tarefa de PLN, com grande poder de anonimização, mas a custo de grande perda de informação clínica.

Natural Language Processing (NLP) has had an explosive evolution in the last 5 years, mainly due to the development and use of Language Models based on Deep Learning, such as BERT (Bidirectional Encoder Representations from Transformers) and GPT (Generative Pre-trained Transformer), thus giving rise to LLMs (Large Language Models). Anonymizing clinical text is crucial to mitigate privacy concerns when dealing with sensitive clinical data in Electronic Health Records and clinical notes. Various NLP methods can be implemented to perform this task automatically, avoiding time-consuming manual text de-identification. One of the ways to automatically perform clinical text anonymization is through the Named Entity Recognition (NER) technique using the CRF (Conditional Random Field) and Presidio methods with the spaCy model, where an NLP model can identify the tokens, you find Private Health Information (PHI) in text, such as a patient's name, age, hospital name, etc. Another possibility is through the use of word embeddings (such as Word2Vec and GloVe) that replace each word in a given text with other semantically related ones. In the case of clinical data, relevant medical information must remain unchanged after anonymization or can be evaluated by extracting ICD-10 codes. To keep up with these emerging techniques, it was necessary to develop a new metric – Levenshtein Recall (LR) – to overcome the challenges encountered by traditional metrics. This study concludes that methods based on NER are still the most suitable for anonymizing clinical text, although methods based on word embeddings are very promising in this NLP task, with great anonymization power but at the cost of a great loss of clinical information.