Name: | Description: | Size: | Format: | |
---|---|---|---|---|
3.42 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
O Processamento de Linguagem Natural (PLN) teve uma evolução explosiva nos últimos 5 anos,
principalmente devido ao desenvolvimento e utilização de Modelos de Linguagem baseados em Deep
Learning, como BERT (Bidirectional Encoder Representatioms from Transformers) e GPT (Generative Pre-trained Transformer), surgindo assim os LLMs (Large Language Models).
A anonimização do texto clínico é uma tarefa crucial para mitigar preocupações de privacidade ao lidar
com dados clínicos sensíveis, presentes em Registos Eletrónicos de Saúde e notas clínicas. Vários
métodos de PLN podem ser implementados para executar esta tarefa automaticamente, evitando a
morosa desidentificação manual do texto.
Uma das maneiras de realizar automaticamente a anonimização de texto clínico é através da técnica de
Reconhecimento de Entidade Nomeada (REN) onde um modelo de PLN pode identificar os tokens que
correspondem a Informações Privadas de Saúde (IPS) num texto, como o nome de um paciente, idade,
o nome do hospital, etc. Outra possibilidade é através da utilização da estratégia de substituição por word
embeddings, que substituem cada palavra de um determinado texto por outras semanticamente
relacionadas. No caso de dados clínicos, as informações médicas relevantes devem permanecer
inalteradas após a anonimização, o que pode ser avaliado extraindo códigos ICD-10.
Este estudo teve como objetivo comparar o desempenho das técnicas de anonimização baseadas em
REN (CRF (Conditional Random Field) e Presidio com o modelo spaCy) com as técnicas baseadas em word
embeddings (Word2Vec e GloVe) para perceber se estas últimas podem ser consideradas uma alternativa
mais viável para esta tarefa.
Além disso, foram realizadas experiências em dois contextos linguísticos diferentes: inglês e português.
Os resultados deste estudo comparativo entre idiomas diferentes demonstram que, apesar dos escassos
dados disponíveis para idiomas de baixo recurso (como o caso do português), grande parte das
tendências observadas com os dados ingleses será extensível a outros idiomas.
Para acompanhar este tipo de técnicas emergentes foi necessário desenvolver uma nova métrica –
Levenshtein Recall (LR) – de forma a ultrapassar os desafios encontrados pelas métricas tradicionais.
Com este estudo conclui-se que os métodos baseados em REN ainda são os mais apropriados para
anonimização de texto clínico, ainda que os métodos baseados em word embeddings se revelem muito
promissores nesta tarefa de PLN, com grande poder de anonimização, mas a custo de grande perda de
informação clínica.
Natural Language Processing (NLP) has had an explosive evolution in the last 5 years, mainly due to the development and use of Language Models based on Deep Learning, such as BERT (Bidirectional Encoder Representations from Transformers) and GPT (Generative Pre-trained Transformer), thus giving rise to LLMs (Large Language Models). Anonymizing clinical text is crucial to mitigate privacy concerns when dealing with sensitive clinical data in Electronic Health Records and clinical notes. Various NLP methods can be implemented to perform this task automatically, avoiding time-consuming manual text de-identification. One of the ways to automatically perform clinical text anonymization is through the Named Entity Recognition (NER) technique using the CRF (Conditional Random Field) and Presidio methods with the spaCy model, where an NLP model can identify the tokens, you find Private Health Information (PHI) in text, such as a patient's name, age, hospital name, etc. Another possibility is through the use of word embeddings (such as Word2Vec and GloVe) that replace each word in a given text with other semantically related ones. In the case of clinical data, relevant medical information must remain unchanged after anonymization or can be evaluated by extracting ICD-10 codes. To keep up with these emerging techniques, it was necessary to develop a new metric – Levenshtein Recall (LR) – to overcome the challenges encountered by traditional metrics. This study concludes that methods based on NER are still the most suitable for anonymizing clinical text, although methods based on word embeddings are very promising in this NLP task, with great anonymization power but at the cost of a great loss of clinical information.
Natural Language Processing (NLP) has had an explosive evolution in the last 5 years, mainly due to the development and use of Language Models based on Deep Learning, such as BERT (Bidirectional Encoder Representations from Transformers) and GPT (Generative Pre-trained Transformer), thus giving rise to LLMs (Large Language Models). Anonymizing clinical text is crucial to mitigate privacy concerns when dealing with sensitive clinical data in Electronic Health Records and clinical notes. Various NLP methods can be implemented to perform this task automatically, avoiding time-consuming manual text de-identification. One of the ways to automatically perform clinical text anonymization is through the Named Entity Recognition (NER) technique using the CRF (Conditional Random Field) and Presidio methods with the spaCy model, where an NLP model can identify the tokens, you find Private Health Information (PHI) in text, such as a patient's name, age, hospital name, etc. Another possibility is through the use of word embeddings (such as Word2Vec and GloVe) that replace each word in a given text with other semantically related ones. In the case of clinical data, relevant medical information must remain unchanged after anonymization or can be evaluated by extracting ICD-10 codes. To keep up with these emerging techniques, it was necessary to develop a new metric – Levenshtein Recall (LR) – to overcome the challenges encountered by traditional metrics. This study concludes that methods based on NER are still the most suitable for anonymizing clinical text, although methods based on word embeddings are very promising in this NLP task, with great anonymization power but at the cost of a great loss of clinical information.
Description
Keywords
Anonymization clinical text word embeddings Named Entity Recognition Natural Language Processing