NERdy: enhancing information discovery through named entity recognition

Magalhães, João Vilas Boas da Silva

http://hdl.handle.net/10400.22/26645

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Tese_5572.pdf		3.81 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Magalhães, João Vilas Boas da Silva

Orientador(es)

Faria, Luiz Felipe Rocha de

Resumo(s)

Education is essential for individual and societal progress, playing a pivotal role in economic development, creativity, and social mobility. However, a significant challenge remains in ensuring equitable access to quality education, particularly in diverse classrooms where personalized learning is increasingly critical. Research highlights the benefits of tailored learning approaches, but current educational tools often lack the ability to organize raw information into structured formats suitable for individualized learning. This gap underscores the need for advancements in Natural Language Processing (NLP) to enhance educational tools. In response to this challenge, this project focuses on developing a Named Entity Recognition (NER) model to improve the organization and extraction of information from raw text. NER, a key task in NLP, identifies and classifies entities such as people, organizations, and locations, providing the groundwork for future tools designed to structure educational content. The primary objective of this study is to construct an entity extraction tool, with the ultimate goal of enhancing personalized learning by facilitating the automatic organization of educational materials. To achieve this, a model combining a pretrained BERT encoder, a BiLSTM layer, and a Conditional Random Field (CRF) correction layer was developed. The model was trained on curated datasets to ensure both performance and fairness. Through extensive testing and finetuning, the model demonstrated strong results, achieving an F1 score of 87.22%, comparing favorably to state-of-the-art models. Key techniques such as class balancing, weight decay, and dropout were used to prevent overfitting, while validation and training losses were monitored to assess the model’s performance. The findings of this project not only confirm the effectiveness of the developed NER model but also highlight its potential in addressing educational challenges. The model shows promise for future expansion, including the development of relation extraction techniques and knowledge graph generation to further enhance learning tools. Ethical considerations, including data privacy, fairness, and transparency, were prioritized throughout the project. Future work will focus on refining the model and expanding its capabilities to better serve the educational sector, contributing to the broader goal of improving access to quality, personalized education.

A educação é essencial para o progresso individual e societal, desempenhando um papel fundamental no desenvolvimento económico, na criatividade e na mobilidade social. No entanto, permanece um desafio significativo em garantir o acesso equitativo a uma educação de qualidade, particularmente em salas de aula diversificadas, onde a aprendizagem personalizada é cada vez mais crítica. A investigação destaca os benefícios das abordagens de aprendizagem personalizadas, mas as ferramentas educativas atuais muitas vezes carecem da capacidade de organizar informação bruta em formatos estruturados adequados para a aprendizagem individualizada. Esta lacuna sublinha a necessidade de avanços no Processamento de Linguagem Natural (NLP) para melhorar as ferramentas educacionais. Em resposta a este desafio, este projeto foca-se no desenvolvimento de um modelo de Reconhecimento de Entidades Nomeadas (NER) para melhorar a organização e extração de informação de texto bruto. O NER, uma tarefa chave no NLP, identifica e classifica entidades como pessoas, organizações e localizações, proporcionando a base para ferramentas futuras destinadas à estruturação de conteúdo educacional. O principal objetivo deste estudo é construir uma ferramenta de extração de entidades, com o objetivo final de melhorar a aprendizagem personalizada através da facilitação da organização automática de materiais educacionais. Para alcançar este objetivo, foi desenvolvido um modelo que combina um codificador BERT prétreinado, uma camada BiLSTM e uma camada de correção com Campos Aleatórios Condicionais (CRF). O modelo foi treinado em conjuntos de dados selecionados para garantir tanto o desempenho quanto a equidade. Através de testes extensivos e ajustes finos, o modelo demonstrou resultados sólidos, alcançando uma pontuação F1 de 87,22%, comparando-se favoravelmente com modelos de ponta. Técnicas chave, como balanceamento de classes, decaimento de peso e dropout, foram utilizadas para prevenir overfitting, enquanto as perdas de validação e treino foram monitorizadas para avaliar o desempenho do modelo. Os resultados deste projeto não só confirmam a eficácia do modelo NER desenvolvido, como também destacam o seu potencial para enfrentar desafios educacionais. O modelo mostra-se promissor para futuras expansões, incluindo o desenvolvimento de técnicas de extração de relações e a geração de grafos de conhecimento para melhorar ainda mais as ferramentas de aprendizagem. Considerações éticas, incluindo privacidade de dados, equidade e transparência, foram priorizadas ao longo do projeto. O trabalho futuro centrar-se-á em refinar o modelo e expandir as suas capacidades para melhor servir o setor educacional, contribuindo para o objetivo mais amplo de melhorar o acesso a uma educação personalizada e de qualidade.

Palavras-chave

Artificial intelligence BERT BiLSTM CRF Learning styles Named entity recognition Natural language processing Personalized learning Relation extraction

URI

http://hdl.handle.net/10400.22/26645

Coleções

ISEP - DM – Engenharia de Inteligência Artificial

Ver registo completo