Extração Automatizada de Características de Produtos de Seguros

OLIVEIRA, FRANCISCO JOSÉ NUNES

http://hdl.handle.net/10400.22/31220

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Tese_6143.pdf		11.23 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

OLIVEIRA, FRANCISCO JOSÉ NUNES

Orientador(es)

Faria, Luiz Felipe Rocha de

Sousa, Paulo Alexandre Gandra de

Resumo(s)

A crescente complexidade e diversidade dos produtos de seguros têm evidenciado a necessidade de métodos e cientes para interpretar e gerir as informações detalhadas presentes em documentos regulatórios. Este projeto explora a aplicação de técnicas de Processamento de Linguagem Natural (NLP) e Large Language Models (LLMs) na extração automática de características relevantes desses produtos, abordando desa os como a estruturação de textos técnicos e a identi cação precisa de regras, condições e variações. A investigação foca-se na análise do estado da arte em tecnologias como bases de dados vetoriais, LLMs, knowledge graphs e agentic work ows, bem como na avaliação de ferramentas e metodologias de NLP. São também discutidas as principais di culdades associadas à interpretação de documentos de seguros e à transformação de dados não estruturados em formatos organizados e compatíveis com sistemas de modelação. A solução desenvolvida respondeu, de forma satisfatória, aos objetivos de nidos, permitindo a extração estruturada e consistente das características dos produtos a partir de documentos regulatórios. Para tal, recorreu-se a uxos de trabalho baseados em agentes de IA, suportados por LLMs e esquemas de validação, assegurando a qualidade e a coerência dos resultados. Além disso, a integração com a Product Machine demonstrou a aplicabilidade prática do sistema, ao fornecer uma base sólida para a modelação de produtos de seguros e contribuir para a redução do esforço manual e aumento da e ciência no processo.

The increasing complexity and diversity of insurance products have highlighted the need for efficient methods to interpret and manage the detailed information present in regulatory documents. This project explores the application of Natural Language Processing (NLP) techniques and Large Language Models (LLMs) in the automatic extraction of relevant characteristics of these products, addressing challenges such as structuring technical texts and accurately identifying rules, conditions, and variations. The research focuses on analyzing the state of the art in technologies such as vector databases, LLMs, knowledge graphs, and agentic workfows, as well as evaluating NLP tools and methodologies. It also discusses the main difficulties associated with interpreting insurance documents and transforming unstructured data into organized formats compatible with modeling systems. The solution developed responded satisfactorily to the objectives established, enabling the structured and consistent extraction of product characteristics from regulatory documents. To this end, AI agent-based workfows were used, supported by LLMs and validation schemes, ensuring the quality and consistency of the results. In addition, integration with Product Machine demonstrated the practical applicability of the system, providing a solid foundation for insurance product modelling and contributing to reduced manual effort and increased process efficiency.

Palavras-chave

Extração de documentos AI Agentic Workflows Large Language Models Processamento de documentos Named Entity Recognition Produto de Seguros Document extraction AI Agentic Workfows Large Language Models Named Entity Recognition Insurance Product

URI

http://hdl.handle.net/10400.22/31220

Coleções

ISEP - DM – Engenharia Informática

Licença CC

Sem licença CC

Ver registo completo