Extração Automatizada de Características de Produtos de Seguros

Faria, Luiz Felipe Rocha deSousa, Paulo Alexandre Gandra deOLIVEIRA, FRANCISCO JOSÉ NUNES2025-12-162025-12-162025-10-29http://hdl.handle.net/10400.22/31220A crescente complexidade e diversidade dos produtos de seguros têm evidenciado a necessidade de métodos e cientes para interpretar e gerir as informações detalhadas presentes em documentos regulatórios. Este projeto explora a aplicação de técnicas de Processamento de Linguagem Natural (NLP) e Large Language Models (LLMs) na extração automática de características relevantes desses produtos, abordando desa os como a estruturação de textos técnicos e a identi cação precisa de regras, condições e variações. A investigação foca-se na análise do estado da arte em tecnologias como bases de dados vetoriais, LLMs, knowledge graphs e agentic work ows, bem como na avaliação de ferramentas e metodologias de NLP. São também discutidas as principais di culdades associadas à interpretação de documentos de seguros e à transformação de dados não estruturados em formatos organizados e compatíveis com sistemas de modelação. A solução desenvolvida respondeu, de forma satisfatória, aos objetivos de nidos, permitindo a extração estruturada e consistente das características dos produtos a partir de documentos regulatórios. Para tal, recorreu-se a uxos de trabalho baseados em agentes de IA, suportados por LLMs e esquemas de validação, assegurando a qualidade e a coerência dos resultados. Além disso, a integração com a Product Machine demonstrou a aplicabilidade prática do sistema, ao fornecer uma base sólida para a modelação de produtos de seguros e contribuir para a redução do esforço manual e aumento da e ciência no processo.The increasing complexity and diversity of insurance products have highlighted the need for efficient methods to interpret and manage the detailed information present in regulatory documents. This project explores the application of Natural Language Processing (NLP) techniques and Large Language Models (LLMs) in the automatic extraction of relevant characteristics of these products, addressing challenges such as structuring technical texts and accurately identifying rules, conditions, and variations. The research focuses on analyzing the state of the art in technologies such as vector databases, LLMs, knowledge graphs, and agentic workfows, as well as evaluating NLP tools and methodologies. It also discusses the main difficulties associated with interpreting insurance documents and transforming unstructured data into organized formats compatible with modeling systems. The solution developed responded satisfactorily to the objectives established, enabling the structured and consistent extraction of product characteristics from regulatory documents. To this end, AI agent-based workfows were used, supported by LLMs and validation schemes, ensuring the quality and consistency of the results. In addition, integration with Product Machine demonstrated the practical applicability of the system, providing a solid foundation for insurance product modelling and contributing to reduced manual effort and increased process efficiency.porExtração de documentosAI Agentic WorkflowsLarge Language ModelsProcessamento de documentosNamed Entity RecognitionProduto de SegurosDocument extractionAI Agentic WorkfowsLarge Language ModelsNamed Entity RecognitionInsurance ProductExtração Automatizada de Características de Produtos de SegurosAutomated Extraction of Insurance Product Characteristicsmaster thesis204067162