Processamento de grandes volumes de dados em grafos

CUNHA, JOSÉ MANUEL FERREIRA DA

Publicação

Processamento de grandes volumes de dados em grafos

2025-10-21Dissertação de mestrado

datacite.subject.fos	Engenharia e Tecnologia
datacite.subject.sdg	09:Indústria, Inovação e Infraestruturas
dc.contributor.advisor	Coelho, Jorge Manuel Neves
dc.contributor.author	CUNHA, JOSÉ MANUEL FERREIRA DA
dc.date.accessioned	2025-11-17T15:49:17Z
dc.date.available	2025-11-17T15:49:17Z
dc.date.issued	2025-10-21
dc.description.abstract	The increased complexity of product architectures in today’s industrial environments demands the use of robust mechanisms to provide certainty and quality in real-time. Verification by manual means has become inefficient, and automated solutions must be accurate as well as speedy in handling high volumes of data and high rates of messaging. The challenge here is addressed by designing, implementing, and validating a quality verification service that can detect mismatches between expected and observed product trees, with the service seamlessly integrating into an already established infrastructure of messaging. The suggested approach is founded on graph-oriented data models for the representation of product structures and employs algorithms designed to compare nodes, relationships, and attributes among various sources. A repository component has been created to maintain nodes and relationships, facilitating both sequential and parallel insertion modes. The integration of Apache Kafka was implemented to allow for real-time management of verification events. Validation of the system was conducted through unit and integration testing, augmented by performance assessment. Performance evaluation focused on the ingestion paths, JSON file insertion and Kafka streaming, and was executed 50 times per scenario to ensure consistency. For JSON file inserts (Table 4.1), parallel processing reduced end-to-end runtime from 3–5 s to 150–180 ms at 1k records and from 140–150 s to 550–650 ms at 50k. For Kafka messaging (Table 4.2), sequential runtimes of 4–6 s (1k), 7–10 s (5k), 32–36 s (20k), and 115–121 s (50k) were cut to 0.8–0.9 s, 0.6–0.8 s, 10–12 s, and 38–42 s with parallel programming. These results demonstrate multi-fold speedups and robust scalability under high-throughput conditions. In summary, the study illustrates that the real-time assessment of quality in intricate product configurations can be achieved through the integration of effective data structures, parallel processing techniques, and concurrent communication methods. The findings encompass a validated proof-of-concept that exhibits considerable enhancements in performance, an extensive testing framework to ensure accuracy, and a well-defined basis for prospective industrial application and scholarly investigation.	eng
dc.description.abstract	A crescente complexidade das arquiteturas de produtos nos ambientes industriais atuais exige o uso de mecanismos robustos para fornecer certeza e qualidade em tempo real. A verificação manual tornou-se ineficiente, e as soluções automatizadas devem ser precisas e rápidas no tratamento de grandes volumes de dados e altas taxas de mensagens. O desafio aqui é abordado através da conceção, implementação e validação de um serviço de verificação de qualidade que possa detetar discrepâncias entre as árvores de produtos esperadas e observadas, com o serviço a integrar-se perfeitamente numa infraestrutura de mensagens já estabelecida. A abordagem sugerida baseia-se em modelos de dados orientados a grafos para a representação de estruturas de produtos e emprega algoritmos concebidos para comparar nós, relações e atributos entre as várias fontes. Foi criado um repositório para manter nós e relações, facilitando os modos de inserção sequencial e paralela. A integração do Apache Kafka foi implementada para permitir a gestão em tempo real de eventos de verificação. A validação do sistema foi realizada através de testes unitários e de integração, complementados por uma avaliação de desempenho. A avaliação de desempenho focou-se nos caminhos de inserção, inserção offline de ficheiros em JSON e Kafka Streaming, sendo esta executada 50 vezes por cenário para garantir a consistência. Para inserções de ficheiros JSON (Tabela 4.1), o processamento paralelo reduziu o tempo de execução de ponta a ponta de 3–5 s para 150–180 ms em 1k registos e de 140–150 s para 550–650 ms em 50k. Para streaming Kafka (Tabela 4.2), os tempos de execução sequenciais de 4 a 6 s (1 mil), 7 a 10 s (5 mil), 32 a 36 s (20 mil) e 115 a 121 s (50 mil) foram reduzidos para 0,8 a 0,9 s, 0,6 a 0,8 s, 10 a 12 s e 38 a 42 s com a programação paralela. Esses resultados demonstram acelerações múltiplas e escalabilidade robusta em condições de alto rendimento. Em resumo, o estudo ilustra que a avaliação em tempo real da qualidade em configurações complexas de produtos pode ser alcançada através da integração de estruturas de dados eficazes, técnicas de processamento paralelo e métodos de comunicação simultânea. As conclusões abrangem uma prova de conceito validada que exibe melhorias consideráveis no desempenho, uma estrutura de testes abrangente para garantir a precisão e uma base bem definida para aplicações industriais prospetivas e investigação académica.	por
dc.identifier.tid	204033829
dc.identifier.uri	http://hdl.handle.net/10400.22/30943
dc.language.iso	eng
dc.rights.uri	N/A
dc.subject	Real-Time Quality Control
dc.subject	Graph Data Structures
dc.subject	Parallel Computing
dc.subject	Industry 4
dc.subject	0
dc.subject	Smart Manufacturing
dc.title	Processamento de grandes volumes de dados em grafos
dc.title.alternative	Processing large volumes of graph data	eng
dc.type	master thesis
dspace.entity.type	Publication
thesis.degree.name	Mestrado em Engenharia Informática

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: Tese_5940.pdf
Tamanho:: 4.66 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 4.03 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

ISEP - DM – Engenharia Informática