Repository logo
 
Publication

Processamento de grandes volumes de dados em grafos

datacite.subject.fosEngenharia e Tecnologia
datacite.subject.sdg09:Indústria, Inovação e Infraestruturas
dc.contributor.advisorCoelho, Jorge Manuel Neves
dc.contributor.authorCUNHA, JOSÉ MANUEL FERREIRA DA
dc.date.accessioned2025-11-17T15:49:17Z
dc.date.available2025-11-17T15:49:17Z
dc.date.issued2025-10-21
dc.description.abstractThe increased complexity of product architectures in today’s industrial environments demands the use of robust mechanisms to provide certainty and quality in real-time. Verification by manual means has become inefficient, and automated solutions must be accurate as well as speedy in handling high volumes of data and high rates of messaging. The challenge here is addressed by designing, implementing, and validating a quality verification service that can detect mismatches between expected and observed product trees, with the service seamlessly integrating into an already established infrastructure of messaging. The suggested approach is founded on graph-oriented data models for the representation of product structures and employs algorithms designed to compare nodes, relationships, and attributes among various sources. A repository component has been created to maintain nodes and relationships, facilitating both sequential and parallel insertion modes. The integration of Apache Kafka was implemented to allow for real-time management of verification events. Validation of the system was conducted through unit and integration testing, augmented by performance assessment. Performance evaluation focused on the ingestion paths, JSON file insertion and Kafka streaming, and was executed 50 times per scenario to ensure consistency. For JSON file inserts (Table 4.1), parallel processing reduced end-to-end runtime from 3–5 s to 150–180 ms at 1k records and from 140–150 s to 550–650 ms at 50k. For Kafka messaging (Table 4.2), sequential runtimes of 4–6 s (1k), 7–10 s (5k), 32–36 s (20k), and 115–121 s (50k) were cut to 0.8–0.9 s, 0.6–0.8 s, 10–12 s, and 38–42 s with parallel programming. These results demonstrate multi-fold speedups and robust scalability under high-throughput conditions. In summary, the study illustrates that the real-time assessment of quality in intricate product configurations can be achieved through the integration of effective data structures, parallel processing techniques, and concurrent communication methods. The findings encompass a validated proof-of-concept that exhibits considerable enhancements in performance, an extensive testing framework to ensure accuracy, and a well-defined basis for prospective industrial application and scholarly investigation.eng
dc.description.abstractA crescente complexidade das arquiteturas de produtos nos ambientes industriais atuais exige o uso de mecanismos robustos para fornecer certeza e qualidade em tempo real. A verificação manual tornou-se ineficiente, e as soluções automatizadas devem ser precisas e rápidas no tratamento de grandes volumes de dados e altas taxas de mensagens. O desafio aqui é abordado através da conceção, implementação e validação de um serviço de verificação de qualidade que possa detetar discrepâncias entre as árvores de produtos esperadas e observadas, com o serviço a integrar-se perfeitamente numa infraestrutura de mensagens já estabelecida. A abordagem sugerida baseia-se em modelos de dados orientados a grafos para a representação de estruturas de produtos e emprega algoritmos concebidos para comparar nós, relações e atributos entre as várias fontes. Foi criado um repositório para manter nós e relações, facilitando os modos de inserção sequencial e paralela. A integração do Apache Kafka foi implementada para permitir a gestão em tempo real de eventos de verificação. A validação do sistema foi realizada através de testes unitários e de integração, complementados por uma avaliação de desempenho. A avaliação de desempenho focou-se nos caminhos de inserção, inserção offline de ficheiros em JSON e Kafka Streaming, sendo esta executada 50 vezes por cenário para garantir a consistência. Para inserções de ficheiros JSON (Tabela 4.1), o processamento paralelo reduziu o tempo de execução de ponta a ponta de 3–5 s para 150–180 ms em 1k registos e de 140–150 s para 550–650 ms em 50k. Para streaming Kafka (Tabela 4.2), os tempos de execução sequenciais de 4 a 6 s (1 mil), 7 a 10 s (5 mil), 32 a 36 s (20 mil) e 115 a 121 s (50 mil) foram reduzidos para 0,8 a 0,9 s, 0,6 a 0,8 s, 10 a 12 s e 38 a 42 s com a programação paralela. Esses resultados demonstram acelerações múltiplas e escalabilidade robusta em condições de alto rendimento. Em resumo, o estudo ilustra que a avaliação em tempo real da qualidade em configurações complexas de produtos pode ser alcançada através da integração de estruturas de dados eficazes, técnicas de processamento paralelo e métodos de comunicação simultânea. As conclusões abrangem uma prova de conceito validada que exibe melhorias consideráveis no desempenho, uma estrutura de testes abrangente para garantir a precisão e uma base bem definida para aplicações industriais prospetivas e investigação académica.por
dc.identifier.tid204033829
dc.identifier.urihttp://hdl.handle.net/10400.22/30943
dc.language.isoeng
dc.rights.uriN/A
dc.subjectReal-Time Quality Control
dc.subjectGraph Data Structures
dc.subjectParallel Computing
dc.subjectIndustry 4
dc.subject0
dc.subjectSmart Manufacturing
dc.titleProcessamento de grandes volumes de dados em grafos
dc.title.alternativeProcessing large volumes of graph dataeng
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameMestrado em Engenharia Informática

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Tese_5940.pdf
Size:
4.66 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.03 KB
Format:
Item-specific license agreed upon to submission
Description: