Percorrer por autor "Sousa, Leonardo Emanuel Miranda de"
A mostrar 1 - 1 de 1
Resultados por página
Opções de ordenação
- PySpark-Based Data Processing Library for Distributed Machine Learning WorkflowsPublication . Sousa, Leonardo Emanuel Miranda de; Carneiro, Davide RuaAs plataformas de Internet of Things (IoT) industriais geram quantidades significativas de dados heterogéneos que excedem as capacidades das pipelines de dados convencionais, sobretudo em contextos empresariais como o da Bosch. Responder a estas exigências requer não apenas uma infraestrutura escalável, mas também ferramentas ergonómicas que permitam o desenvolvimento de fluxos de trabalho de machine learning (ML) reprodutíveis. Nesta dissertação apresenta-se a SparklyAI, uma biblioteca PySpark que formaliza o ciclo de vida definido pelo Cross Industry Standard Process for Data Mining (CRISP-DM) para ML distribuído, colmatando a lacuna entre as práticas de engenharia de dados industriais e os princípios modernos de Machine Learning Operations (MLOps). A SparklyAI fornece uma estrutura coerente para pipelines de ponta a ponta, abrangendo coleta, limpeza, amostragem, engenharia de características, modelação e avaliação, através de uma Application Programming Interface (API) procedural com utilidades sensíveis ao esquema e tipos de dados. A validação em fluxos de trabalho reais na Bosch demonstrou melhorias significativas na consistência, manutenibilidade e reprodutibilidade dos processos, bem como uma redução acentuada nos erros de implementação e no tempo de integração de novos utilizadores. Quantitativamente, o Engineering Time Proxy (ETP) reduziu-se de 220,8 para 90,4 minutos (–59,1%), comprovando ganhos expressivos de eficiência em implementações práticas. Em síntese, a SparklyAI constitui uma base estruturada e eficiente para fluxos de trabalho de ML em escala industrial, alinhando a prática quotidiana com a metodologia CRISP-DM e preservando as capacidades de escalabilidade do Spark.
