Pré-processamento de Dados e Comparação entre Algoritmos de Machine Learning para a Análise Preditiva de Falhas em Linhas de Produção para o Controlo

Silva, Daniel Filipe Baptista Ferreira da

http://hdl.handle.net/10400.22/18266

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
DM_DanielSilva_2021_MEI.pdf		4.37 MB	Adobe PDF	Download

Send Feedback

Authors

Silva, Daniel Filipe Baptista Ferreira da

Advisor(s)

Marreiros, Maria Goreti Carvalho

Abstract(s)

Nos dias de hoje, devido ao constante desenvolvimento tecnológico e à constante necessidade de acelerar o processo de produção, os grandes fabricantes vêem-se obrigados a implementar processos de controlo de qualidade, por forma a diminuir o número de peças defeituosas ao longo das linhas de produção e, dessa forma, aumentar a produtividade das mesmas, o que irá beneficiar, não só as organizações responsáveis por esse processo, como também os clientes, pois, ao reduzir o tempo e custo de produção de um produto, as organizações têm a possibilidade de reduzir o seu preço. Apesar de se tratar de um problema global, este documento apenas se foca nas linhas de produção da Bosch, ao analisar uma grande quantidade de dados que foram disponibilizados para a criação de modelos de machine learning, com o objetivo de prever que componentes irão falhar ao longo do processo, por forma a melhorar o controlo de qualidade nas suas fábricas. Contudo, devido ao elevado número de entradas, estes dados têm que passar por várias etapas, para garantir que se encontram no melhor estado possível para serem testados e treinados pelos algoritmos. Estas etapas englobam o pré-processamento, ou seja, a correção de dados em falta, normalização, redução do tamanho do dataset, entre outras, e a Seleção de Características dos dados, ao selecionar apenas os atributos mais relevantes para a construção do modelo. Para o problema abordado neste documento, optou-se pela utilização da técnica de aprendizagem supervisionada, pelo facto do dataset utilizado ser rotulado, pois cada coluna contém um descritivo da peça, estação e linha de produção. Após terem sido analisados vários artigos semelhantes na mesma área de estudo, e terem sido comparados os seus resultados, os algoritmos XGBoost, Random Forest e Support Vector Machine foram escolhidos como os algoritmos a utilizar no desenvolvimento do modelo. Várias métricas de avaliação foram referidas na literatura como aptas para avaliar o modelo, como é o caso da exatidão, da precisão, da métrica F1, entre outras, que foram utilizadas para esse fim. Por fim, concluiu-se que o XGBoost foi o algoritmo que apresentou os melhores resultados no contexto deste estudo. O algoritmo SVM foi o mais rápido a efetuar as previsões e o algoritmo Random Forest é um meio termo entre velocidade e qualidade dos resultados. O melhor a aplicar nas linhas de produção da Bosch irá depender de que métrica é vista como tendo um maior peso para a organização.

Nowadays, due to the constant technological development and the constant need to accelerate the production process, the big manufacturers are obliged to implement quality control processes, in order to reduce the number of defective parts along the production lines and, thus, increasing their productivity. This will benefit not only the responsible for this process, but also the customers, since, by reducing the time and cost of manufacturing a product, organizations have the possibility to lower its price. Despite being a global problem, this document only focuses on the Bosch production line data. A large amount of data was made available for the creation of machine learning models, in order to predict which components will fail throughout the production process, for the sake of improving the quality control in the company. However, due to the high number of inputs, this data had to go through several steps, to ensure that it was in the best possible state to be tested and trained by the algorithms. These steps include the correction of missing data, normalization, reduction of the size of the dataset, among others, and feature selection, by selecting only the most relevant attributes for the creation of the model. For the problem addressed in this document, it was decided to use the supervised learning technique because the dataset used is labeled, as each column identifies the part, the station and the production line. After analyzing several articles of the same area of study, and comparing the results, the XGBoost, Random Forest and Support Vector Machine algorithms were chosen for this project. Several evaluation metrics, able to correctly evaluate classification models were mentioned in the literature and were used, as is the case of the accuracy, precision, F1 score and the Mathews Correlation Coefficient, to compare the results and predictions success of the various used algorithms. Finally, it was concluded that XGBoost is the algorithm with the best and most advantageous results in the context of this study. The SVM algorithm was the fastest to finish all the predictions and the Random Forest algorithm is a compromise between speed and quality of the results. The best technique to apply on the Bosch production lines will depend on which metric is seen as having the most valuable for the organization.

Keywords

Machine Learning Análise Preditiva Feature Engineering Linha de Produção Classificação XGBoost Random Forest Support Vector Machine Predictive Analysis Production Lines Classification

URI

http://hdl.handle.net/10400.22/18266

Collections

ISEP - DM – Engenharia Informática

Full item page