Sistema de Deteção de Transações Fraudulentas no e-commerce através de Machine Learning

Soares, Pedro Francisco de Borges Castro de Rodrigues

http://hdl.handle.net/10400.22/23993

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
Tese_5061.pdf		4.56 MB	Adobe PDF	Download

Send Feedback

Authors

Soares, Pedro Francisco de Borges Castro de Rodrigues

Advisor(s)

Martins, António Constantino Lopes Martins

Abstract(s)

O crescimento exponencial do comércio eletrónico trouxe inúmeras vantagens e oportunidades ao facilitar o estilo de vida dos seres humanos. No entanto, deu também origem a um grave problema: a fraude online. Com o propósito de colmatar este problema, este trabalho aborda a necessidade de desenvolver sistemas de deteção de fraude complexos no âmbito do comércio eletrónico. Após uma revisão abrangente da literatura, foram identificadas e implementadas técnicas que contribuíram para a melhoria dos projetos existentes, permitindo uma análise comparativa mais precisa. Neste contexto, os algoritmos de RF, LR, SVM, KNN, DT, LSTM e CNN, por serem os mais adequados a sistemas de classificação pela sua versatilidade e capacidade de aprender padrões complexos nos dados, foram aplicados a três conjuntos de dados distintos. Para avaliar rigorosamente os modelos propostos, o conjunto de dados foi dividido em 70% de dados para treino e os restantes 30% para teste. Cada um dos conjuntos de dados apresenta características específicas, de forma a avaliar o impacto de técnicas de oversampling e undersampling. Os algoritmos foram aplicados também aos mesmos conjuntos com os dados normalizados, para inferir quais os modelos que beneficiam desta normalização. Os resultados demonstraram que os modelos RF e CNN apresentaram um desempenho superior em comparação com os restantes algoritmos testados. Estes algoritmos foram posteriormente otimizados com a exploração dos hiper-parâmetros respetivos, o que permitiu melhorar o desempenho do modelo e, por sua vez, alcançar resultados de maior qualidade. A utilização de inteligência artificial na deteção de fraude no comércio eletrónico é fundamental para proteger os interesses tanto das empresas como dos consumidores. Este trabalho teve como foco principal contribuir para o avanço dos sistemas de deteção de transações fraudulentas ao fornecer informações sobre pontos positivos e negativos de vários algoritmos de machine learning no contexto do problema em questão.

The exponential growth of e-commerce has brought numerous advantages and opportunities by facilitating the lifestyle of human beings. However, it has also given rise to a serious problem: online fraud. With the purpose of solving this problem, this work addresses the imperative need to develop complex fraud detection systems within the scope of electronic commerce. After a systematic review of the literature, different techniques were identified and implemented that contributed to the improvement of existing projects, allowing for a more accurate comparative analysis. In this context, the RF, LR, SVM, KNN, DT, LSTM and CNN algorithms, as they are the most suitable for classification systems due to their versatility and ability to learn complex patterns in data, were applied to three distinct datasets. To rigorously evaluate the proposed models, the dataset was divided into 70% training data and the remaining 30% to testing data. Each of the datasets consists in specific characteristics, in order to evaluate the impact of oversampling and undersampling techniques. The algorithms were also applied to the same datasets with normalized data, to infer which models benefit from this normalization. The results demonstrated that the RF and CNN algorithms presented superior performance compared to the remaining algorithms tested. These algorithms were subsequently optimized by exploring the respective hyper-parameters, which allowed improving the model's performance and, in turn, achieving higher quality results. The use of artificial intelligence to detect fraud in e-commerce is essential to protect the interests of both companies and consumers. This work's main focus was to contribute to the advancement of fraudulent purchase detection systems by providing information about the positive and negative points of various machine learning algorithms in the context of the problem in question.