Publication
Adversarial agent for synthetic data generation for phishing detection
| datacite.subject.fos | Engenharia e Tecnologia | |
| datacite.subject.sdg | 09:Indústria, Inovação e Infraestruturas | |
| dc.contributor.advisor | Pereira, Isabel Cecília Correia da Silva Praça Gomes | |
| dc.contributor.advisor | Maia, Eva Catarina Gomes | |
| dc.contributor.author | CARDOSO, FRANCISCO FONSECA FERREIRA | |
| dc.date.accessioned | 2025-11-14T11:31:19Z | |
| dc.date.available | 2025-11-14T11:31:19Z | |
| dc.date.issued | 2025-10-16 | |
| dc.description.abstract | Phishing attacks continue to be a significant security challenge, causing financial and reputational damage to organizations and individuals, with emails being the primary way for these attacks. While modern defenses continue to rely on phishing detection systems, their effectiveness is being challenged by the evolution of these attacks. Attackers are moving from generic emails to highly personalised and context-specific messages, which conventional models struggle to detect. The performance of these systems is mostly limited by the scarcity of specialised, domain-specific training data needed to recognise such threats. This thesis tries to address this gap by introducing CANDACE, a modular framework designed to generate context-aware synthetic email messages to train and improve these detection systems. The main innovation of CANDACE comes from its dual Knowledge Graph (KG) architecture, which gives the generation process a contextual foundation. The first KG maps external, real-world information about an organization, while the second models its internal structure, such as employees and projects. A Small Language Model (SLM) then uses the information of these KGs, with other important components, such as URL, to generate an email message that is contextually relevant to the domain of the organization. The contributions of this work include the complete design, end-to-end implementation, and validation of the CANDACE pipeline. A case study in the Public Administration sector presents the framework’s ability to produce convincing, context-aware synthetic messages. The findings confirm that contextual grounding is essential for creating better and more focused training data. This research shows the need to move beyond generic emails datasets, to build more resilient detection systems capable of detecting the more sophisticated and personalised phishing attacks. | eng |
| dc.description.abstract | Os ataques de phishing continuam a ser um desafio significativo para a segurança, causando prejuízos financeiros e danos à reputação de organizações e indivíduos, sendo os e-mails a principal forma que estes ataques são feitos. Embora as defesas modernas continuem a depender de sistemas de deteção de phishing, a sua eficácia está a ser posta em causa pela evolução destes ataques. Os atacantes estão a passar de e-mails genéricos para mensagens altamente personalizadas e com contexto, que os modelos convencionais têm dificuldade em detetar. O desempenho destes sistemas é limitado principalmente pela escassez de dados de treino especializados e específicos para o domínio, necessários para reconhecer tais ameaças. Esta tese tenta abordar esta lacuna através da introdução do CANDACE, uma framework criada para gerar mensagens de e-mail sintéticas com contexto para treinar e melhorar estes sistemas de deteção. A principal inovação do CANDACE vem da sua arquitetura com dois Grafos de Conhecimento (GC), que dá ao processo de geração uma base contextual. O primeiro GC mapeia informações externas do mundo real sobre uma organização, enquanto o segundo modela a sua estrutura interna, como funcionários e projetos. Um SLM usa as informações desses KGs, com outros componentes importantes, como URL, para gerar uma mensagem de e-mail que seja contextualmente relevante para o domínio da organização. As contribuições deste trabalho incluem o design completo, a implementação end-to-end e a validação do pipeline CANDACE. Um caso de estudo no setor da Administração Pública apresenta a capacidade da framework de produzir mensagens sintéticas convincentes e com contexto. As conclusões confirmam que o enquadramento contextual é essencial para criar dados de treino melhores e mais focados. Esta investigação demonstra a necessidade de ir além dos conjuntos de dados genéricos de e-mails, para construir sistemas de deteção mais resilientes, capazes de detetar os ataques de phishing mais sofisticados e personalizados. | por |
| dc.identifier.tid | 204033357 | |
| dc.identifier.uri | http://hdl.handle.net/10400.22/30896 | |
| dc.language.iso | eng | |
| dc.rights.uri | N/A | |
| dc.subject | Phishing Detection | |
| dc.subject | Synthetic Data | |
| dc.subject | Email Generation | |
| dc.subject | SLM | |
| dc.subject | Context-Aware | |
| dc.title | Adversarial agent for synthetic data generation for phishing detection | eng |
| dc.type | master thesis | |
| dspace.entity.type | Publication | |
| thesis.degree.name | Mestrado em Engenharia de Inteligência Artificial |
