Assessing the effectiveness of Large Language Models in automated threat modeling

BATISTA, ANA ISABEL MOURA

http://hdl.handle.net/10400.22/30350

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
Tese_5828_v2.pdf		5.7 MB	Adobe PDF	Download

Send Feedback

Authors

BATISTA, ANA ISABEL MOURA

Advisor(s)

Pereira, Nuno Alexandre Magalhães

Abstract(s)

As cyberattacks become more frequent, Threat Modeling has emerged as an essential component of software security practices. Traditionally, Threat Modeling is an intensive process, relying on experts to identify and evaluate risks within a system, which limits its adoption. The advent of Large Language Models (LLMs) presents an opportunity to automate this process. However, the successful application of these models in Threat Modeling requires careful prompt engineering and a rigorous strategy to assess the generated threat scenarios. The project investigates this applicability, centering on a case study involving the Institute of Science and Innovation in Mechanical and Industrial Engineering (INEGI) SUNDIAL application. Using STRIDE GPT as the tool for threat models generation, four prompting techniques were studied and applied: STRIDE GPT’s Initial Prompt, Chain of Thought (CoT), Negative-Only Few-Shot, and the combined NO-Few-Shot-CoT, across three LLMs. A Threat Model Evaluation Tool, TMEval, is proposed to enable focused comparison of identified STRIDE threats by LLMs against those in the ground truth for a specific application, employing four metrics: BLEU, ROUGE, BERTScore, and LLM-as-a-Judge. The emphasis is on the LLM-as-a-Judge approach across five dimensions: consistency, plausibility, and coverage of targets, weaknesses, and attack vectors. The results show that any LLM with a specific prompting strategy does not produce scenarios consistent with the ground truth across all threat categories, suggesting that performance depends on the category and the application context provided. For the case study, the NOFew- Shot-CoT prompting approach demonstrated the highest effectiveness across most categories.

À medida que os ciberataques se tornam mais frequentes, a Modelação de Ameaças emergiu como um componente essencial das práticas de segurança de software. Tradicionalmente, a modelação de ameaças é um processo intensivo, dependente de especialistas para identificar e avaliar os riscos de um sistema, o que limita a sua adoção. O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) apresenta uma oportunidade para automatizar este processo. No entanto, a aplicação bem-sucedida destes modelos na modelação de ameaças exige uma engenharia de prompts cuidadosa e uma estratégia rigorosa para avaliar os cenários de ameaça gerados. Este projeto investiga essa aplicabilidade, centrando-se num estudo de caso que envolve a aplicação SUNDIAL do Instituto de Ciência e Inovação em Engenharia Mecânica e Engenharia Industrial (INEGI). Utilizando o STRIDE GPT como ferramenta para a geração dos modelos de ameaça, foram estudadas e aplicadas quatro técnicas de prompting: o Prompt Inicial do STRIDE GPT, Chain-of-Thought (CoT), Negative-Only Few-Shot e a combinação NO-Few-Shot-CoT, em três LLMs distintos. É proposta uma ferramenta de avaliação de modelos de ameaça, a TMEval, que permite a comparação focada entre as ameaças STRIDE identificadas pelos LLMs e aquelas presentes no ground truth de uma aplicação específica, recorrendo a quatro métricas: BLEU, ROUGE, BERTScore e LLM-as-a-Judge. A ênfase recai sobre a abordagem LLM-as-a-Judge, avaliada em cinco dimensões: consistência, plausibilidade e cobertura de alvos, vulnerabilidades e vetores de ataque. Os resultados demonstram que nenhum LLM com uma estratégia de prompting específica produz cenários consistentes com o ground truth em todas as categorias de ameaça, sugerindo que o desempenho depende da categoria e do contexto da aplicação fornecido. No estudo de caso, a abordagem NO-Few-Shot-CoT revelou a maior eficácia na maioria das categorias.