Name: | Description: | Size: | Format: | |
---|---|---|---|---|
5.7 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
As cyberattacks become more frequent, Threat Modeling has emerged as an essential component
of software security practices. Traditionally, Threat Modeling is an intensive process,
relying on experts to identify and evaluate risks within a system, which limits its adoption.
The advent of Large Language Models (LLMs) presents an opportunity to automate this
process. However, the successful application of these models in Threat Modeling requires
careful prompt engineering and a rigorous strategy to assess the generated threat scenarios.
The project investigates this applicability, centering on a case study involving the Institute
of Science and Innovation in Mechanical and Industrial Engineering (INEGI) SUNDIAL
application. Using STRIDE GPT as the tool for threat models generation, four prompting
techniques were studied and applied: STRIDE GPT’s Initial Prompt, Chain of Thought
(CoT), Negative-Only Few-Shot, and the combined NO-Few-Shot-CoT, across three LLMs.
A Threat Model Evaluation Tool, TMEval, is proposed to enable focused comparison of identified
STRIDE threats by LLMs against those in the ground truth for a specific application,
employing four metrics: BLEU, ROUGE, BERTScore, and LLM-as-a-Judge. The emphasis
is on the LLM-as-a-Judge approach across five dimensions: consistency, plausibility, and
coverage of targets, weaknesses, and attack vectors.
The results show that any LLM with a specific prompting strategy does not produce scenarios
consistent with the ground truth across all threat categories, suggesting that performance
depends on the category and the application context provided. For the case study, the NOFew-
Shot-CoT prompting approach demonstrated the highest effectiveness across most
categories.
À medida que os ciberataques se tornam mais frequentes, a Modelação de Ameaças emergiu como um componente essencial das práticas de segurança de software. Tradicionalmente, a modelação de ameaças é um processo intensivo, dependente de especialistas para identificar e avaliar os riscos de um sistema, o que limita a sua adoção. O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) apresenta uma oportunidade para automatizar este processo. No entanto, a aplicação bem-sucedida destes modelos na modelação de ameaças exige uma engenharia de prompts cuidadosa e uma estratégia rigorosa para avaliar os cenários de ameaça gerados. Este projeto investiga essa aplicabilidade, centrando-se num estudo de caso que envolve a aplicação SUNDIAL do Instituto de Ciência e Inovação em Engenharia Mecânica e Engenharia Industrial (INEGI). Utilizando o STRIDE GPT como ferramenta para a geração dos modelos de ameaça, foram estudadas e aplicadas quatro técnicas de prompting: o Prompt Inicial do STRIDE GPT, Chain-of-Thought (CoT), Negative-Only Few-Shot e a combinação NO-Few-Shot-CoT, em três LLMs distintos. É proposta uma ferramenta de avaliação de modelos de ameaça, a TMEval, que permite a comparação focada entre as ameaças STRIDE identificadas pelos LLMs e aquelas presentes no ground truth de uma aplicação específica, recorrendo a quatro métricas: BLEU, ROUGE, BERTScore e LLM-as-a-Judge. A ênfase recai sobre a abordagem LLM-as-a-Judge, avaliada em cinco dimensões: consistência, plausibilidade e cobertura de alvos, vulnerabilidades e vetores de ataque. Os resultados demonstram que nenhum LLM com uma estratégia de prompting específica produz cenários consistentes com o ground truth em todas as categorias de ameaça, sugerindo que o desempenho depende da categoria e do contexto da aplicação fornecido. No estudo de caso, a abordagem NO-Few-Shot-CoT revelou a maior eficácia na maioria das categorias.
À medida que os ciberataques se tornam mais frequentes, a Modelação de Ameaças emergiu como um componente essencial das práticas de segurança de software. Tradicionalmente, a modelação de ameaças é um processo intensivo, dependente de especialistas para identificar e avaliar os riscos de um sistema, o que limita a sua adoção. O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) apresenta uma oportunidade para automatizar este processo. No entanto, a aplicação bem-sucedida destes modelos na modelação de ameaças exige uma engenharia de prompts cuidadosa e uma estratégia rigorosa para avaliar os cenários de ameaça gerados. Este projeto investiga essa aplicabilidade, centrando-se num estudo de caso que envolve a aplicação SUNDIAL do Instituto de Ciência e Inovação em Engenharia Mecânica e Engenharia Industrial (INEGI). Utilizando o STRIDE GPT como ferramenta para a geração dos modelos de ameaça, foram estudadas e aplicadas quatro técnicas de prompting: o Prompt Inicial do STRIDE GPT, Chain-of-Thought (CoT), Negative-Only Few-Shot e a combinação NO-Few-Shot-CoT, em três LLMs distintos. É proposta uma ferramenta de avaliação de modelos de ameaça, a TMEval, que permite a comparação focada entre as ameaças STRIDE identificadas pelos LLMs e aquelas presentes no ground truth de uma aplicação específica, recorrendo a quatro métricas: BLEU, ROUGE, BERTScore e LLM-as-a-Judge. A ênfase recai sobre a abordagem LLM-as-a-Judge, avaliada em cinco dimensões: consistência, plausibilidade e cobertura de alvos, vulnerabilidades e vetores de ataque. Os resultados demonstram que nenhum LLM com uma estratégia de prompting específica produz cenários consistentes com o ground truth em todas as categorias de ameaça, sugerindo que o desempenho depende da categoria e do contexto da aplicação fornecido. No estudo de caso, a abordagem NO-Few-Shot-CoT revelou a maior eficácia na maioria das categorias.
Description
Keywords
Threat Modeling Prompt Engineering STRIDE Artificial Intelligence Large Language Models LLM-as-a-Judge