Automated vulnerability detection in source code

Batista, Arthur Quintino

Publicação

Automated vulnerability detection in source code

2023Dissertação de mestrado

dc.contributor.advisor	Pereira, Isabel Cecília Correia da Silva Praça Gomes
dc.contributor.author	Batista, Arthur Quintino
dc.date.accessioned	2023-11-09T12:03:26Z
dc.date.available	2023-11-09T12:03:26Z
dc.date.issued	2023
dc.description.abstract	Technological advances have facilitated instant global connectivity, transforming the way we interact with the world. Software, propelled by this evolution, plays a pivotal role in our daily lives, being present in virtually every facet of our existence. Programmers, who form the bedrock of the business structure, create source code comprising hundreds or even thousands of lines, encompassing essential functionalities for software to operate seamlessly. However, owing to the inherent complexity of these functionalities and their interdependencies, it is common for errors to escape notice in the code, inadvertently reaching the software production phase and resulting in code vulnerabilities Each year, the number ofidentified software vulnerabilities, either publicly disclosed or discovered internally, increases. These vulnerabilities pose a significant risk of exploitation, potentially leading to data breaches or service interruptions. Therefore, the goal of this project is to develop a tool capable of analyzing code written in C and C++ to detect vulnerabilities before the code is deployed to end users. To achieve this goal, we leveraged existing work in this area by using a dataset of open-source functions written in C and C++. This dataset contains approximately 1.27 million functions categorized into five different Common Weakness Enumerations (CWEs). Preprocessing was performed to optimize the performance of the models used. The models were trained on function snippets only, without considering any external context of the code, thus simplifying the problem and increasing processing efficiency. The results obtained are promising, with the trained models showing high performance in identifying and classifying vulnerabilities. In addition, these results can serve as a benchmark for direct comparisons between different approaches.	pt_PT
dc.description.abstract	O avanço tecnológico permitiu uma conexão global instantânea, transformando a maneira como interagimos com o mundo. Os softwares, impulsionados por essa evolução, desempenham um papel crucial em nosso cotidiano, estando presentes em praticamente todos os aspectos de nossas vidas. Os programadores, fundamentais na estrutura empresarial, desenvolvem o código-fonte composto por centenas ou até milhares de linhas, incorporando as funcionalidades essenciais para o pleno funcionamento dos softwares. No entanto, devido à complexidade intrínseca dessas funcionalidades e suas interdependências, é comum que erros passem despercebidos no código, chegando inadvertidamente à fase de produção do software e resultando em vulnerabilidades de código. Anualmente, observa-se um aumento no número de vulnerabilidades de software que são identificadas e divulgadas publicamente ou descobertas internamente. Essas vulnerabilidades representam um sério risco e podem resultar em fuga de informações ou interrupção de serviços. Assim, este projeto visa desenvolver uma ferramenta capaz de analisar o código escrito em C e C++ para identificar vulnerabilidades antes que esse código chegue ao consumidor final. Para alcançar esse objetivo, utilizamos como ponto de partida diversos trabalhos já realizados nessa área, fazendo uso de um conjunto de dados contendo funções de código aberto escritas em C e C++. Esse conjunto de dados engloba cerca de 1.27 milhões de funções categorizadas por cinco diferentes Common Weakness Enumerations (CWEs). Realizamos um pré-processamento para otimizar o desempenho dos modelos utilizados. Os modelos foram treinados apenas em trechos de funções, sem considerar qualquer contexto externo sobre o código, simplificando assim o problema e melhorando a eficiência do processamento. Os resultados obtidos são promissores, pois os modelos treinados foram capazes de identificar e classificar as vulnerabilidades com alto desempenho, estes resultados podem também servir como base para comparação direta entre diferentes abordagens.	pt_PT
dc.identifier.tid	203380290	pt_PT
dc.identifier.uri	http://hdl.handle.net/10400.22/23876
dc.language.iso	eng	pt_PT
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	pt_PT
dc.subject	Vulnerability Detection	pt_PT
dc.subject	Machine Learning	pt_PT
dc.subject	Binary Classification	pt_PT
dc.subject	Multi-Label Classification	pt_PT
dc.subject	Neural Network	pt_PT
dc.subject	Source-Code	pt_PT
dc.subject	Data Processing	pt_PT
dc.subject	Computer Security	pt_PT
dc.subject	CWE	pt_PT
dc.subject	Deteção de Vulnerabilidades	pt_PT
dc.subject	Classificação Binária	pt_PT
dc.subject	Classificação Multi-Etiqueta	pt_PT
dc.subject	Rede Neural	pt_PT
dc.subject	Código-Fonte	pt_PT
dc.subject	Processamento de Dados	pt_PT
dc.subject	Segurança Informática	pt_PT
dc.title	Automated vulnerability detection in source code	pt_PT
dc.type	master thesis
dspace.entity.type	Publication
rcaap.rights	openAccess	pt_PT
rcaap.type	masterThesis	pt_PT
thesis.degree.name	Mestrado em Engenharia Eletrotécnica e de Computadores - Sistemas Autónomos	pt_PT

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: DM_ArthurBatista_2023_MEEC.pdf
Tamanho:: 5.16 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

ISEP - DM – Engenharia Electrotécnica e de Computadores