Bridging AI and cybersecurity: Assessing open-source large language models for software vulnerability detection

Lopes, Diogo Gaspar

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10071/36954

Autoria:	Lopes, Diogo Gaspar
Orientação:	Albuquerque, Maria Cabral Diogo Pinto Gasiba, Tiago José Espinha de Mendonça
Data:	28-Nov-2025
Título próprio:	Bridging AI and cybersecurity: Assessing open-source large language models for software vulnerability detection
Referência bibliográfica:	Lopes, D. G. (2025). Bridging AI and cybersecurity: Assessing open-source large language models for software vulnerability detection [Dissertação de mestrado, Iscte - Instituto Universitário de Lisboa]. Repositório Iscte. http://hdl.handle.net/10071/36954
Palavras-chave:	Cibersegurança Modelos de linguagem -- Language models Deteção de vulnerabilidades no software DeepSeek Llama Codestral Cybersecurity Software vulnerability detection
Resumo:	Esta dissertação investiga o potencial dos Grandes Modelos de Linguagem ("Large Language Models", LLMs) de código aberto para a deteção e classificação automáticas de vulnerabilidades em software, comparando o seu desempenho com ferramentas tradicionais de "Static Application Security Testing" (SAST). O estudo avalia se os modelos "Llama3 70B", "Codestral 2501" e "DeepSeek R1" conseguem identificar e categorizar vulnerabilidades em código-fonte de forma eficaz, e como os seus resultados se comparam com os das ferramentas "Semgrep" e "Flawfinder". A metodologia experimental incluiu dois testes: "Binary Detection", detetar a presença de uma vulnerabilidade, e"Specific Detection", ter a capacidade de classificá-la. Assim, foi utilizado um subconjunto obtido da coleção de dados "Big-Vul", alinhado com as categorias de vulnerabilidades "Common Weakness Enumeration" (CWE). Foi ainda realizada uma análise de custo-eficiência que avaliou as implicações computacionais da utilização destes modelos em fluxos de trabalho de cibersegurança. Os resultados demonstram que as "LLMs" atingiram elevada precisão na "Binary Detection", acima de 80%, evidenciando fortes capacidades de reconhecimento de padrões. Contudo, obtiveram-se elevadas taxas de falsos positivos e baixa consistência na classificação por "CWE", com resultados próximos de 16% de precisão. Conclui-se que, embora estas "LLMs" apresentem potencial como ferramentas auxiliares para triagem de vulnerabilidades e revisão de código, ainda não demonstram maturidade suficiente para uso autónomo em pipelines sensíveis à segurança. Este estudo contribui com dados empíricos e perceções práticas que podem apoiar a investigação e a adoção industrial da deteção de vulnerabilidades assistida por IA. This dissertation investigates the potential of open-source Large Language Models (LLMs) for automated software vulnerability detection and classification, contrasting their performance with traditional Static Application Security Testing (SAST) tools. The study aims to assess whether models such as Llama3 70B, Codestral 2501, and DeepSeek R1 can effectively identify and categorise vulnerabilities within source code, and how their results compare to the results of established tools like Semgrep and Flawfinder. The experimental methodology employed two complementary evaluation tests: Binary Detection, the ability to detect the presence of a vulnerability, and Specific Detection, the ability to classify it. To this end, using a curated subset of the Big-Vul dataset aligned with the Common Weakness Enumeration(CWE). Additionally, a cost-efficiency analysis quantified the computational implications of deploying these models in practical security workflows. Results show that LLMs achieved high accuracy in Binary Detection, with more than 80% across all the models, demonstrating strong pattern-recognition capabilities. However, this performance was accompanied by high false-positive rates and weak consistency in CWE-based classification, averaging only 16% accuracy across models. These findings indicate that while open-source LLMs hold promise as complementary tools for vulnerability triage and code review, they don’t yet appear to be mature enough for stand-alone use in secure sensitive pipelines. The study contributes an empirical benchmark and practical insights to guide both academic research and industrial adoption of AI-assisted vulnerability detection.
Designação do Departamento:	Departamento de Ciências e Tecnologias da Informação
Designação do grau:	Mestrado em Engenharia Informática
Arbitragem científica:	yes
Acesso:	Acesso Restrito
Aparece nas coleções:	T&D-DM - Dissertações de mestrado