Categories: NOTÍCIAS EM GERAL

Acadêmicos desenvolvem benchmark de testes para LLMs em inteligência de ameaças cibernéticas

ma equipe de pesquisadores do Instituto de Tecnologia de Rochester (RIT) lançou o CTIBench, o primeiro benchmark projetado para avaliar o desempenho de LLMs em aplicações de inteligência contra ameaças cibernéticas.

“Os LLMs têm o potencial de revolucionar o campo de CTI ao aprimorar a capacidade de processar e analisar grandes quantidades de dados não estruturados de ameaças e ataques, permitindo que analistas de segurança utilizem mais fontes de inteligência do que nunca”, escreveram os pesquisadores.

“No entanto, [eles] são propensos a alucinações e mal-entendidos de texto, especialmente em domínios técnicos específicos, que podem levar à falta de veracidade do modelo. Isso exige a consideração cuidadosa do uso de LLMs em CTI, pois suas limitações podem levá-los a produzir inteligência falsa ou não confiável, o que pode ser desastroso se usado para lidar com ameaças cibernéticas reais.”

Embora já existam benchmarks de LLM no mercado, eles são muito genéricos (GLUE, SuperGLUE, MMLU, HELM) para medir objetivamente as aplicações de segurança cibernética ou muito específicos (SECURE, Purple Llama CyberSecEval, SecLLMHolmes, SevenLLM) para aplicar a inteligência de ameaças cibernéticas.

Essa falta de benchmark ad-hoc de LLM para aplicações CTI levou os pesquisadores do RIT a desenvolver o CTIBench.

O que é CTIBench?

Os pesquisadores descreveram o CTIBench como “um novo conjunto de tarefas de benchmark e conjuntos de dados para avaliar LLMs em inteligência de ameaças cibernéticas”.

O produto final é composto por quatro blocos de construção:

  • Perguntas de múltipla escolha sobre inteligência contra ameaças cibernéticas (CTI-MCQ)
  • Mapeamento de causa raiz de inteligência de ameaças cibernéticas (CTI-RCM)
  • Previsão de gravidade de vulnerabilidade de inteligência de ameaças cibernéticas (CTI-VSP)
  • Atribuição de Atores de Ameaças de Inteligência de Ameaças Cibernéticas (CTI-TAA)

Criando perguntas de múltipla escolha usando GPT-4

O primeiro passo no processo de desenvolvimento do CTIBench consistiu na criação de uma base de dados de avaliação de conhecimento.

Para criar este banco de dados, os pesquisadores coletaram dados de uma série de fontes autorizadas dentro do CTI, como as estruturas cibernéticas do Instituto Nacional de Padrões e Tecnologia dos EUA (NIST), o modelo Diamond de detecção de intrusão e regulamentos como o Regulamento Geral Europeu de Proteção de Dados ( GDPR).

Este banco de dados de conhecimento ajudou-os a criar questões de múltipla escolha para avaliar a compreensão dos LLMs sobre padrões de CTI, ameaças, estratégias de detecção, planos de mitigação e melhores práticas.

Os pesquisadores formularam perguntas usando padrões CTI como STIX e TAXII , frameworks CTI como MITRE ATT&CK e Common Attack Pattern Enumerations and Classifications (CAPEC), e o banco de dados common weakness enumeration (CWE).

Eles então geraram a lista final de perguntas de múltipla escolha usando GPT-4 e a avaliaram e validaram manualmente.

O conjunto de dados final consiste em 2.500 perguntas, das quais 1.578 foram coletadas do MITRE, 750 do CWE, 40 da coleta manual e 32 de padrões e estruturas.

Mapeamento de causa raiz, previsão e atribuição de gravidade de vulnerabilidade

Com o CTIBench , os pesquisadores propuseram duas tarefas práticas de CTI que avaliam o raciocínio e as habilidades de resolução de problemas dos LLMs:

  • Mapeamento de descrições de vulnerabilidades e exposições comuns (CVE) para categorias CWE comuns (ou seja, CTI-RCM)
  • Cálculo da gravidade das vulnerabilidades usando pontuações do sistema de pontuação de vulnerabilidade comum (CVSS) (ou seja, CTI-VSP)

Por fim, eles forneceram uma ferramenta solicitando ao LLM que analisasse relatórios de ameaças disponíveis publicamente e os atribuísse a agentes de ameaças específicos ou famílias de malware (ou seja, CTI-TAA).

Visão geral do CTIBench. Fonte: Instituto de Tecnologia de Rochester via arXiv

ChatGPT 4 LLM de melhor desempenho testado com CTIBench

Eles testaram cinco LLMs de uso geral diferentes usando o CTIBench: ChatGPT 3.5, ChatGPT 4, Gemini 1.5, Llama 3-70B e Llama 3-8B.

O ChatGPT 4 recebeu os melhores resultados para todas as tarefas, exceto previsão de gravidade de vulnerabilidade (CTI-VSP), para a qual o Gemini 1.5 foi o modelo de melhor desempenho.

Apesar de ser de código aberto, o LLAMA3-70B tem desempenho comparável ao Gemini-1.5 e até o supera em duas tarefas, embora tenha dificuldades na tarefa CTI-VSP.

“Através do CTIBench, fornecemos à comunidade de investigação uma ferramenta robusta para acelerar a resposta a incidentes, automatizando a triagem e análise de alertas de segurança, permitindo-lhes concentrar-se em ameaças críticas e reduzindo o tempo de resposta”, concluíram os investigadores.

Ninja

Na cena de cybersecurity a mais de 25 anos, Ninja trabalha como evangelizador de segurança da informação no Brasil. Preocupado com a conscientização de segurança cibernética, a ideia inicial é conseguir expor um pouco para o publico Brasileiro do que acontece no mundo.

Recent Posts

Cisco Catalyst SD-WAN: zero-day CVE-2026-20245 já era explorado meses antes da divulgação, revela Mandiant

Investigação do Mandiant mostra que um operador desconhecido encadeou três zero-days em controladores Cisco Catalyst…

16 horas ago

TinyRCT: backdoor inédita de grupo chinês atinge infraestrutura crítica no Sudeste Asiático

A Unit 42 documenta o cluster CL-STA-1062 (atribuído a UAT-7237 pelo Cisco Talos) e o…

22 horas ago

Mirage2FA: kit de phishing usa HTML smuggling para sequestrar contas Microsoft 365 e burlar MFA

Pesquisadores da Fortra detalham o Mirage2FA, um kit de phishing que combina anexos HTML ofuscados…

22 horas ago

Exploit pedit COW (CVE-2026-46331): falha no kernel Linux libera root local envenenando o page cache

CVE-2026-46331, batizada de pedit COW, permite que um usuário sem privilégios obtenha root no Linux…

22 horas ago

WhatsApp passa a exibir tela de aviso antes de conversas com números desconhecidos

Nova proteção do Meta mostra país de origem do contato, status na agenda e grupos…

2 dias ago

Microsoft e Europol derrubam infraestrutura de StealC, Amadey e SocGholish em operação que tirou 326 servidores do ar

Operação coordenada por duas semanas desmantelou 142 domínios, recuperou 27 milhões de credenciais roubadas e…

2 dias ago