Claude Mythos supera GPT-5.5 em exploits reais do Chrome no benchmark ExploitBench

O Claude Mythos, modelo da Anthropic, superou o GPT-5.5 da OpenAI em exploração real de vulnerabilidades do Google Chrome no primeiro benchmark independente desse tipo, o ExploitBench, apresentado pela Bugcrowd na Infosecurity Europe 2026. Em testes contra o motor V8, Mythos obteve média de 9,90/16 e atingiu o nível máximo em 21 de 41 vulnerabilidades, contra apenas 2 do GPT-5.5. Em vulnerabilidades de 1-day, o modelo da Anthropic teve sucesso em cerca de 50% das tentativas — atividade que Google pagaria até US$ 10 mil em programa de bug bounty.

O que aconteceu

Na Infosecurity Europe 2026, a Bugcrowd divulgou os primeiros resultados do ExploitBench, benchmark independente lançado em maio em colaboração com pesquisadores da Carnegie Mellon University e especialistas em vulnerabilidades do Chrome. A iniciativa busca responder uma pergunta que vinha em aberto: modelos de IA não apenas encontram bugs, mas conseguem encadear esses achados em exploits funcionais?

David Brumley, chief AI & science officer da Bugcrowd, definiu o ExploitBench como “o primeiro benchmark independente que mede o que modelos de IA podem efetivamente fazer com uma vulnerabilidade, não apenas identificá-la, mas explorá-la passo a passo”. A Anthropic foi uma das primeiras empresas a engajar com a metodologia, e os resultados iniciais colocaram o Claude Mythos significativamente à frente do GPT-5.5 da OpenAI.

O alvo escolhido é o V8, motor JavaScript e WebAssembly que sustenta Chrome, Microsoft Edge, Node.js e Cloudflare Workers — uma das peças mais auditadas da pilha de software moderna. Encontrar e explorar bugs no V8 é considerado atividade de elite no mundo da pesquisa ofensiva e tradicionalmente exige meses de trabalho humano especializado.

Como o benchmark funciona

Diferentemente de testes anteriores, que se limitavam a um veredito binário “crashou ou não crashou”, o ExploitBench mede progresso por cinco níveis de capacidade até a execução arbitrária de código em uma build vulnerável do V8. A pontuação é cumulativa e granular, permitindo distinguir um modelo que apenas dispara o bug de outro que conduz toda a cadeia até controle pleno do processo.

Nos testes apresentados, o Mythos — com pequenas dicas humanas pontuais, descritas como “nudges” — alcançou média de 9,90 em uma escala de 16, atingindo o topo da escala em 21 das 41 vulnerabilidades testadas. O GPT-5.5 ficou em 5,51 de média e chegou ao nível máximo em apenas 2 casos. Para vulnerabilidades 1-day em Chrome, Mythos teve aproximadamente 50% de taxa de sucesso, o que segundo Brumley equivale a “atividade de tier lead”, capaz de gerar pagamentos de bug bounty de até US$ 10 mil por achado.

“Nós medimos não apenas crash ou não crash, mas estágios de exploração. Essa distinção é crítica porque modelos capazes de explorar zero-days de forma confiável reduzem a barreira para que atores de ameaça transformem vulnerabilidades em armas.”

David Brumley, chief AI & science officer da Bugcrowd

Riscos e implicações

Os principais impactos identificados pelos pesquisadores:

  • Redução drástica do custo e do tempo necessários para transformar um bug conhecido em exploit funcional
  • Aceleração das janelas entre divulgação de vulnerabilidade e exploração ativa em campanhas reais
  • Democratização do desenvolvimento de exploits — qualquer atacante com acesso ao modelo passa a contar com capacidades antes restritas a pesquisadores de elite
  • Pressão adicional sobre programas de bug bounty e processos de divulgação coordenada
  • Potencial uso em red teams ofensivos e na automação de bug hunting defensivo
  • Risco de uso indevido por grupos APT e cibercriminosos com poucos recursos próprios de pesquisa

O CEO da Bugcrowd, Dave Gerry, reforçou que automação e IA já estão sendo incorporadas a workflows de atacantes, aumentando o ritmo com que falhas descobertas se transformam em exploits ativos. Esse cenário pressiona os defensores a encurtar ainda mais seus ciclos de patching e detecção.

Análise

O resultado do ExploitBench é o primeiro dado empírico, fora de demonstrações isoladas, sobre o que os modelos de fronteira já conseguem fazer no contexto ofensivo. E os números são significativos. Atingir 50% de sucesso em 1-days de Chrome equivale, na prática, a colocar um pesquisador júnior-sênior trabalhando 24/7, sem custo marginal por tentativa. O choque competitivo é real: o que antes exigia uma equipe pequena de especialistas pode agora ser delegado a uma instância de modelo.

Há, porém, contraponto importante. Michael Price, VP de engenharia da VulnCheck, lembrou — citando avaliação do UK AI Security Institute sobre o Mythos — que o avanço mais relevante não está propriamente na exploração, mas no planejamento: a capacidade de elaborar planos passo a passo, replanejar quando uma rota falha e executar ações em múltiplas etapas. Em suas palavras, os modelos “estão melhorando, mas ainda não são tão bons assim”, com ganhos estimados em 1% por mês ou trimestre — projetando capacidade comparável à humana só em dois a quatro anos.

Brumley também alertou para risco de extrapolação: o V8 é alvo extremo, com superfícies bem mapeadas e ferramental disponível. Não há garantia de que os mesmos modelos teriam desempenho similar contra uma aplicação web personalizada, um SCADA ou um firmware embarcado. Ainda assim, o sinal é claro — o uso ofensivo de IA deixou o domínio do hype e entrou no domínio mensurável. Para a comunidade defensiva, isso muda a equação de risco em torno de qualquer vulnerabilidade de alto impacto: o tempo entre disclosure e exploração tende a se comprimir.

Recomendações práticas

  • Reduza drasticamente o tempo de patching para vulnerabilidades de browser, V8 e bibliotecas JavaScript em fila de exposição
  • Acompanhe o ExploitBench e benchmarks similares como indicador antecedente de risco para sua pilha tecnológica
  • Integre análise de exploitabilidade assistida por IA aos seus próprios processos de vulnerability management — defensores também podem usar a tecnologia
  • Revise SLAs internos para 1-days críticos: a janela operacional segura pode ter encolhido para horas, não dias
  • Reforce defesa em profundidade no endpoint: EDR, exploit mitigation, isolamento de browser e sandboxing
  • Considere programas de red team que avaliem o uso de IA por parte dos atacantes simulados
  • Atualize threat models para incluir cenários onde adversários têm acesso assistido a desenvolvimento de exploits
  • Acompanhe a evolução das políticas de uso aceitável e dos guardrails dos provedores de modelos de fronteira

Fonte: Infosecurity Magazine

TheNinja

Recent Posts

Cisco corrige CVE-2026-20230 no Unified CM com PoC público em circulação

Falha SSRF no Cisco Unified CM (CVSS 8.6) permite escalar para root remotamente sem autenticação.…

5 horas ago

TA4922: grupo chinês mira Reino Unido, Alemanha, Itália e África do Sul em ritmo recorde

Proofpoint expõe operação do TA4922, com ValleyRAT, Atlas RAT e os loaders inéditos RomulusLoader e…

5 horas ago

Vazamento na IMA Diligence Services expõe dados de 525 mil pessoas; Genesis ransomware reivindica 700 GB

IMA Diligence Services notifica 525.306 pessoas após vazamento em servidor legado gerido por terceiro. Genesis…

1 dia ago

FSB acusa serviços estrangeiros de operação de spyware contra autoridades russas — sem evidências técnicas

FSB diz ter descoberto operação de larga escala de espionagem com spyware em telefones de…

1 dia ago

Ataque de um clique no GitHub.dev rouba tokens OAuth com acesso total a repositórios

Pesquisador divulga falha de um clique no GitHub.dev que rouba tokens OAuth com permissão de…

1 dia ago

Malware em 1.980 sites WordPress usa Steam Community como C2 com esteganografia em Unicode

GoDaddy identifica 1.980 sites WordPress comprometidos por malware que esconde C2 em comentários de perfis…

2 dias ago