Claude Mythos supera GPT-5.5 em exploits reais do Chrome no benchmark ExploitBench
Bugcrowd revela primeiros resultados do ExploitBench: Mythos atinge 9,90/16 e 50% de sucesso em 1-days do Chrome, contra 5,51 do GPT-5.5. Encurta a janela entre disclosure e exploração ativa.
O Claude Mythos, modelo da Anthropic, superou o GPT-5.5 da OpenAI em exploração real de vulnerabilidades do Google Chrome no primeiro benchmark independente desse tipo, o ExploitBench, apresentado pela Bugcrowd na Infosecurity Europe 2026. Em testes contra o motor V8, Mythos obteve média de 9,90/16 e atingiu o nível máximo em 21 de 41 vulnerabilidades, contra apenas 2 do GPT-5.5. Em vulnerabilidades de 1-day, o modelo da Anthropic teve sucesso em cerca de 50% das tentativas — atividade que Google pagaria até US$ 10 mil em programa de bug bounty.
O que aconteceu
Na Infosecurity Europe 2026, a Bugcrowd divulgou os primeiros resultados do ExploitBench, benchmark independente lançado em maio em colaboração com pesquisadores da Carnegie Mellon University e especialistas em vulnerabilidades do Chrome. A iniciativa busca responder uma pergunta que vinha em aberto: modelos de IA não apenas encontram bugs, mas conseguem encadear esses achados em exploits funcionais?
David Brumley, chief AI & science officer da Bugcrowd, definiu o ExploitBench como “o primeiro benchmark independente que mede o que modelos de IA podem efetivamente fazer com uma vulnerabilidade, não apenas identificá-la, mas explorá-la passo a passo”. A Anthropic foi uma das primeiras empresas a engajar com a metodologia, e os resultados iniciais colocaram o Claude Mythos significativamente à frente do GPT-5.5 da OpenAI.
O alvo escolhido é o V8, motor JavaScript e WebAssembly que sustenta Chrome, Microsoft Edge, Node.js e Cloudflare Workers — uma das peças mais auditadas da pilha de software moderna. Encontrar e explorar bugs no V8 é considerado atividade de elite no mundo da pesquisa ofensiva e tradicionalmente exige meses de trabalho humano especializado.
Como o benchmark funciona
Diferentemente de testes anteriores, que se limitavam a um veredito binário “crashou ou não crashou”, o ExploitBench mede progresso por cinco níveis de capacidade até a execução arbitrária de código em uma build vulnerável do V8. A pontuação é cumulativa e granular, permitindo distinguir um modelo que apenas dispara o bug de outro que conduz toda a cadeia até controle pleno do processo.
Nos testes apresentados, o Mythos — com pequenas dicas humanas pontuais, descritas como “nudges” — alcançou média de 9,90 em uma escala de 16, atingindo o topo da escala em 21 das 41 vulnerabilidades testadas. O GPT-5.5 ficou em 5,51 de média e chegou ao nível máximo em apenas 2 casos. Para vulnerabilidades 1-day em Chrome, Mythos teve aproximadamente 50% de taxa de sucesso, o que segundo Brumley equivale a “atividade de tier lead”, capaz de gerar pagamentos de bug bounty de até US$ 10 mil por achado.
“Nós medimos não apenas crash ou não crash, mas estágios de exploração. Essa distinção é crítica porque modelos capazes de explorar zero-days de forma confiável reduzem a barreira para que atores de ameaça transformem vulnerabilidades em armas.”
David Brumley, chief AI & science officer da Bugcrowd
Riscos e implicações
Os principais impactos identificados pelos pesquisadores:
- Redução drástica do custo e do tempo necessários para transformar um bug conhecido em exploit funcional
- Aceleração das janelas entre divulgação de vulnerabilidade e exploração ativa em campanhas reais
- Democratização do desenvolvimento de exploits — qualquer atacante com acesso ao modelo passa a contar com capacidades antes restritas a pesquisadores de elite
- Pressão adicional sobre programas de bug bounty e processos de divulgação coordenada
- Potencial uso em red teams ofensivos e na automação de bug hunting defensivo
- Risco de uso indevido por grupos APT e cibercriminosos com poucos recursos próprios de pesquisa
O CEO da Bugcrowd, Dave Gerry, reforçou que automação e IA já estão sendo incorporadas a workflows de atacantes, aumentando o ritmo com que falhas descobertas se transformam em exploits ativos. Esse cenário pressiona os defensores a encurtar ainda mais seus ciclos de patching e detecção.
Análise
O resultado do ExploitBench é o primeiro dado empírico, fora de demonstrações isoladas, sobre o que os modelos de fronteira já conseguem fazer no contexto ofensivo. E os números são significativos. Atingir 50% de sucesso em 1-days de Chrome equivale, na prática, a colocar um pesquisador júnior-sênior trabalhando 24/7, sem custo marginal por tentativa. O choque competitivo é real: o que antes exigia uma equipe pequena de especialistas pode agora ser delegado a uma instância de modelo.
Há, porém, contraponto importante. Michael Price, VP de engenharia da VulnCheck, lembrou — citando avaliação do UK AI Security Institute sobre o Mythos — que o avanço mais relevante não está propriamente na exploração, mas no planejamento: a capacidade de elaborar planos passo a passo, replanejar quando uma rota falha e executar ações em múltiplas etapas. Em suas palavras, os modelos “estão melhorando, mas ainda não são tão bons assim”, com ganhos estimados em 1% por mês ou trimestre — projetando capacidade comparável à humana só em dois a quatro anos.
Brumley também alertou para risco de extrapolação: o V8 é alvo extremo, com superfícies bem mapeadas e ferramental disponível. Não há garantia de que os mesmos modelos teriam desempenho similar contra uma aplicação web personalizada, um SCADA ou um firmware embarcado. Ainda assim, o sinal é claro — o uso ofensivo de IA deixou o domínio do hype e entrou no domínio mensurável. Para a comunidade defensiva, isso muda a equação de risco em torno de qualquer vulnerabilidade de alto impacto: o tempo entre disclosure e exploração tende a se comprimir.
Recomendações práticas
- Reduza drasticamente o tempo de patching para vulnerabilidades de browser, V8 e bibliotecas JavaScript em fila de exposição
- Acompanhe o ExploitBench e benchmarks similares como indicador antecedente de risco para sua pilha tecnológica
- Integre análise de exploitabilidade assistida por IA aos seus próprios processos de vulnerability management — defensores também podem usar a tecnologia
- Revise SLAs internos para 1-days críticos: a janela operacional segura pode ter encolhido para horas, não dias
- Reforce defesa em profundidade no endpoint: EDR, exploit mitigation, isolamento de browser e sandboxing
- Considere programas de red team que avaliem o uso de IA por parte dos atacantes simulados
- Atualize threat models para incluir cenários onde adversários têm acesso assistido a desenvolvimento de exploits
- Acompanhe a evolução das políticas de uso aceitável e dos guardrails dos provedores de modelos de fronteira
Fonte: Infosecurity Magazine