Claude Mythos supera GPT-5.5 em exploits reais do Chrome no benchmark ExploitBench

O Claude Mythos, modelo da Anthropic, superou o GPT-5.5 da OpenAI em exploração real de vulnerabilidades do Google Chrome no primeiro benchmark independente desse tipo, o ExploitBench, apresentado pela Bugcrowd na Infosecurity Europe 2026. Em testes contra o motor V8, Mythos obteve média de 9,90/16 e atingiu o nível máximo em 21 de 41 vulnerabilidades, contra apenas 2 do GPT-5.5. Em vulnerabilidades de 1-day, o modelo da Anthropic teve sucesso em cerca de 50% das tentativas — atividade que Google pagaria até US$ 10 mil em programa de bug bounty.

O que aconteceu

Na Infosecurity Europe 2026, a Bugcrowd divulgou os primeiros resultados do ExploitBench, benchmark independente lançado em maio em colaboração com pesquisadores da Carnegie Mellon University e especialistas em vulnerabilidades do Chrome. A iniciativa busca responder uma pergunta que vinha em aberto: modelos de IA não apenas encontram bugs, mas conseguem encadear esses achados em exploits funcionais?

David Brumley, chief AI & science officer da Bugcrowd, definiu o ExploitBench como “o primeiro benchmark independente que mede o que modelos de IA podem efetivamente fazer com uma vulnerabilidade, não apenas identificá-la, mas explorá-la passo a passo”. A Anthropic foi uma das primeiras empresas a engajar com a metodologia, e os resultados iniciais colocaram o Claude Mythos significativamente à frente do GPT-5.5 da OpenAI.

O alvo escolhido é o V8, motor JavaScript e WebAssembly que sustenta Chrome, Microsoft Edge, Node.js e Cloudflare Workers — uma das peças mais auditadas da pilha de software moderna. Encontrar e explorar bugs no V8 é considerado atividade de elite no mundo da pesquisa ofensiva e tradicionalmente exige meses de trabalho humano especializado.

Como o benchmark funciona

Diferentemente de testes anteriores, que se limitavam a um veredito binário “crashou ou não crashou”, o ExploitBench mede progresso por cinco níveis de capacidade até a execução arbitrária de código em uma build vulnerável do V8. A pontuação é cumulativa e granular, permitindo distinguir um modelo que apenas dispara o bug de outro que conduz toda a cadeia até controle pleno do processo.

Nos testes apresentados, o Mythos — com pequenas dicas humanas pontuais, descritas como “nudges” — alcançou média de 9,90 em uma escala de 16, atingindo o topo da escala em 21 das 41 vulnerabilidades testadas. O GPT-5.5 ficou em 5,51 de média e chegou ao nível máximo em apenas 2 casos. Para vulnerabilidades 1-day em Chrome, Mythos teve aproximadamente 50% de taxa de sucesso, o que segundo Brumley equivale a “atividade de tier lead”, capaz de gerar pagamentos de bug bounty de até US$ 10 mil por achado.

“Nós medimos não apenas crash ou não crash, mas estágios de exploração. Essa distinção é crítica porque modelos capazes de explorar zero-days de forma confiável reduzem a barreira para que atores de ameaça transformem vulnerabilidades em armas.”
David Brumley, chief AI & science officer da Bugcrowd

Riscos e implicações

Os principais impactos identificados pelos pesquisadores:

Redução drástica do custo e do tempo necessários para transformar um bug conhecido em exploit funcional
Aceleração das janelas entre divulgação de vulnerabilidade e exploração ativa em campanhas reais
Democratização do desenvolvimento de exploits — qualquer atacante com acesso ao modelo passa a contar com capacidades antes restritas a pesquisadores de elite
Pressão adicional sobre programas de bug bounty e processos de divulgação coordenada
Potencial uso em red teams ofensivos e na automação de bug hunting defensivo
Risco de uso indevido por grupos APT e cibercriminosos com poucos recursos próprios de pesquisa

O CEO da Bugcrowd, Dave Gerry, reforçou que automação e IA já estão sendo incorporadas a workflows de atacantes, aumentando o ritmo com que falhas descobertas se transformam em exploits ativos. Esse cenário pressiona os defensores a encurtar ainda mais seus ciclos de patching e detecção.

Análise

O resultado do ExploitBench é o primeiro dado empírico, fora de demonstrações isoladas, sobre o que os modelos de fronteira já conseguem fazer no contexto ofensivo. E os números são significativos. Atingir 50% de sucesso em 1-days de Chrome equivale, na prática, a colocar um pesquisador júnior-sênior trabalhando 24/7, sem custo marginal por tentativa. O choque competitivo é real: o que antes exigia uma equipe pequena de especialistas pode agora ser delegado a uma instância de modelo.

Há, porém, contraponto importante. Michael Price, VP de engenharia da VulnCheck, lembrou — citando avaliação do UK AI Security Institute sobre o Mythos — que o avanço mais relevante não está propriamente na exploração, mas no planejamento: a capacidade de elaborar planos passo a passo, replanejar quando uma rota falha e executar ações em múltiplas etapas. Em suas palavras, os modelos “estão melhorando, mas ainda não são tão bons assim”, com ganhos estimados em 1% por mês ou trimestre — projetando capacidade comparável à humana só em dois a quatro anos.

Brumley também alertou para risco de extrapolação: o V8 é alvo extremo, com superfícies bem mapeadas e ferramental disponível. Não há garantia de que os mesmos modelos teriam desempenho similar contra uma aplicação web personalizada, um SCADA ou um firmware embarcado. Ainda assim, o sinal é claro — o uso ofensivo de IA deixou o domínio do hype e entrou no domínio mensurável. Para a comunidade defensiva, isso muda a equação de risco em torno de qualquer vulnerabilidade de alto impacto: o tempo entre disclosure e exploração tende a se comprimir.

Recomendações práticas

Reduza drasticamente o tempo de patching para vulnerabilidades de browser, V8 e bibliotecas JavaScript em fila de exposição
Acompanhe o ExploitBench e benchmarks similares como indicador antecedente de risco para sua pilha tecnológica
Integre análise de exploitabilidade assistida por IA aos seus próprios processos de vulnerability management — defensores também podem usar a tecnologia
Revise SLAs internos para 1-days críticos: a janela operacional segura pode ter encolhido para horas, não dias
Reforce defesa em profundidade no endpoint: EDR, exploit mitigation, isolamento de browser e sandboxing
Considere programas de red team que avaliem o uso de IA por parte dos atacantes simulados
Atualize threat models para incluir cenários onde adversários têm acesso assistido a desenvolvimento de exploits
Acompanhe a evolução das políticas de uso aceitável e dos guardrails dos provedores de modelos de fronteira

Fonte: Infosecurity Magazine

Claude Mythos supera GPT-5.5 em exploits reais do Chrome no benchmark ExploitBench

O que aconteceu

Como o benchmark funciona

Riscos e implicações

Análise

Recomendações práticas

Inteligencia holandesa alerta: Russia usa cameras IP invadidas para espionagem militar em toda a OTAN

CISA alerta: nova falha crítica no SharePoint (CVE-2026-58644) já sob exploração ativa

China e India rodam campanhas paralelas de espionagem contra a policia do Baloquistao paquistanes

Inteligencia holandesa alerta: Russia usa cameras IP invadidas para espionagem militar em toda a OTAN

Zero-day em plataforma de EAD deixa hackers 9 meses dentro do Ministerio das Relacoes Exteriores da Coreia do Sul

SonicWall SMA sob ataque: CVE-2026-15409 e CVE-2026-15410 exploradas como zero-day desde 22 de junho

Chips da Amazon batem US$ 20 bilhoes de run rate anual e acumulam US$ 225 bi em compromissos: Trainium vira o segundo trilho da infraestrutura de IA

O gap de avaliacao: 50% das empresas rodam agentes de IA que passaram nos testes internos e mesmo assim falharam com clientes

O que aconteceu

Como o benchmark funciona

Riscos e implicações

Análise

Recomendações práticas

Matérias Relacionadas

Veja mais..