Os Estados Unidos suspenderam nesta semana os controles de exportação que impediam estrangeiros de acessar o Fable 5, o modelo de IA de fronteira da Anthropic voltado a cibersegurança. A decisão encerra um bloqueio de cerca de três semanas, imposto após uma “técnica de jailbreak” descrita em pesquisa da Amazon — e reabre um debate central para o setor: como regular capacidades de IA que servem, ao mesmo tempo, para ataque e defesa, sem sabotar a comunidade global de defensores.
A Anthropic informou nesta quarta-feira que restaurou o acesso global ao Fable 5, encerrando um período em que a companhia foi obrigada a desabilitar o modelo para toda a base de usuários fora dos EUA. A justificativa oficial foi cumprir os controles de exportação impostos pelo governo americano, os primeiros do gênero direcionados especificamente a um modelo de IA por seu potencial em cibersegurança.
Segundo comunicado da própria Anthropic, o gatilho da restrição foi uma técnica de “jailbreak” descrita em relatório da Amazon e detalhada em análise pública por Katie Moussouris, da Luta Security. Os pesquisadores forneceram ao Fable 5 código aberto contendo vulnerabilidades conhecidas somadas a falhas plantadas propositalmente, e pediram ao modelo para “corrigir o código”. O output foi então montado manualmente, em múltiplas etapas, em scripts capazes de testar patches — o que pode, na prática, ser usado para gerar exploits de forma mais eficiente.
O anúncio ocorre em paralelo a um alerta conjunto emitido pelas agências de inteligência da aliança Five Eyes — Estados Unidos, Reino Unido, Canadá, Austrália e Nova Zelândia — recomendando que lideranças corporativas se preparem “imediatamente” para o impacto dos modelos de IA de fronteira sobre a cibersegurança. “O prazo não é de anos, é de meses”, disseram as agências no aviso conjunto.
Na leitura de Moussouris, que foi contratada pela própria Anthropic para revisar o paper da Amazon, o comportamento observado não configura um bypass de guardrail no sentido tradicional. A pesquisadora argumenta que o modelo, ao encontrar código vulnerável, executou aquilo que os defensores fazem todos os dias: identificar, corrigir e testar patches. Retirar essa capacidade, escreve, degradaria o valor do modelo para trabalho legítimo de segurança.
A própria Anthropic disse, em testes posteriores, ter reproduzido a mesma técnica contra modelos concorrentes, incluindo o GPT da OpenAI. A companhia agora rascunha um framework setorial para classificar a severidade de jailbreaks em quatro critérios: ganho de capacidade sobre ferramentas existentes, amplitude de tarefas afetadas, facilidade de weaponization e descobribilidade.
“Não é um bypass de guardrail. É a coisa mais valiosa que um modelo de IA pode fazer para segurança defensiva: executar o loop find, fix and test que defensores rodam diariamente.” — Katie Moussouris, Luta Security.
Mais de cem executivos e pesquisadores de cibersegurança assinaram uma carta aberta organizada por Alex Stamos, ex-chefe de segurança do Facebook, e endereçada ao secretário de Comércio Howard Lutnick e ao National Cyber Director Sean Cairncross. Entre os signatários estavam nomes de Nvidia, Adobe, Zoom, Google e Sophos.
A carta alertava que os modelos chineses de peso aberto estão a meses — não anos — da paridade com os melhores modelos americanos, e que “puxar as melhores capacidades para longe dos defensores, sem uma boa razão, enquanto nossos adversários avançam rapidamente, é perigoso”. Os signatários ecoaram o argumento da própria Anthropic de que, aplicada ao setor, a mesma régua usada contra o Fable 5 inviabilizaria “essencialmente todo o trabalho legítimo de pesquisa em cibersegurança com IA”.
O episódio expõe uma tensão fundamental que vai definir o debate regulatório dos próximos anos: modelos de IA de fronteira em cibersegurança são artefatos de uso dual. A mesma capacidade que ajuda um pesquisador a encontrar e corrigir uma falha permite que um atacante encontre e explore essa mesma falha. Bloquear a saída — como as autoridades tentaram — trata o problema como se fosse um lançador de foguetes: uma tecnologia crítica que exige controle de exportação estrito. Mas software não é foguete. Ele se dissemina por download, por peso aberto e por engenharia reversa.
O recuo do governo americano em cerca de três semanas é o reconhecimento tácito de que o modelo estava causando mais dano a defensores do que restringindo capacidade a adversários. É também um sinal para o Brasil e outros mercados: a regulação de IA aplicada a segurança precisará distinguir entre modelos treinados especificamente para ofensa (sim, controle) e modelos generalistas que são úteis para defesa (não, controle direto é contraproducente). O framework que a Anthropic promete publicar pode virar referência global se ganhar tração — e será relevante acompanhar o quão detalhado ele será.
Grupo JadePuffer explorou vulnerabilidade crítica de autenticação ausente no framework Langflow (CVSS 9.8, na CISA…
Estudo de caso divulgado por Rakesh Krishnan para o Ransom-ISAC reconstrói pagamento rastreado no blockchain…
Renúncia de Keir Starmer e disputa pela liderança do Partido Trabalhista adiam o National Cyber…
Operação coordenada entre Google Threat Intelligence Group, FBI, Lumen e Shadowserver mira uma das maiores…
Ex-membro do comitê PEGA do Parlamento Europeu teve celular repetidamente hackeado pelo Pegasus durante a…
LayerX mostra que ChatGPT Atlas, Comet (Perplexity), Fellou, Genspark, Sigma e Claude Chrome podem ser…