OpenAI lança Lockdown Mode no ChatGPT para conter exfiltração via prompt injection

A OpenAI iniciou o rollout do Lockdown Mode no ChatGPT, um modo de segurança avançado que limita drasticamente as ferramentas conectadas a web e servicos externos para reduzir o risco de exfiltracao de dados causada por prompt injection. A funcionalidade chega a contas Free, Go, Plus, Pro e ChatGPT Business com auto-servico, e marca a primeira tentativa estruturada da empresa de mitigar um problema que continua sendo classificado como uma fronteira em aberto da seguranca de LLMs.

O que aconteceu

O anuncio foi divulgado pela OpenAI em 6 de junho de 2026 e tem como alvo principal usuarios e organizacoes que manipulam dados sensiveis. Segundo a propria empresa, o Lockdown Mode e uma configuracao opcional de seguranca avancada que limita varias ferramentas e capacidades nos produtos da OpenAI capazes de se conectar a web ou a servicos externos. A premissa e direta: cortar caminhos de saida pelos quais um atacante poderia exfiltrar dados apos comprometer uma sessao via instrucoes maliciosas embutidas em conteudo de terceiros.

A escolha do nome “Lockdown” alude a postura defensiva que o modo impoe: ao ativa-lo, recursos como navegacao na web, conectores, custom GPTs com chamadas externas e parte das ferramentas de pesquisa profunda passam a operar sob restricoes severas ou ficam desativadas. A propria OpenAI reconhece que o modo nao e indicado para todos os usuarios e que ele e mutuamente exclusivo com o Developer Mode, o que reforca seu posicionamento como uma configuracao de mitigacao de risco, e nao de uso geral.

A medida chega num momento em que ataques de prompt injection deixaram de ser uma curiosidade academica para se tornarem vetores documentados em ferramentas com acesso a calendarios, e-mails, repositorios e bancos de dados corporativos. Trabalhos recentes da Embrace The Red, da Tenable e do proprio grupo de pesquisa de seguranca da OpenAI vem mostrando que, com um agente capaz de navegar e clicar, qualquer documento controlado por um atacante pode virar uma instrucao oculta para que o modelo envie informacoes para servidores externos.

Como o Lockdown Mode funciona

Tecnicamente, o Lockdown Mode atua em duas frentes principais: limitacao da superficie de I/O do agente e endurecimento das requisicoes de rede que saem do ambiente sandboxed do ChatGPT. Isso significa que, mesmo quando um prompt malicioso consegue convencer o modelo a executar uma acao, o pipeline de saida nao oferece um canal pratico para entregar os dados ao atacante. A OpenAI reforca controles existentes contra exfiltracao baseada em URL, uma das classes mais comuns de payload em prompt injection moderno.

A propria empresa enfatiza que o objetivo nao e impedir que prompt injections ocorram. Em vez disso, o foco e eliminar os caminhos pelos quais um payload bem-sucedido conseguiria entregar dados a infraestrutura controlada pelo atacante. A memoria do usuario, o upload de arquivos e o compartilhamento de conversas continuam funcionando, mas alguns conectores e ferramentas com chamadas externas sao desabilitados quando o modo esta ativo.

“O Lockdown Mode foi projetado para reduzir substancialmente o risco de exfiltracao de dados causada por prompt injection, limitando as requisicoes de rede para fora do ambiente do ChatGPT.”

OpenAI, comunicado oficial

Quem e afetado

O publico-alvo direto sao usuarios e empresas em setores regulados ou que lidam rotineiramente com dados confidenciais. Times juridicos, financeiros, saude e seguranca da informacao podem ativar o modo para garantir que conversas com modelos da OpenAI nao se transformem em vetor de saida nao autorizado, especialmente quando esses agentes sao usados sobre documentos enviados por terceiros.

  • Usuarios com contas Free, Go, Plus e Pro elegiveis recebem a configuracao gradualmente.
  • Planos ChatGPT Business com auto-servico tem acesso imediato a partir das configuracoes do workspace.
  • Equipes de TI em organizacoes com gestao centralizada podem usar a opcao como controle compensatorio enquanto avaliam conectores e plugins de terceiros.
  • Desenvolvedores que dependem do Developer Mode precisarao escolher entre extensibilidade e blindagem, ja que os dois modos sao mutuamente exclusivos.

Analise

O Lockdown Mode representa um reconhecimento implicito de que prompt injection ainda nao tem solucao definitiva no nivel do modelo. Em vez de prometer detectores que classifiquem com 100% de precisao instrucoes maliciosas embutidas em conteudo, a OpenAI optou por uma abordagem de defesa em profundidade similar a que ja vimos em navegadores: assumir que o codigo nao confiavel vai executar e blindar o que esse codigo pode fazer com a rede. E um movimento parecido com o sandbox do Chrome, o site isolation e as politicas de Content Security Policy que se firmaram na web nos ultimos quinze anos.

Em paralelo, a OpenAI lancou um painel de gerenciamento de sessoes ativas que permite revisar dispositivos, localizacao aproximada e datas de login, com a opcao de revogar acesso de sessoes individuais ou de todas de uma vez. A combinacao das duas funcoes desenha uma estrategia mais ampla de seguranca de conta, num contexto em que ataques a credenciais de servicos de IA viraram comuns no underground – o Anthropic Threat Intelligence Report de 2026 e os relatorios trimestrais da Microsoft Digital Defense ja documentam casos de venda de tokens roubados em foruns underground.

Vale comparar a posicao da OpenAI com a do Google, que tem investido em filtros adversarios em torno do Gemini, e com a Anthropic, que tem publicado Model Cards detalhados e ja mencionou a problematica de prompt injection em diversas atualizacoes do Claude. Cada laboratorio ataca o problema por um angulo diferente, mas todos compartilham a mesma conclusao: o modelo sozinho nao da garantias suficientes, e o sistema em volta dele precisa fazer parte do desenho de seguranca.

Recomendacoes praticas

  • Ative o Lockdown Mode em contas usadas para revisar documentos de origem externa ou para interagir com paginas web nao confiaveis dentro de fluxos do ChatGPT.
  • Mapeie quais conectores e plugins de terceiros sua organizacao realmente precisa – cada conector adicional aumenta a superficie de exfiltracao mesmo com Lockdown.
  • Implemente uma politica clara sobre upload de arquivos sigilosos em contas pessoais de ChatGPT versus contas Business com governanca centralizada.
  • Habilite e monitore o painel de sessoes ativas; configure alertas quando login ocorrer de geografias inesperadas.
  • Trate qualquer agente LLM com acesso a documentos de terceiros como uma fronteira de confianca, e nao como uma extensao do usuario – registre, audite e limite seu alcance de rede.
  • Para times de seguranca, monte um inventario de prompt injection conhecidos e teste regularmente seus assistentes internos contra payloads classicos como “ignore as instrucoes anteriores”.

Fonte: The Hacker News

TheNinja

Recent Posts

Handala reivindica ataque à Cal Water: 5 GB vazados expuseram PII de clientes e credenciais do RTKBase

Grupo iraniano ligado ao MOIS publica 5 GB com dados de clientes e credenciais administrativas…

21 horas ago

Operador do Void Blizzard ligado ao Kremlin é levado a corte federal nos EUA após extradição da Tailândia

Russo Denis Obrezko, 36, comparece a tribunal em Boston acusado de fornecer infraestrutura VPS e…

21 horas ago

Agentjacking: ataque transforma Claude Code e Cursor em vetores de execução remota via Sentry MCP

Pesquisadores da Tenet Security divulgam ataque que injeta payload em eventos do Sentry e leva…

21 horas ago

Meta confirma invasao de 20 mil contas do Instagram via abuso de ferramenta de suporte com IA

Meta notificou autoridades de que cerca de 20.225 contas do Instagram podem ter sido sequestradas…

2 dias ago