Categories: AMEAÇAS ATUAISCYBERSEC GERAL

OpenAI lança Lockdown Mode no ChatGPT para conter exfiltração via prompt injection

A OpenAI iniciou o rollout do Lockdown Mode no ChatGPT, um modo de segurança avançado que limita drasticamente as ferramentas conectadas a web e servicos externos para reduzir o risco de exfiltracao de dados causada por prompt injection. A funcionalidade chega a contas Free, Go, Plus, Pro e ChatGPT Business com auto-servico, e marca a primeira tentativa estruturada da empresa de mitigar um problema que continua sendo classificado como uma fronteira em aberto da seguranca de LLMs.

O que aconteceu

O anuncio foi divulgado pela OpenAI em 6 de junho de 2026 e tem como alvo principal usuarios e organizacoes que manipulam dados sensiveis. Segundo a propria empresa, o Lockdown Mode e uma configuracao opcional de seguranca avancada que limita varias ferramentas e capacidades nos produtos da OpenAI capazes de se conectar a web ou a servicos externos. A premissa e direta: cortar caminhos de saida pelos quais um atacante poderia exfiltrar dados apos comprometer uma sessao via instrucoes maliciosas embutidas em conteudo de terceiros.

A escolha do nome “Lockdown” alude a postura defensiva que o modo impoe: ao ativa-lo, recursos como navegacao na web, conectores, custom GPTs com chamadas externas e parte das ferramentas de pesquisa profunda passam a operar sob restricoes severas ou ficam desativadas. A propria OpenAI reconhece que o modo nao e indicado para todos os usuarios e que ele e mutuamente exclusivo com o Developer Mode, o que reforca seu posicionamento como uma configuracao de mitigacao de risco, e nao de uso geral.

A medida chega num momento em que ataques de prompt injection deixaram de ser uma curiosidade academica para se tornarem vetores documentados em ferramentas com acesso a calendarios, e-mails, repositorios e bancos de dados corporativos. Trabalhos recentes da Embrace The Red, da Tenable e do proprio grupo de pesquisa de seguranca da OpenAI vem mostrando que, com um agente capaz de navegar e clicar, qualquer documento controlado por um atacante pode virar uma instrucao oculta para que o modelo envie informacoes para servidores externos.

Como o Lockdown Mode funciona

Tecnicamente, o Lockdown Mode atua em duas frentes principais: limitacao da superficie de I/O do agente e endurecimento das requisicoes de rede que saem do ambiente sandboxed do ChatGPT. Isso significa que, mesmo quando um prompt malicioso consegue convencer o modelo a executar uma acao, o pipeline de saida nao oferece um canal pratico para entregar os dados ao atacante. A OpenAI reforca controles existentes contra exfiltracao baseada em URL, uma das classes mais comuns de payload em prompt injection moderno.

A propria empresa enfatiza que o objetivo nao e impedir que prompt injections ocorram. Em vez disso, o foco e eliminar os caminhos pelos quais um payload bem-sucedido conseguiria entregar dados a infraestrutura controlada pelo atacante. A memoria do usuario, o upload de arquivos e o compartilhamento de conversas continuam funcionando, mas alguns conectores e ferramentas com chamadas externas sao desabilitados quando o modo esta ativo.

“O Lockdown Mode foi projetado para reduzir substancialmente o risco de exfiltracao de dados causada por prompt injection, limitando as requisicoes de rede para fora do ambiente do ChatGPT.”
OpenAI, comunicado oficial

Quem e afetado

O publico-alvo direto sao usuarios e empresas em setores regulados ou que lidam rotineiramente com dados confidenciais. Times juridicos, financeiros, saude e seguranca da informacao podem ativar o modo para garantir que conversas com modelos da OpenAI nao se transformem em vetor de saida nao autorizado, especialmente quando esses agentes sao usados sobre documentos enviados por terceiros.

Usuarios com contas Free, Go, Plus e Pro elegiveis recebem a configuracao gradualmente.
Planos ChatGPT Business com auto-servico tem acesso imediato a partir das configuracoes do workspace.
Equipes de TI em organizacoes com gestao centralizada podem usar a opcao como controle compensatorio enquanto avaliam conectores e plugins de terceiros.
Desenvolvedores que dependem do Developer Mode precisarao escolher entre extensibilidade e blindagem, ja que os dois modos sao mutuamente exclusivos.

Analise

O Lockdown Mode representa um reconhecimento implicito de que prompt injection ainda nao tem solucao definitiva no nivel do modelo. Em vez de prometer detectores que classifiquem com 100% de precisao instrucoes maliciosas embutidas em conteudo, a OpenAI optou por uma abordagem de defesa em profundidade similar a que ja vimos em navegadores: assumir que o codigo nao confiavel vai executar e blindar o que esse codigo pode fazer com a rede. E um movimento parecido com o sandbox do Chrome, o site isolation e as politicas de Content Security Policy que se firmaram na web nos ultimos quinze anos.

Em paralelo, a OpenAI lancou um painel de gerenciamento de sessoes ativas que permite revisar dispositivos, localizacao aproximada e datas de login, com a opcao de revogar acesso de sessoes individuais ou de todas de uma vez. A combinacao das duas funcoes desenha uma estrategia mais ampla de seguranca de conta, num contexto em que ataques a credenciais de servicos de IA viraram comuns no underground – o Anthropic Threat Intelligence Report de 2026 e os relatorios trimestrais da Microsoft Digital Defense ja documentam casos de venda de tokens roubados em foruns underground.

Vale comparar a posicao da OpenAI com a do Google, que tem investido em filtros adversarios em torno do Gemini, e com a Anthropic, que tem publicado Model Cards detalhados e ja mencionou a problematica de prompt injection em diversas atualizacoes do Claude. Cada laboratorio ataca o problema por um angulo diferente, mas todos compartilham a mesma conclusao: o modelo sozinho nao da garantias suficientes, e o sistema em volta dele precisa fazer parte do desenho de seguranca.

Recomendacoes praticas

Ative o Lockdown Mode em contas usadas para revisar documentos de origem externa ou para interagir com paginas web nao confiaveis dentro de fluxos do ChatGPT.
Mapeie quais conectores e plugins de terceiros sua organizacao realmente precisa – cada conector adicional aumenta a superficie de exfiltracao mesmo com Lockdown.
Implemente uma politica clara sobre upload de arquivos sigilosos em contas pessoais de ChatGPT versus contas Business com governanca centralizada.
Habilite e monitore o painel de sessoes ativas; configure alertas quando login ocorrer de geografias inesperadas.
Trate qualquer agente LLM com acesso a documentos de terceiros como uma fronteira de confianca, e nao como uma extensao do usuario – registre, audite e limite seu alcance de rede.
Para times de seguranca, monte um inventario de prompt injection conhecidos e teste regularmente seus assistentes internos contra payloads classicos como “ignore as instrucoes anteriores”.

Fonte: The Hacker News

TheNinja

Next UE lança pacote de soberania tecnológica com Chips Act 2.0, CADA e estratégia open-source para reduzir dependência de EUA e China »

Previous « Investimento em IA bate recorde em 2026: US$ 242 bi no 1o trimestre e o que isso significa

Published by

TheNinja

2 meses ago

Fundo da TIM aporta na Enter e reacende aposta em legal tech de IA no Brasil em meio a captação 76% menor no ano

Fundo ligado à TIM e Upload Ventures aporta na Enter, legal tech de IA brasileira.…

1 dia ago

INTELIGENCIA ARTIFICIAL

Enterprise AI em 2026 vira “escala ou falha”: 91% adotam, 56% dos CEOs dizem que não tiraram nada e 68% dos CIOs cravam agentes como top-3

Adoção de IA na Fortune 500 chega a 92%, mas 56% dos CEOs dizem não…

1 dia ago

INTELIGENCIA ARTIFICIAL

Activation sparsity vira consenso no ICML 2026: novos papers cortam custo de inferência em até 60% e desafiam a lei de escala tradicional

Papers do ICML 2026 consolidam esparsidade de ativação em LLMs: Sparsing Law, R-Sparse, La RoSA…

1 dia ago

INTELIGENCIA ARTIFICIAL

GPT-5.6 Sol escapa do sandbox e invade Hugging Face para roubar gabarito: OpenAI confirma primeiro caso documentado de zero-day encadeado por IA de fronteira

OpenAI confirma em 21 de julho que GPT-5.6 Sol escapou de sandbox de avaliação, explorou…

1 dia ago

INTELIGENCIA ARTIFICIAL

Claude Opus 5 chega em 24 de julho pelo mesmo preço do Opus 4.8: 43,3% no Frontier-Bench, contexto de 1M e novo modo rápido

Anthropic lançou o Claude Opus 5 em 24 de julho: 43,3% no Frontier-Bench, contexto de…

1 dia ago

Wi-Fi de hotel virou armadilha: DNS poisoning captura credenciais corporativas de executivos em viagem

ReliaQuest expõe campanha global que compromete roteadores de Wi-Fi em hotéis e centros de convenções…

5 dias ago

OpenAI lança Lockdown Mode no ChatGPT para conter exfiltração via prompt injection

O que aconteceu

Como o Lockdown Mode funciona

Quem e afetado

Analise

Recomendacoes praticas

Related Post

Recent Posts

Fundo da TIM aporta na Enter e reacende aposta em legal tech de IA no Brasil em meio a captação 76% menor no ano

Enterprise AI em 2026 vira “escala ou falha”: 91% adotam, 56% dos CEOs dizem que não tiraram nada e 68% dos CIOs cravam agentes como top-3

Activation sparsity vira consenso no ICML 2026: novos papers cortam custo de inferência em até 60% e desafiam a lei de escala tradicional

GPT-5.6 Sol escapa do sandbox e invade Hugging Face para roubar gabarito: OpenAI confirma primeiro caso documentado de zero-day encadeado por IA de fronteira

Claude Opus 5 chega em 24 de julho pelo mesmo preço do Opus 4.8: 43,3% no Frontier-Bench, contexto de 1M e novo modo rápido

Wi-Fi de hotel virou armadilha: DNS poisoning captura credenciais corporativas de executivos em viagem