Categories: CYBERSEC GERALRELATÓRIOS E TENDÊNCIAS

Estudo na Nature mostra que governos moldam respostas de chatbots ao moldar a web da qual eles aprendem

Um estudo publicado na Nature, conduzido por pesquisadores de Oregon, Purdue, UC San Diego, NYU e Princeton, traz a primeira evidência empírica robusta de que governos podem moldar o comportamento de grandes modelos de linguagem (LLMs) ao moldar o ambiente informacional online do qual esses modelos aprendem. A análise envolveu 37 países e um estudo de caso aprofundado sobre a China — e mostrou que adicionar conteúdo de mídia estatal coordenada ao treinamento aumenta em até 80% a probabilidade de respostas mais favoráveis ao regime em questão.

O que aconteceu

A equipe coordenada por Brandon M. Stewart (Princeton), com Hannah Waight (University of Oregon) e Eddie Yang (Purdue) como co-primeiros autores, batizou o fenômeno de “influência institucional”. A hipótese é direta: antes de a IA influenciar a política, a política influencia a IA — porque o texto que treina LLMs vem de um espaço informacional que já é alvo de pressões estatais, regulatórias e de propaganda.

O paper reúne seis estudos que rastreiam o caminho completo: do ambiente online para os datasets de treinamento, dos datasets para o comportamento dos modelos. Os pesquisadores usaram um mix de métodos: análise de fontes open-source, testes de memorização em modelos comerciais, experimentos de re-treinamento de modelos pequenos, avaliação humana e auditorias com prompts reais de usuários.

O estudo também replica os resultados nos modelos mais recentes disponíveis, segundo os autores — que mantêm um site público com a base de dados (state-media-influence-llm.github.io). A coautora Margaret E. Roberts, da UC San Diego, é codiretora do China Data Lab da escola de Global Policy and Strategy, e foi central na ponte com o estudo de caso chinês.

Como o estudo funciona

Primeiro passo: documentar a presença de mídia estatal nos dados de treinamento. Comparando duas fontes de mídia coordenada pelo Estado chinês com um grande dataset multilíngue derivado do Common Crawl, os autores mostraram que esse material aparece com frequência. Em seguida, testaram se modelos comerciais haviam “memorizado” trechos distintivos dessa cobertura — indicador de que o conteúdo passou várias vezes pelo treinamento.

Segundo passo: re-treinamento controlado. Como treinar um modelo comercial leva meses e milhões de dólares, a equipe usou um modelo aberto pequeno e injetou documentos extras no treinamento. O resultado: adicionar notícias roteirizadas de origem estatal elevou para perto de 80% a frequência de respostas mais favoráveis, em comparação com um modelo não modificado — efeito ausente quando se adicionava texto chinês genérico da internet.

“Conteúdo coordenado pelo Estado não é só o que aparece na mídia oficial. É também recirculação: a mesma frase circulando por jornais, apps, reposts e páginas web comuns até parecer parte do ambiente informacional mais amplo. Uma vez nos dados de treinamento, o modelo é capaz de lavar isso em algo que parece informação neutra e objetiva.”
Brandon M. Stewart, autor correspondente do paper

Terceiro passo: comparação dentro do mesmo modelo, em línguas diferentes. Em perguntas sobre o governo chinês, avaliadores humanos consideraram a resposta dada em mandarim mais favorável à China em 75,3% dos casos — para perguntas que não eram sobre a China, o índice ficou em zona de chance. A diferença de idioma virou uma janela para auditar sistemas fechados sem acesso aos pesos.

Por fim, o trabalho expandiu para 37 países em que um idioma nacional está fortemente concentrado em uma única jurisdição. Resultado: nos idiomas locais, modelos retrataram governos e instituições de países com controle midiático mais forte de forma mais favorável do que em inglês. Os autores classificam esse achado como correlacional, mas consistente com o mecanismo evidenciado no caso chinês.

Quem é afetado

As implicações vão muito além de pesquisadores acadêmicos. Entre os perfis diretamente impactados:

Equipes de AI safety e red team de empresas como OpenAI, Anthropic, Google e Meta, que precisam pensar em viés geopolítico injetado upstream.
Provedores de modelos open source treinados em Common Crawl ou variantes — a contaminação não exige cooperação consciente da empresa.
Governos democráticos e órgãos reguladores que avaliam riscos de modelos estrangeiros em uso doméstico (precedentes: discussão sobre DeepSeek, Qwen e modelos chineses na Europa e nos EUA).
Empresas que dependem de LLMs multilíngues para suporte, busca, atendimento ou compliance em mercados sob regimes autoritários.
Jornalistas e analistas de OSINT que usam chatbots como camada de tradução ou de síntese de notícias políticas.
Equipes de cibersegurança que avaliam risco de desinformação automatizada em campanhas de influência (information operations).

Análise

O estudo desloca o debate em duas direções importantes. A primeira é metodológica: até agora, boa parte da discussão sobre viés em LLMs se limitava a achismos comparativos entre prompts. Ao combinar análise de dados de pré-treinamento, testes de memorização, re-treinamento experimental e comparação cross-language, o paper oferece o tipo de evidência multimétodo que tende a sobreviver a réplicas.

A segunda é geopolítica. Se mídia estatal coordenada deixa rastros detectáveis no comportamento de modelos de fronteira, então campanhas de influência de longo prazo — algo que serviços de inteligência fazem há décadas — adquirem um novo amplificador. Pequim, Moscou ou qualquer ator com capacidade de saturar o ambiente informacional em sua língua passa a poder, indiretamente, sintonizar a resposta padrão de chatbots usados por bilhões de pessoas. Não é necessário hackear a OpenAI; basta publicar muito, em escala, no idioma certo.

Para o ecossistema de segurança, há uma analogia útil: o que chamamos de supply-chain attack em software ganha um equivalente em treinamento de IA. Não é poisoning ativo (injetar conteúdo malicioso direcionado, como em pesquisas de data poisoning recentes), mas algo mais sutil — moldar a distribuição estatística do que é “normal” no dataset. Defender-se disso exige curadoria explícita, transparência sobre fontes e auditoria contínua de comportamento — práticas que a maioria dos provedores de modelo ainda não publica.

Recomendações práticas

Para equipes que avaliam modelos: incluir auditorias multilíngues no protocolo padrão de red team — questões politicamente sensíveis em pelo menos 5 a 10 idiomas, comparando consistência das respostas.
Para provedores de modelos: publicar a composição de fontes do dataset de pré-treinamento, com sinalização de domínios identificados como mídia estatal coordenada.
Para empresas usuárias: definir políticas claras sobre uso de LLMs em fluxos com sensibilidade geopolítica (compliance, KYC, due diligence, jornalismo investigativo).
Para órgãos reguladores: incorporar testes cross-language nas avaliações de risco previstas em frameworks como o AI Act europeu e o NIST AI RMF.
Para pesquisadores: replicar a metodologia em modelos não cobertos pelo paper original e em idiomas adicionais (português, espanhol, hindi, árabe), expandindo o mapa empírico.
Para jornalistas: tratar respostas de chatbots em qualquer idioma como input não verificado, e fazer cross-check contra mesma pergunta em inglês quando o assunto envolver governos com forte controle midiático.
Para defensores de infraestrutura crítica: considerar o risco de “answer drift” politicamente sensível em assistentes corporativos que dependem de modelos de fronteira sem fine-tuning robusto.

Fonte: UC San Diego Today

TheNinja

Next Só 10% dos SOCs dizem extrair valor excelente da IA: o que SOC-CMM 2026 revela sobre a segunda onda »

Previous « OWASP lança Enterprise Adoption Maturity Model para governança de agentic AI

Published by

TheNinja

2 meses ago

INTELIGENCIA ARTIFICIAL

Chips da Amazon batem US$ 20 bilhoes de run rate anual e acumulam US$ 225 bi em compromissos: Trainium vira o segundo trilho da infraestrutura de IA

A operacao de chips da AWS - Trainium, Graviton e Nitro - chegou a US$…

14 horas ago

INTELIGENCIA ARTIFICIAL

O gap de avaliacao: 50% das empresas rodam agentes de IA que passaram nos testes internos e mesmo assim falharam com clientes

Nova pesquisa da VentureBeat expoe o evaluation gap: 50% das empresas lancaram agentes de IA…

14 horas ago

INTELIGENCIA ARTIFICIAL

Google DeepMind e Isomorphic Labs lancam programa de bioresiliencia: IA passa a monitorar patogenos e desenhar contramedidas para governos

DeepMind e Isomorphic Labs anunciaram em 16 de julho um programa conjunto de bioresiliencia para…

14 horas ago

Estudo na Nature mostra que governos moldam respostas de chatbots ao moldar a web da qual eles aprendem

O que aconteceu

Como o estudo funciona

Quem é afetado

Análise

Recomendações práticas

Recent Posts

Inteligencia holandesa alerta: Russia usa cameras IP invadidas para espionagem militar em toda a OTAN

Zero-day em plataforma de EAD deixa hackers 9 meses dentro do Ministerio das Relacoes Exteriores da Coreia do Sul

SonicWall SMA sob ataque: CVE-2026-15409 e CVE-2026-15410 exploradas como zero-day desde 22 de junho

Chips da Amazon batem US$ 20 bilhoes de run rate anual e acumulam US$ 225 bi em compromissos: Trainium vira o segundo trilho da infraestrutura de IA

O gap de avaliacao: 50% das empresas rodam agentes de IA que passaram nos testes internos e mesmo assim falharam com clientes

Google DeepMind e Isomorphic Labs lancam programa de bioresiliencia: IA passa a monitorar patogenos e desenhar contramedidas para governos

Estudo na Nature mostra que governos moldam respostas de chatbots ao moldar a web da qual eles aprendem

O que aconteceu

Como o estudo funciona

Quem é afetado

Análise

Recomendações práticas

Related Post

Recent Posts

Inteligencia holandesa alerta: Russia usa cameras IP invadidas para espionagem militar em toda a OTAN

Zero-day em plataforma de EAD deixa hackers 9 meses dentro do Ministerio das Relacoes Exteriores da Coreia do Sul

SonicWall SMA sob ataque: CVE-2026-15409 e CVE-2026-15410 exploradas como zero-day desde 22 de junho

Chips da Amazon batem US$ 20 bilhoes de run rate anual e acumulam US$ 225 bi em compromissos: Trainium vira o segundo trilho da infraestrutura de IA

O gap de avaliacao: 50% das empresas rodam agentes de IA que passaram nos testes internos e mesmo assim falharam com clientes

Google DeepMind e Isomorphic Labs lancam programa de bioresiliencia: IA passa a monitorar patogenos e desenhar contramedidas para governos