Estudo na Nature mostra que governos moldam respostas de chatbots ao moldar a web da qual eles aprendem
Pesquisadores de Oregon, Purdue, UCSD, NYU e Princeton evidenciam em estudo na Nature que mídia estatal coordenada deixa rastros detectáveis em LLMs. Re-treinamento controlado elevou para 80% a frequência de respostas favoráveis ao governo chinês. Mecanismo replica em 37 países.
Um estudo publicado na Nature, conduzido por pesquisadores de Oregon, Purdue, UC San Diego, NYU e Princeton, traz a primeira evidência empírica robusta de que governos podem moldar o comportamento de grandes modelos de linguagem (LLMs) ao moldar o ambiente informacional online do qual esses modelos aprendem. A análise envolveu 37 países e um estudo de caso aprofundado sobre a China — e mostrou que adicionar conteúdo de mídia estatal coordenada ao treinamento aumenta em até 80% a probabilidade de respostas mais favoráveis ao regime em questão.
O que aconteceu
A equipe coordenada por Brandon M. Stewart (Princeton), com Hannah Waight (University of Oregon) e Eddie Yang (Purdue) como co-primeiros autores, batizou o fenômeno de “influência institucional”. A hipótese é direta: antes de a IA influenciar a política, a política influencia a IA — porque o texto que treina LLMs vem de um espaço informacional que já é alvo de pressões estatais, regulatórias e de propaganda.
O paper reúne seis estudos que rastreiam o caminho completo: do ambiente online para os datasets de treinamento, dos datasets para o comportamento dos modelos. Os pesquisadores usaram um mix de métodos: análise de fontes open-source, testes de memorização em modelos comerciais, experimentos de re-treinamento de modelos pequenos, avaliação humana e auditorias com prompts reais de usuários.
O estudo também replica os resultados nos modelos mais recentes disponíveis, segundo os autores — que mantêm um site público com a base de dados (state-media-influence-llm.github.io). A coautora Margaret E. Roberts, da UC San Diego, é codiretora do China Data Lab da escola de Global Policy and Strategy, e foi central na ponte com o estudo de caso chinês.
Como o estudo funciona
Primeiro passo: documentar a presença de mídia estatal nos dados de treinamento. Comparando duas fontes de mídia coordenada pelo Estado chinês com um grande dataset multilíngue derivado do Common Crawl, os autores mostraram que esse material aparece com frequência. Em seguida, testaram se modelos comerciais haviam “memorizado” trechos distintivos dessa cobertura — indicador de que o conteúdo passou várias vezes pelo treinamento.
Segundo passo: re-treinamento controlado. Como treinar um modelo comercial leva meses e milhões de dólares, a equipe usou um modelo aberto pequeno e injetou documentos extras no treinamento. O resultado: adicionar notícias roteirizadas de origem estatal elevou para perto de 80% a frequência de respostas mais favoráveis, em comparação com um modelo não modificado — efeito ausente quando se adicionava texto chinês genérico da internet.
“Conteúdo coordenado pelo Estado não é só o que aparece na mídia oficial. É também recirculação: a mesma frase circulando por jornais, apps, reposts e páginas web comuns até parecer parte do ambiente informacional mais amplo. Uma vez nos dados de treinamento, o modelo é capaz de lavar isso em algo que parece informação neutra e objetiva.”
Brandon M. Stewart, autor correspondente do paper
Terceiro passo: comparação dentro do mesmo modelo, em línguas diferentes. Em perguntas sobre o governo chinês, avaliadores humanos consideraram a resposta dada em mandarim mais favorável à China em 75,3% dos casos — para perguntas que não eram sobre a China, o índice ficou em zona de chance. A diferença de idioma virou uma janela para auditar sistemas fechados sem acesso aos pesos.
Por fim, o trabalho expandiu para 37 países em que um idioma nacional está fortemente concentrado em uma única jurisdição. Resultado: nos idiomas locais, modelos retrataram governos e instituições de países com controle midiático mais forte de forma mais favorável do que em inglês. Os autores classificam esse achado como correlacional, mas consistente com o mecanismo evidenciado no caso chinês.
Quem é afetado
As implicações vão muito além de pesquisadores acadêmicos. Entre os perfis diretamente impactados:
- Equipes de AI safety e red team de empresas como OpenAI, Anthropic, Google e Meta, que precisam pensar em viés geopolítico injetado upstream.
- Provedores de modelos open source treinados em Common Crawl ou variantes — a contaminação não exige cooperação consciente da empresa.
- Governos democráticos e órgãos reguladores que avaliam riscos de modelos estrangeiros em uso doméstico (precedentes: discussão sobre DeepSeek, Qwen e modelos chineses na Europa e nos EUA).
- Empresas que dependem de LLMs multilíngues para suporte, busca, atendimento ou compliance em mercados sob regimes autoritários.
- Jornalistas e analistas de OSINT que usam chatbots como camada de tradução ou de síntese de notícias políticas.
- Equipes de cibersegurança que avaliam risco de desinformação automatizada em campanhas de influência (information operations).
Análise
O estudo desloca o debate em duas direções importantes. A primeira é metodológica: até agora, boa parte da discussão sobre viés em LLMs se limitava a achismos comparativos entre prompts. Ao combinar análise de dados de pré-treinamento, testes de memorização, re-treinamento experimental e comparação cross-language, o paper oferece o tipo de evidência multimétodo que tende a sobreviver a réplicas.
A segunda é geopolítica. Se mídia estatal coordenada deixa rastros detectáveis no comportamento de modelos de fronteira, então campanhas de influência de longo prazo — algo que serviços de inteligência fazem há décadas — adquirem um novo amplificador. Pequim, Moscou ou qualquer ator com capacidade de saturar o ambiente informacional em sua língua passa a poder, indiretamente, sintonizar a resposta padrão de chatbots usados por bilhões de pessoas. Não é necessário hackear a OpenAI; basta publicar muito, em escala, no idioma certo.
Para o ecossistema de segurança, há uma analogia útil: o que chamamos de supply-chain attack em software ganha um equivalente em treinamento de IA. Não é poisoning ativo (injetar conteúdo malicioso direcionado, como em pesquisas de data poisoning recentes), mas algo mais sutil — moldar a distribuição estatística do que é “normal” no dataset. Defender-se disso exige curadoria explícita, transparência sobre fontes e auditoria contínua de comportamento — práticas que a maioria dos provedores de modelo ainda não publica.
Recomendações práticas
- Para equipes que avaliam modelos: incluir auditorias multilíngues no protocolo padrão de red team — questões politicamente sensíveis em pelo menos 5 a 10 idiomas, comparando consistência das respostas.
- Para provedores de modelos: publicar a composição de fontes do dataset de pré-treinamento, com sinalização de domínios identificados como mídia estatal coordenada.
- Para empresas usuárias: definir políticas claras sobre uso de LLMs em fluxos com sensibilidade geopolítica (compliance, KYC, due diligence, jornalismo investigativo).
- Para órgãos reguladores: incorporar testes cross-language nas avaliações de risco previstas em frameworks como o AI Act europeu e o NIST AI RMF.
- Para pesquisadores: replicar a metodologia em modelos não cobertos pelo paper original e em idiomas adicionais (português, espanhol, hindi, árabe), expandindo o mapa empírico.
- Para jornalistas: tratar respostas de chatbots em qualquer idioma como input não verificado, e fazer cross-check contra mesma pergunta em inglês quando o assunto envolver governos com forte controle midiático.
- Para defensores de infraestrutura crítica: considerar o risco de “answer drift” politicamente sensível em assistentes corporativos que dependem de modelos de fronteira sem fine-tuning robusto.
Fonte: UC San Diego Today





