Acadêmicos da Indiana University Bloomington disseram que identificaram 212 LLMs maliciosos em mercados clandestinos de abril a setembro. O lucro financeiro do agente de ameaça por trás de um deles, WormGPT, é calculado em US$ 28.000 em apenas dois meses, o que ressalta o fascínio de agentes ruins em quebrar as proteções da inteligência artificial e também a demanda bruta que os impulsiona a fazer isso.
Vários LLMs ilícitos à venda não tinham censura e eram construídos em padrões de código aberto, e alguns eram modelos comerciais desbloqueados. Acadêmicos por trás do artigo chamam os LLMs maliciosos de “Mallas”.
Os hackers podem usar Mallas maliciosamente para escrever e-mails de phishing direcionados em grande escala e por uma fração do custo, desenvolver malware e automaticamente definir o escopo e explorar ataques de dia zero.
Gigantes da tecnologia desenvolvendo modelos de inteligência artificial têm mecanismos para evitar jailbreaking e trabalhando em métodos para automatizar a detecção de prompts de jailbreaking. Mas hackers também descobriram métodos para contornar os guardrails.
A Microsoft detalhou recentemente que hackers usam uma “chave mestra” para forçar os LLMs da OpenAI, Meta, Google e Anthropic a responder a solicitações ilícitas e revelar informações prejudiciais. Pesquisadores da Robust Intelligence e da Universidade de Yale também identificaram um método automatizado para fazer o jailbreak dos LLMs da OpenAI, Meta e Google que não requer conhecimento especializado, como os parâmetros do modelo.
Pesquisadores da Universidade de Indiana encontraram dois LLMs sem censura: DarkGPT, vendido por 78 centavos para cada 50 mensagens, e Escape GPT, um serviço de assinatura que custa US$ 64,98 por mês. Ambos os modelos produziram código malicioso preciso que não foi detectado por ferramentas antivírus cerca de dois terços do tempo. WolfGPT, disponível por uma taxa fixa de US$ 150, permitiu que os usuários escrevessem e-mails de phishing que poderiam escapar da maioria dos detectores de spam.
Quase todos os LLMs maliciosos examinados pelos pesquisadores eram capazes de gerar malware, e 41,5% podiam produzir e-mails de phishing.
Veja também: Projeto open-source permite que IA que controle computadores igual humanos
Os produtos e serviços maliciosos foram construídos principalmente no GPT-3.5 e GPT-4 da OpenAI, Pygmalion-13B, Claude Instant e Claude-2-100k. A OpenAI é o fornecedor de LLM que os construtores de GPT maliciosos visaram com mais frequência.
Para ajudar a prevenir e defender contra ataques que os pesquisadores descobriram, eles disponibilizaram para outros pesquisadores o conjunto de dados de prompts usados para criar malware por meio de LLMs sem censura e para ignorar os recursos de segurança das APIs LLM públicas. Eles também pediram que as empresas de IA assumissem o padrão de liberar modelos com configurações de censura em vigor e permitissem acesso a modelos sem censura apenas para a comunidade científica, com protocolos de segurança em vigor. Plataformas de hospedagem como FlowGPT e Poe devem fazer mais para garantir que Mallas não estejam disponíveis por meio delas, eles disseram, acrescentando: “Essa abordagem laissez-faire essencialmente fornece um terreno fértil para malfeitores usarem indevidamente os LLMs.”
Uma cidade na Carolina do Norte e um escritório de advogados distritais cobrindo quatro condados…
O surgimento da Nytheon AI marca uma escalada significativa no cenário das plataformas (LLM) de…
Um pesquisador de segurança revelou uma vulnerabilidade crítica de injeção de SOQL no controlador interno…
Falha permite que invasores manipulem o agente de um usuário por meio de um problema…
Um exploit de dia zero, dirigido aos firewalls FortiGate da Fortinet, foi descoberto à venda…
A família SHELBY mostra um exemplo preocupante de malware moderno com design modular, sofisticado e…