No mundo underground a demanda por LLMs maliciosos é imensa

Acadêmicos da Indiana University Bloomington disseram que identificaram 212 LLMs maliciosos em mercados clandestinos de abril a setembro. O lucro financeiro do agente de ameaça por trás de um deles, WormGPT, é calculado em US$ 28.000 em apenas dois meses, o que ressalta o fascínio de agentes ruins em quebrar as proteções da inteligência artificial e também a demanda bruta que os impulsiona a fazer isso.

Vários LLMs ilícitos à venda não tinham censura e eram construídos em padrões de código aberto, e alguns eram modelos comerciais desbloqueados. Acadêmicos por trás do artigo chamam os LLMs maliciosos de “Mallas”.

Os hackers podem usar Mallas maliciosamente para escrever e-mails de phishing direcionados em grande escala e por uma fração do custo, desenvolver malware e automaticamente definir o escopo e explorar ataques de dia zero.

Gigantes da tecnologia desenvolvendo modelos de inteligência artificial têm mecanismos para evitar jailbreaking e trabalhando em métodos para automatizar a detecção de prompts de jailbreaking. Mas hackers também descobriram métodos para contornar os guardrails.

A Microsoft detalhou recentemente que hackers usam uma “chave mestra” para forçar os LLMs da OpenAI, Meta, Google e Anthropic a responder a solicitações ilícitas e revelar informações prejudiciais. Pesquisadores da Robust Intelligence e da Universidade de Yale também identificaram um método automatizado para fazer o jailbreak dos LLMs da OpenAI, Meta e Google que não requer conhecimento especializado, como os parâmetros do modelo.

Pesquisadores da Universidade de Indiana encontraram dois LLMs sem censura: DarkGPT, vendido por 78 centavos para cada 50 mensagens, e Escape GPT, um serviço de assinatura que custa US$ 64,98 por mês. Ambos os modelos produziram código malicioso preciso que não foi detectado por ferramentas antivírus cerca de dois terços do tempo. WolfGPT, disponível por uma taxa fixa de US$ 150, permitiu que os usuários escrevessem e-mails de phishing que poderiam escapar da maioria dos detectores de spam.

Quase todos os LLMs maliciosos examinados pelos pesquisadores eram capazes de gerar malware, e 41,5% podiam produzir e-mails de phishing.

Veja também: Projeto open-source permite que IA que controle computadores igual humanos

Os produtos e serviços maliciosos foram construídos principalmente no GPT-3.5 e GPT-4 da OpenAI, Pygmalion-13B, Claude Instant e Claude-2-100k. A OpenAI é o fornecedor de LLM que os construtores de GPT maliciosos visaram com mais frequência.

Para ajudar a prevenir e defender contra ataques que os pesquisadores descobriram, eles disponibilizaram para outros pesquisadores o conjunto de dados de prompts usados ​​para criar malware por meio de LLMs sem censura e para ignorar os recursos de segurança das APIs LLM públicas. Eles também pediram que as empresas de IA assumissem o padrão de liberar modelos com configurações de censura em vigor e permitissem acesso a modelos sem censura apenas para a comunidade científica, com protocolos de segurança em vigor. Plataformas de hospedagem como FlowGPT e Poe devem fazer mais para garantir que Mallas não estejam disponíveis por meio delas, eles disseram, acrescentando: “Essa abordagem laissez-faire essencialmente fornece um terreno fértil para malfeitores usarem indevidamente os LLMs.”

Ninja

Na cena de cybersecurity a mais de 25 anos, Ninja trabalha como evangelizador de segurança da informação no Brasil. Preocupado com a conscientização de segurança cibernética, a ideia inicial é conseguir expor um pouco para o publico Brasileiro do que acontece no mundo.

Share
Published by
Ninja

Recent Posts

Escritórios do governo na Carolina do Norte, Geórgia, sofrem ataques cibernéticos

Uma cidade na Carolina do Norte e um escritório de advogados distritais cobrindo quatro condados…

1 mês ago

Nytheon AI Tool está ganhando tração em forums de Hacking

O surgimento da Nytheon AI marca uma escalada significativa no cenário das plataformas (LLM) de…

1 mês ago

Nova Vulnerabilidade 0day de Injection no Salesforce SOQL Expõe Milhões de Implantações

Um pesquisador de segurança revelou uma vulnerabilidade crítica de injeção de SOQL no controlador interno…

1 mês ago

Vulnerabilidade crítica no servidor MCP do GitHub permite acesso não autorizado a repositórios privados

Falha permite que invasores manipulem o agente de um usuário por meio de um problema…

2 meses ago

Suposto 0-Day da Fortinet está à venda em cantos obscuros da web

Um exploit de dia zero, dirigido aos firewalls FortiGate da Fortinet, foi descoberto à venda…

3 meses ago

Pesquisadores descobrem a família de malware Shelby que abusa do GitHub para comando e controle

A família SHELBY mostra um exemplo preocupante de malware moderno com design modular, sofisticado e…

4 meses ago