O GitHub abriga um projeto fascinante chamado “Self-Operating Computer Framework” desenvolvido pela OthersideAI. Este framework revolucionário visa permitir que modelos multimodais, capazes de processar texto e imagens simultaneamente, controlem computadores como humanos. Imagine uma inteligência artificial que pode interagir com seu computador visualizando a tela, clicando em elementos e digitando informações – essa é a promessa do Self-Operating Computer.
Como Funciona?
O framework funciona conectando modelos multimodais, como GPT-4o, Gemini Pro Vision, Claude 3 e LLaVa, a um ambiente de simulação que replica uma interface de computador. O modelo recebe entradas visuais da tela e decide quais ações realizar, como clicar em botões, digitar texto ou abrir arquivos.
Aplicações Potenciais:
As possibilidades são vastas:
Contribuição para o Projeto:
O projeto é open-source e incentiva contribuições da comunidade. Desenvolvedores podem colaborar na melhoria do framework, adicionando novas funcionalidades ou modelos multimodais.
Se você se interessa por IA, aprendizado de máquina ou desenvolvimento de software, vale a pena conferir o Self-Operating Computer Framework no GitHub!
CVE-2025-20352 no SNMP do IOS/IOS XE permite DoS e até execução como root; aplique os…
Um novo e inteligente golpe do ClickFix está usando um instalador falso do AnyDesk e…
Pesquisadores descobriram que agentes de ameaças exploram o Grok, IA integrada ao X (antigo Twitter),…
As explorações permitem backdooring persistente quando os alvos abrem arquivos armadilhados.
Uma cidade na Carolina do Norte e um escritório de advogados distritais cobrindo quatro condados…
O surgimento da Nytheon AI marca uma escalada significativa no cenário das plataformas (LLM) de…