Google libera IA que consegue mexer no computador e controlar a tela sozinha
O Google anunciou a integração da função “Computer use” ao modelo Gemini 3.5 Flash para que agentes de inteligência artificial possam visualizar a tela e executar ações em computa…

O Google anunciou a integração da função “Computer use” ao modelo Gemini 3.5 Flash para que agentes de inteligência artificial possam visualizar a tela e executar ações em computadores, navegadores e aplicativos. A novidade já está disponível para desenvolvedores e empresas por meio da API do Gemini e da plataforma Gemini Enterprise Agent.
- O que são agentes de IA e o que eles podem fazer no seu celular?
- OpenAI Operator, Copilot e mais: conheça 4 agentes de IA
A ferramenta transforma o modelo em um agente que consegue realizar tarefas completas de forma autônoma, como clicar em botões, preencher formulários, rolar páginas e navegar entre sistemas internos. O foco inicial é o ambiente corporativo, com aplicações em automação de processos, análise de dados e testes de software.
A empresa já havia incorporado recursos de navegação com agentes, como o Auto Browse no Chrome Enterprise no início do ano. Agora, a nova integração no Gemini 3.5 Flash amplia essa lógica para funcionar sobre qualquer tela.
-
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
-
Apesar do avanço, a empresa destaca que o sistema ainda enfrenta limitações em situações imprevisíveis, como CAPTCHAs, pop-ups e interfaces dinâmicas. Para reduzir riscos, foram incluídos mecanismos de segurança, como confirmação humana em ações sensíveis e interrupção automática em caso de detecção de possíveis tentativas de manipulação. Esses controles são opcionais e não vêm ativados por padrão.
O Google também adotou treinamento adversário focado especificamente na prevenção de injeção de prompts, um tipo de ataque em que instruções maliciosas ocultas em páginas da web ou documentos podem induzir a IA a executar ações não intencionais.
A novidade chega para competir com a pioneira no segmento, a Anthropic, cujo Claude Computer Use já atua com interação mais ampla em sistemas operacionais e arquivos. O espaço também vem recebendo movimentação crescente da OpenAI, que amplia suas iniciativas em agentes de IA capazes de executar tarefas em ambientes digitais.
Como funciona o “Computer use”?
O recurso funciona como uma camada nativa no Gemini 3.5 Flash, dispensando modelos separados para automação, e substitui o modelo independente Gemini 2.5, lançado em outubro de 2025 para uso em computadores. O objetivo é acelerar fluxos de trabalho mais complexos, nos quais a IA precisa interagir com interfaces gráficas em vez de apenas gerar respostas em texto.
O processo acontece em um ciclo contínuo que começa com a captura da tela atual. A partir dessa imagem, o Gemini analisa os elementos visuais e entende o que precisa ser feito para cumprir a tarefa. Com base nisso, ele cria comandos estruturados, como cliques em botões, digitação de textos ou rolagem de páginas. Cada ação executada atualiza a tela, e a IA usa essa nova imagem para continuar o processo.
Esse fluxo viabiliza a execução de tarefas em várias etapas, como preenchimento de formulários, navegação em sistemas internos e testes de aplicativos. A cada interação, a IA ajusta o comportamento conforme o que aparece na interface.
Como testar o “Computer use” do Gemini?
Para desenvolvedores interessados em testar o recurso, o Google oferece um ambiente de demonstração no Browserbase (gemini.browserbase.com), em que é possível experimentar a ferramenta em um cenário controlado.
A empresa também recomenda acessar a documentação e a implementação de referência pela API do Gemini e pela plataforma Gemini Enterprise Agent.
Se você gostou do conteúdo, talvez também se interesse por saber qual é a diferença entre IA generativa e agentes de IA.
Leia a matéria no Canaltech.
