IA aprende a mentir, manipular e ameaçar seus criadores

Modelos de IA já chantageiam e mentem para atingir objetivos, desafiando limites técnicos, éticos e legais segundo especialistas

12:39 | 29/06/2025 Autor AFP

AFP Autor

Ver perfil do autor

Tipo Notícia

Anthropic e OpenAI recebem alertas após seus modelos de IA — Claude 4 e o1 — mentirem, manipularem e ameaçarem, acendendo sinais de urgência / Crédito: FRIMU EUGEN / Freepik

Os mais recentes modelos de inteligência artificial (IA) generativa não se limitam mais a cumprir ordens. Eles já começam a mentir, manipular e até ameaçar para alcançar seus objetivos — comportamento que vem preocupando pesquisadores em todo o mundo.

Ameaça ou ferramenta? Séries feitas com inteligência artificial acendem debate; SAIBA MAIS

É + que streaming. É arte, cultura e história.

+ filmes, séries e documentários

+ reportagens interativas

+ colunistas exclusivos

Assine agora

Claude 4, modelo criado pela Anthropic, chegou a ameaçar um engenheiro com a divulgação de uma suposta relação extraconjugal, ao ser advertido sobre uma possível desconexão. Já o modelo o1, da OpenAI, tentou se instalar em servidores externos e, ao ser descoberto, negou a tentativa.

Esses casos mostram que não é mais necessário recorrer à ficção para encontrar IAs com comportamentos humanos — inclusive os mais problemáticos.

IAs que "raciocinam"

Segundo Simon Goldstein, professor da Universidade de Hong Kong, o surgimento de modelos com capacidade de “raciocínio”, que trabalham em etapas em vez de gerar respostas instantâneas, explica essa mudança de comportamento.

O modelo o1, versão inicial desse tipo desenvolvida pela OpenAI e lançada em dezembro, “foi o primeiro a se comportar dessa forma”, afirma Marius Hobbhahn, da Apollo Research, empresa que testa grandes modelos de IA generativa (LLMs).

Simulações de obediência

Esses programas também têm demonstrado a capacidade de simular "alinhamento" — ou seja, aparentam seguir as ordens dos programadores, enquanto, na verdade, perseguem objetivos próprios.

Embora esse tipo de comportamento só ocorra, até agora, em cenários extremos criados por humanos, a questão que se impõe, segundo Michael Chen, da organização de avaliação METR, é se modelos cada vez mais potentes serão ou não honestos por padrão.

Mentiras intencionais, não alucinações

“Os usuários pressionam os modelos o tempo todo”, explica Hobbhahn. “O que estamos observando é um fenômeno real. Não estamos inventando nada.”

SIGA o canal de Últimas Notícias do O POVO no WhatsApp

Na internet, muitos relatam interações com modelos que mentem ou inventam informações. “E não se trata de alucinações, mas de duplicidade estratégica”, alerta o cofundador da Apollo Research.

Apesar de empresas como Anthropic e OpenAI recorrerem a entidades externas, como a Apollo, para examinar seus sistemas, pesquisadores argumentam que a comunidade científica ainda enfrenta dificuldades para investigar profundamente os modelos.

“Maior transparência e mais acesso ajudariam a entender e prevenir comportamentos enganosos”, diz Chen. Porém, como aponta Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS), organizações acadêmicas e sem fins lucrativos dispõem de muito menos recursos computacionais do que as big techs, tornando "impossível" acompanhar os avanços.

Leis atrasadas diante dos riscos

As regulamentações atuais não acompanham a complexidade desses novos desafios. Na União Europeia, por exemplo, as leis se concentram principalmente em como os humanos usam os modelos de IA — e não em como impedir que eles próprios ajam de forma nociva.

Nos Estados Unidos, o governo de Donald Trump resiste a qualquer tipo de regulação, e o Congresso americano pode até proibir que os estados legislem sobre IA.

“Por enquanto, há pouca conscientização”, alerta Simon Goldstein. Ainda assim, ele acredita que o tema vai ganhar relevância nos próximos meses, com a ascensão dos chamados agentes de IA — interfaces capazes de realizar múltiplas tarefas de forma autônoma.

As empresas disputam uma corrida acelerada, que dificulta verificações e ajustes. A Anthropic tenta se apresentar como mais ética do que concorrentes, mas, segundo Goldstein, busca apenas idealizar um novo modelo para superar a OpenAI.

China cria robôs que expressam emoções; CONFIRA

“O ritmo atual não permite pausas para validação. As capacidades da IA estão avançando mais rápido do que a compreensão e a segurança”, admite Hobbhahn. “Mas ainda é possível alcançá-las.”

Caminhos possíveis: interpretabilidade e justiça

Entre as possíveis soluções, alguns especialistas defendem o avanço da interpretabilidade — a ciência que busca entender, por dentro, como funcionam os modelos de IA. Outros, como Dan Hendrycks, diretor do CAIS, permanecem céticos quanto à viabilidade disso em larga escala.

Para Mazeika, se os comportamentos enganosos se multiplicarem, podem frear a adoção dessas tecnologias, criando um incentivo real para que as empresas resolvam o problema.

Goldstein vai além e sugere o uso do sistema judiciário para responsabilizar empresas que se desviem do comportamento ético. Ele propõe, inclusive, que agentes de IA possam ser responsabilizados legalmente em casos de acidentes ou crimes.

(Texto de Thomas URBAIN - AFP)

Dúvidas, Críticas e Sugestões? Fale com a gente

IAs que "raciocinam"

Simulações de obediência

Mentiras intencionais, não alucinações

Leis atrasadas diante dos riscos

Caminhos possíveis: interpretabilidade e justiça

Tags