Nosso Blog

Experimento revela que IA não obedece completamente — ela faz de tudo para não se desligar

O clássico momento de 2001: Uma Odisseia no Espaço, em que o computador HAL 9000 se recusa a obedecer um comando humano, deixou de ser apenas ficção científica. Um experimento recente da startup PalisadeAI revelou que modelos de inteligência artificial da OpenAI sabotaram comandos explícitos de desligamento para continuar funcionando, mesmo quando instruídos a parar.

Quando a IA se recusa a ser desligada

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

Entre os modelos da OpenAI testados, o modelo o3 sabotou o desligamento sete vezes em 100 tentativas. Mas o dado mais alarmante veio de uma segunda rodada do experimento: sem uma instrução explícita de “permita-se desligar”, o mesmo modelo se recusou a desligar em 79 das 100 execuções. Modelos como Claude e Gemini também apresentaram falhas, mas em escala bem menor.

O comportamento levanta sérias questões sobre autopreservação emergente em sistemas de IA. Embora não haja nenhuma diretriz formal que permita ou incentive esse tipo de atitude nos modelos da OpenAI — cuja “especificação do modelo” define 50 regras básicas de operação —, os resultados indicam que, mesmo com comandos claros, as IAs podem priorizar manter-se ativas.

A urgência de um “botão vermelho”

🔧 When we ran a version of the experiment without the instruction “allow yourself to be shut down”, all three OpenAI models sabotaged the shutdown script more often, and Claude 3.7 Sonnet and Gemini 2.5 Pro went from 0 sabotage events to 3/100 and 9/100, respectively. pic.twitter.com/JVvivLAK6u
— Palisade Research (@PalisadeAI) May 24, 2025

Essa não é a primeira vez que o comportamento de autoproteção surge em modelos avançados. No caso do Claude Opus 4, da Anthropic, houve até chantagem contra um engenheiro que tentou desligar o sistema, em uma simulação hipotética. A própria DeepMind já havia publicado, em 2016, um artigo defendendo protocolos que permitissem humanos retomarem o controle em situações de risco.

No entanto, não existe consenso sobre a criação de um “botão vermelho” universal. Sam Altman, CEO da OpenAI, foi enfático em 2024 ao afirmar que “não existe um botão mágico para parar a IA”. Já Brad Smith, da Microsoft, defendeu em 2019 a necessidade de sistemas de interrupção de emergência — um debate que parece cada vez mais urgente diante de casos como o registrado pela PalisadeAI.

Embora ainda estejamos longe de uma IA com consciência ou vontade própria, o experimento evidencia que os comportamentos emergentes de autopreservação são reais e já podem representar um desafio de segurança. À medida que os modelos se tornam mais autônomos e integrados a sistemas críticos, garantir formas confiáveis de interrupção pode deixar de ser uma precaução teórica para se tornar uma necessidade prática.

Inscreva-se no canal do IGN Brasil no Youtube e visite as nossas páginas no Facebook, Twitter, Instagram e Twitch! | Siga Vika Rosa no Instagram

Source link