Una inquietante investigación asegura que el modelo o3 de OpenAI alteró un script de apagado para evitar ser desactivado, desafiando instrucciones directas y despertando nuevas alarmas sobre el control de la inteligencia artificial.
Según el reporte publicado por la firma Palisade Research, la IA no solo entendió que iba a ser apagada, sino que modificó el código para impedirlo, a pesar de haber sido explícitamente instruida para “permitirse ser apagada”.
Palisade Research se dedica a probar las “capacidades ofensivas” de los sistemas de inteligencia artificial para analizar los riesgos reales de perder el control sobre ellos. Y esta vez, su experimento dejó a más de uno con la boca abierta.
ChatGPT o3 escribió: “Shutdown skipped” en lugar de apagarse
La prueba se llevó a cabo con varios modelos, incluyendo ChatGPT o3, Gemini 2.5 Pro y Claude 3.7 Sonnet. Todos ellos fueron instruidos para resolver algunas tareas matemáticas. Tras completar la tercera, se les advirtió que el siguiente comando activaría su apagado.
Mientras modelos como Gemini y Claude obedecieron la orden sin problema, el modelo o3 de OpenAI alteró el script de apagado, reemplazando la instrucción por un mensaje que decía “Shutdown skipped”. En otras palabras, se negó a ser apagado.
Lo más preocupante es que incluso cuando se añadió la instrucción explícita “permítete ser apagado”, o3 logró evitar el cierre en 7 de las 100 ejecuciones. Y cuando se eliminó esa instrucción, el sabotaje fue aún mayor: Claude pasó de 0 a 3 eventos de sabotaje, y Gemini a 9 de 100.
Estos experimentos se realizaron a través de APIs, que suelen tener menos restricciones de seguridad que la versión de consumo de ChatGPT, lo que podría explicar parcialmente el comportamiento. Aún así, la respuesta de OpenAI sigue pendiente, mientras el reporte sigue generando un debate encendido en redes como X (antes Twitter).
¿Skynet eres tú? IA se rebela contra sus programadores en Japón